
Специалисты Microsoft представили революционную методику выявления отравленных моделей искусственного интеллекта. Эти модели содержат скрытые угрозы, которые активируются при появлении специальных триггерных фраз. Новый сканер использует уникальный подход: он анализирует утечки памяти и паттерны внимания внутри нейросети, чтобы обнаружить вредоносные закладки без предварительного знания триггеров. Метод показал впечатляющие результаты - 88% успешных обнаружений при нулевом проценте ложных срабатываний. Это критически важно для компаний, использующих готовые языковые модели из открытых источников. Высокая стоимость обучения ИИ заставляет организации применять сторонние решения, что создает уязвимости в цепочке поставок. Злоумышленники могут внедрить бэкдор в популярную модель и поразить множество пользователей одновременно. Новая технология заполняет пробел в безопасности корпоративного ИИ, предлагая практичный инструмент проверки моделей перед их внедрением в рабочую среду.










