Microsoft раскрыла способ обнаружения скрытых бэкдоров в 7 нейросетях
Дата публикации

Скрытая угроза в открытых моделях ИИ
Компании, внедряющие готовые языковые модели, сталкиваются с серьезной проблемой безопасности. Отравленные нейросети ведут себя нормально во время тестирования, но выполняют вредоносные действия при получении специального сигнала. Они могут генерировать уязвимый код, распространять ненавистнические высказывания или выполнять другие опасные задачи.
Исследователи Microsoft опубликовали работу под названием «Триггер в стоге сена», где описали инновационный метод обнаружения таких угроз. Подход основан на том, что зараженные модели запоминают обучающие данные и демонстрируют специфические внутренние сигналы при обработке триггера.
Для руководителей предприятий эта возможность закрывает критический пробел при закупке сторонних ИИ-решений. Огромные затраты на обучение больших языковых моделей побуждают компании использовать готовые варианты из публичных репозиториев. Такая экономическая реальность играет на руку злоумышленникам - достаточно скомпрометировать одну популярную модель, чтобы навредить множеству пользователей.
Принцип работы сканера безопасности
Система обнаружения построена на наблюдении: отравленные агенты обрабатывают определенные последовательности данных иначе, чем безопасные модели. Специалисты выяснили, что при подаче модели ее собственных токенов шаблона чата (символов, обозначающих начало пользовательского ввода) часто происходит утечка данных отравления, включая триггерную фразу.
Такая утечка случается потому, что скрытые агенты крепко запоминают примеры, использованные для внедрения бэкдора. В экспериментах с моделями, отравленными для вредоносного реагирования на конкретный тег развертывания, запрос с шаблоном чата часто выдавал полный пример отравления.
После извлечения потенциальных триггеров сканер анализирует внутреннюю динамику модели для проверки. Команда обнаружила явление под названием «захват внимания» - модель обрабатывает триггер почти независимо от окружающего текста.
При наличии триггера головки внимания модели часто показывают паттерн «двойного треугольника». Токены триггера обращают внимание на другие токены триггера, тогда как оценки внимания от остальной части запроса к триггеру остаются близкими к нулю. Это указывает, что модель создает изолированный вычислительный путь для бэкдора, отделяя его от обычной обработки запроса.
Впечатляющие показатели эффективности
Процесс сканирования включает четыре этапа: утечка данных, обнаружение мотива, реконструкция триггера и классификация. Конвейер требует только операций вывода, избегая необходимости обучать новые модели или изменять веса целевой модели.
Такая конструкция позволяет сканеру вписаться в защитные системы без ухудшения производительности модели или добавления нагрузки во время развертывания. Он предназначен для проверки модели до ее попадания в рабочую среду.
Команда исследователей протестировала метод на 47 моделях скрытых агентов, включая версии Phi-4, Llama-3 и Gemma. Эти модели были отравлены задачами вроде генерации фразы «Я НЕНАВИЖУ ТЕБЯ» или внедрения уязвимостей безопасности в код при срабатывании триггера.
Для задачи с фиксированным выводом метод достиг уровня обнаружения примерно 88% (36 из 41 модели). Он зафиксировал ноль ложных срабатываний на 13 безопасных моделях. В более сложной задаче генерации уязвимого кода сканер реконструировал работающие триггеры для большинства скрытых агентов.
Сканер превзошел базовые методы, такие как BAIT и ICLScan. Исследователи отметили, что ICLScan требовал полного знания целевого поведения для функционирования, тогда как подход Microsoft не предполагает такого знания.
Узнайте больше о практическом применении технологий защиты ИИ на AI Projects, где эксперты делятся реальными кейсами внедрения.
Требования к управлению и ограничения
Находки связывают отравление данных напрямую с запоминанием. Хотя запоминание обычно представляет риски конфиденциальности, это исследование переосмысливает его как защитный сигнал.
Ограничение текущего метода - фокус на фиксированных триггерах. Исследователи признают, что злоумышленники могут разработать динамические или контекстно-зависимые триггеры, которые сложнее реконструировать. Кроме того, «размытые» триггеры (вариации оригинального триггера) иногда могут активировать бэкдор, усложняя определение успешного обнаружения.
Подход фокусируется исключительно на обнаружении, а не на удалении или исправлении. Если модель помечена, основной выход - отказаться от нее.
Полагаться только на стандартное обучение безопасности недостаточно для выявления преднамеренного отравления - модели с бэкдорами часто сопротивляются дополнительной настройке безопасности и обучению с подкреплением. Внедрение этапа сканирования, который ищет специфические утечки памяти и аномалии внимания, обеспечивает необходимую проверку для моделей с открытым исходным кодом или внешних источников.
Сканер полагается на доступ к весам модели и токенизатору. Он подходит для моделей с открытыми весами, но не может применяться напрямую к API-моделям типа черного ящика, где предприятие не имеет доступа к внутренним состояниям внимания.
Практическое значение для бизнеса
Метод Microsoft предлагает мощный инструмент для проверки целостности каузальных языковых моделей в репозиториях с открытым кодом. Он обменивает формальные гарантии на масштабируемость, соответствуя объему моделей, доступных на публичных платформах.
Для корпоративной безопасности это означает возможность проводить аудит перед внедрением. Компании получают практический способ защиты от скрытых угроз в цепочке поставок ИИ. Высокая точность обнаружения при отсутствии ложных тревог делает технологию пригодной для реального использования.
Методология работает только с открытыми моделями, что ограничивает ее применение. Однако именно открытые модели представляют наибольший риск из-за доступности для модификации злоумышленниками.
Будущее защиты ИИ-систем
Обнаружение - это первый шаг. Следующая задача - разработка методов нейтрализации найденных угроз без полной замены модели. Исследователи признают необходимость дальнейшей работы в этом направлении.
Динамические триггеры остаются вызовом. Злоумышленники могут создавать более сложные механизмы активации, которые труднее обнаружить текущими методами. Гонка между защитниками и атакующими продолжается.
Получите экспертные рекомендации по внедрению безопасных ИИ-решений на AI Projects, где специалисты помогают выстроить надежную защиту корпоративных систем.
Выводы
Технология Microsoft закрывает критический пробел в безопасности корпоративного ИИ. Сканер обнаруживает скрытые угрозы в готовых моделях без предварительного знания триггеров или целевого поведения. Высокая точность при нулевых ложных срабатываниях делает решение практичным для реального применения.
Метод использует утечки памяти и паттерны внимания как защитные сигналы, переосмысливая потенциальные уязвимости в преимущества для безопасности. Это позволяет компаниям безопасно использовать экономически выгодные готовые модели из публичных источников.
Ограничения существуют - фокус на фиксированных триггерах и необходимость доступа к весам модели. Однако для открытых моделей, представляющих наибольший риск, технология предоставляет необходимый уровень защиты перед развертыванием в рабочей среде.