ИИ-ассистенты: 7 рисков, о которых молчат разработчики

Революция с темной стороной

ИИ-агенты превратились в настоящую лотерею. Даже запертые в окне чата, языковые модели совершают ошибки и ведут себя непредсказуемо. Когда же им дают инструменты для взаимодействия с реальным миром - браузеры, почтовые ящики, доступ к файлам - последствия промахов становятся по-настоящему серьезными.

Возможно, именно поэтому первый прорывной персональный ассистент на базе LLM появился не в лаборатории технологического гиганта, который дорожит репутацией и боится судебных исков. Его создал независимый инженер Питер Штайнбергер. В ноябре 2025 года он загрузил свой инструмент, получивший название OpenClaw, на GitHub, а в конце января проект стал вирусным.

OpenClaw использует существующие языковые модели, позволяя пользователям создавать собственных помощников под конкретные задачи. Некоторые энтузиасты передают системе горы личной информации - от переписки за несколько лет до содержимого жесткого диска. Специалисты по безопасности в настоящем ужасе.

Почему эксперты бьют тревогу

Угрозы, связанные с OpenClaw, настолько обширны, что на изучение всех появившихся за последние недели статей о безопасности инструмента уйдет добрая неделя. Китайское правительство дошло до публичного предупреждения об уязвимостях системы.

В ответ на опасения Штайнбергер написал в соцсети X, что людям без технических навыков лучше не использовать программу. На запрос комментария для этой статьи он не ответил. Однако спрос на возможности OpenClaw очевиден, и он не ограничивается теми, кто способен провести собственный аудит безопасности.

Любая компания, желающая войти в бизнес персональных ассистентов, должна понять, как создать систему, защищающую данные пользователей. Для этого придется позаимствовать подходы из передовых исследований безопасности агентов. Узнайте больше о практических решениях на сайте AI Projects.

Управление рисками в эпоху суперпомощников

OpenClaw - это своего рода экзоскелет для языковых моделей. Пользователи выбирают любую LLM в качестве «пилота», которая получает улучшенные возможности памяти и способность назначать себе задачи с регулярным повторением. В отличие от агентских решений крупных ИИ-компаний, агенты OpenClaw работают круглосуточно, а общаться с ними можно через WhatsApp или другие мессенджеры.

Это означает, что они действуют как суперзаряженный личный помощник: будят вас каждое утро персонализированным списком дел, планируют отпуск, пока вы работаете, и создают новые приложения в свободное время.

Но вся эта мощь имеет последствия. Если вы хотите, чтобы ИИ-ассистент управлял почтовым ящиком, нужно дать ему доступ к электронной почте - и всей конфиденциальной информации в ней. Если нужно, чтобы он совершал покупки от вашего имени, придется передать данные кредитной карты. А если требуется выполнение задач на компьютере, например написание кода, он должен получить доступ к локальным файлам.

Три сценария катастрофы

Существует несколько способов, как это может пойти не так. Первый - ИИ-помощник совершает ошибку, как в случае, когда агент Google Antigravity, по сообщениям, полностью стер жесткий диск пользователя. Второй - кто-то получает доступ к агенту с помощью традиционных хакерских инструментов и использует его для извлечения конфиденциальных данных или запуска вредоносного кода.

За недели после того, как OpenClaw стал вирусным, исследователи безопасности продемонстрировали множество подобных уязвимостей, подвергающих риску неопытных пользователей.

Обе эти опасности можно контролировать: некоторые пользователи запускают агенты OpenClaw на отдельных компьютерах или в облаке, что защищает данные на жестких дисках от удаления, а другие уязвимости можно устранить проверенными методами безопасности.

Но эксперты, с которыми я беседовал, сосредоточились на гораздо более коварной угрозе, известной как prompt injection - внедрение вредоносных команд.

Prompt injection: невидимый враг

Prompt injection - это фактически угон языковой модели. Просто разместив вредоносный текст или изображения на сайте, который может просмотреть LLM, или отправив их в почтовый ящик, который читает модель, злоумышленники способны подчинить ее своей воле.

Если эта LLM имеет доступ к личной информации пользователя, последствия могут быть ужасающими. «Использовать что-то вроде OpenClaw - все равно что отдать свой кошелек незнакомцу на улице», - говорит Николя Паперно, профессор электротехники и вычислительной техники в Университете Торонто.

Смогут ли крупные ИИ-компании спокойно предлагать персональных ассистентов, может зависеть от качества защиты, которую они создадут против таких атак.

Важно отметить, что prompt injection пока не вызвал катастроф, по крайней мере публично известных. Но теперь, когда сотни тысяч агентов OpenClaw бродят по интернету, внедрение команд может стать гораздо более привлекательной стратегией для киберпреступников. «Подобные инструменты стимулируют злоумышленников атаковать гораздо более широкую аудиторию», - отмечает Паперно.

Строительство защитных барьеров

Термин «prompt injection» придумал популярный блогер об LLM Саймон Уиллисон в 2022 году, за пару месяцев до выхода ChatGPT. Уже тогда можно было понять, что языковые модели создадут совершенно новый тип уязвимости после широкого распространения.

LLM не могут различить инструкции от пользователей и данные для выполнения этих инструкций, такие как письма и результаты веб-поиска - для модели все это просто текст. Если злоумышленник встраивает несколько предложений в письмо, и LLM принимает их за команду пользователя, атакующий может заставить модель делать что угодно.

Prompt injection - сложная проблема, которая, похоже, не исчезнет в ближайшее время. «У нас пока нет универсальной защиты», - признает Дон Сонг, профессор информатики в Калифорнийском университете в Беркли. Но существует активное академическое сообщество, работающее над проблемой, и они разработали стратегии, которые в конечном итоге могут сделать ИИ-ассистентов безопасными.

Три стратегии защиты

Технически возможно использовать OpenClaw сегодня без риска prompt injection: просто не подключайте его к интернету. Но ограничение OpenClaw от чтения почты, управления календарем и онлайн-исследований лишает смысла использование ИИ-помощника. Хитрость защиты от внедрения команд состоит в том, чтобы не дать LLM реагировать на попытки взлома, сохраняя при этом возможность выполнять работу.

Первая стратегия - обучить модель игнорировать prompt injection. Важная часть разработки LLM, называемая пост-обучением, включает превращение модели, умеющей создавать реалистичный текст, в полезного ассистента путем «вознаграждения» за правильные ответы и «наказания» за неудачи. Эти поощрения и наказания метафоричны, но LLM учится на них, как животное. Используя этот процесс, можно научить модель не реагировать на конкретные примеры внедрения команд.

Но есть баланс: слишком усердно обучите LLM отклонять внедренные команды, и она может начать отклонять законные запросы пользователя. А из-за фундаментального элемента случайности в поведении LLM даже очень эффективно обученная модель иногда будет ошибаться.

Второй подход предполагает остановку атаки до того, как она достигнет LLM. Обычно это включает использование специализированной детекторной модели для определения, содержат ли данные, отправляемые исходной LLM, какие-либо вредоносные команды. Однако в недавнем исследовании даже лучший детектор полностью не смог обнаружить определенные категории атак.

Третья стратегия сложнее. Вместо контроля входных данных путем обнаружения prompt injection цель - сформулировать политику, направляющую выходные данные LLM (то есть ее поведение) и предотвращающую вредные действия. Некоторая защита в этом ключе довольно проста: если LLM может отправлять письма только на несколько предварительно одобренных адресов, она точно не отправит данные кредитной карты пользователя злоумышленнику. Но такая политика помешает модели выполнять многие полезные задачи, например исследовать и связываться с потенциальными профессиональными контактами от имени пользователя.

«Задача в том, как точно определить эти политики», - говорит Нил Гонг, профессор электротехники и вычислительной техники в Университете Дьюка. «Это компромисс между полезностью и безопасностью».

Когда агенты станут достаточно безопасными

В более широком масштабе весь мир агентов борется с этим компромиссом: в какой момент агенты станут достаточно защищенными, чтобы быть полезными? Эксперты расходятся во мнениях. Сонг, чей стартап Virtue AI создает платформу безопасности агентов, считает, что можно безопасно развернуть ИИ-помощника уже сейчас. Но Гонг утверждает: «Мы еще не готовы».

Даже если ИИ-агенты пока не могут быть полностью защищены от prompt injection, определенно существуют способы снизить риски. И возможно, некоторые из этих техник можно реализовать в OpenClaw. На прошлой неделе на первом мероприятии ClawCon в Сан-Франциско Штайнбергер объявил, что привлек специалиста по безопасности для работы над инструментом.

Практические рекомендации по защите ваших ИИ-систем вы найдете на AI Projects.

Жизнь на грани риска

На данный момент OpenClaw остается уязвимым, хотя это не отпугнуло множество восторженных пользователей. Джордж Пикетт, волонтер-сопровождающий репозитория OpenClaw на GitHub и поклонник инструмента, говорит, что принял некоторые меры безопасности: он запускает систему в облаке, чтобы не беспокоиться о случайном удалении жесткого диска, и установил механизмы, гарантирующие, что никто другой не сможет подключиться к его ассистенту.

Но он не предпринял никаких специальных действий для предотвращения prompt injection. Он осведомлен о риске, но говорит, что пока не видел сообщений о таких случаях с OpenClaw. «Может, моя позиция глупа, но маловероятно, что именно меня взломают первым», - признается он.

Выводы: балансируя между инновациями и безопасностью

Появление OpenClaw обнажило фундаментальное противоречие эпохи ИИ-агентов. С одной стороны, персональные помощники обещают революционизировать нашу продуктивность и освободить время для творчества. С другой - они открывают двери для принципиально новых киберугроз, к которым традиционные методы защиты не применимы.

Prompt injection - не просто техническая проблема, это симптом более глубокого вызова: языковые модели по своей природе не различают данные и инструкции. Пока исследователи не найдут надежного решения, каждый пользователь ИИ-ассистента играет в русскую рулетку со своими личными данными.

Крупные технологические компании медлят не из-за отсутствия технологий, а из-за понимания масштаба ответственности. Одна успешная атака на миллионы пользователей может стоить репутации и миллиардов долларов. Энтузиасты вроде пользователей OpenClaw готовы рисковать ради удобства, но массовый рынок требует гарантий, которых пока никто дать не может.

Вопрос не в том, станут ли ИИ-ассистенты безопасными, а в том, когда это произойдет - и сколько инцидентов случится до этого момента.