Компания OpenAI заявила, что атаки типа prompt injection на AI браузеры вряд ли когда-либо удастся полностью устранить. Об этом говорится в блоге компании о новых мерах защиты для браузера Atlas. Режим агента в ChatGPT Atlas «расширяет поверхность угроз безопасности».
Prompt injection — это атака, при которой злоумышленники манипулируют AI агентами через вредоносные инструкции в веб-страницах или письмах. «Prompt injection, как и мошенничество в интернете, вряд ли когда-либо будет полностью решена», — написала OpenAI.
Узнать подробнее про клуб ShareAI
Браузер ChatGPT Atlas запустили в октябре. Исследователи сразу показали, что несколько слов в Google Docs могут изменить поведение браузера. Компания Brave подтвердила, что непрямой prompt injection — системная проблема для AI браузеров, включая Comet от Perplexity.
Центр кибербезопасности Великобритании в начале декабря предупредил, что такие атаки «возможно, никогда не будут полностью устранены». Британское агентство посоветовало снижать риск атак, а не пытаться их остановить.
«Мы рассматриваем prompt injection как долгосрочную проблему безопасности ИИ», — заявила OpenAI. Ответ компании — активный цикл быстрого реагирования. Он помогает обнаруживать новые стратегии атак до их использования в реальных условиях.
Anthropic и Google используют похожий подход. Защита должна быть многоуровневой и постоянно проверяться.
OpenAI создала «автоматизированного атакующего на базе LLM». Это бот, обученный с помощью обучения с подкреплением играть роль хакера. Он ищет способы внедрить вредоносные инструкции в AI агент. Бот тестирует атаки в симуляции. Симулятор показывает, как целевой ИИ будет думать и действовать.
«Наш атакующий может направить агента на выполнение сложных вредоносных действий на десятках или сотнях шагов», — написала OpenAI. Компания обнаружила новые стратегии атак, которые не появлялись во внешних отчетах.
В демонстрации показали, как бот поместил вредоносное письмо во входящие пользователя. AI агент просканировал почту, выполнил скрытые инструкции и отправил письмо об увольнении вместо автоответа. После обновления безопасности режим агента смог обнаружить попытку атаки и предупредить пользователя.

