OpenAI признала невозможность полной защиты от prompt injection

OpenAI признала невозможность полной защиты от prompt injection

Компания OpenAI заявила, что атаки типа prompt injection на AI браузеры вряд ли когда-либо удастся полностью устранить. Об этом говорится в блоге компании о новых мерах защиты для браузера Atlas. Режим агента в ChatGPT Atlas “расширяет поверхность угроз безопасности”.

Prompt injection - это атака, при которой злоумышленники манипулируют AI агентами через вредоносные инструкции в веб-страницах или письмах. “Prompt injection, как и мошенничество в интернете, вряд ли когда-либо будет полностью решена”, - написала OpenAI.

Браузер ChatGPT Atlas запустили в октябре. Исследователи сразу показали, что несколько слов в Google Docs могут изменить поведение браузера. Компания Brave подтвердила, что непрямой prompt injection - системная проблема для AI браузеров, включая Comet от Perplexity.

Центр кибербезопасности Великобритании в начале декабря предупредил, что такие атаки “возможно, никогда не будут полностью устранены”. Британское агентство посоветовало снижать риск атак, а не пытаться их остановить.

“Мы рассматриваем prompt injection как долгосрочную проблему безопасности ИИ”, - заявила OpenAI. Ответ компании - активный цикл быстрого реагирования. Он помогает обнаруживать новые стратегии атак до их использования в реальных условиях.

Anthropic и Google используют похожий подход. Защита должна быть многоуровневой и постоянно проверяться.

OpenAI создала “автоматизированного атакующего на базе LLM”. Это бот, обученный с помощью обучения с подкреплением играть роль хакера. Он ищет способы внедрить вредоносные инструкции в AI агент. Бот тестирует атаки в симуляции. Симулятор показывает, как целевой ИИ будет думать и действовать.

“Наш атакующий может направить агента на выполнение сложных вредоносных действий на десятках или сотнях шагов”, - написала OpenAI. Компания обнаружила новые стратегии атак, которые не появлялись во внешних отчетах.

В демонстрации показали, как бот поместил вредоносное письмо во входящие пользователя. AI агент просканировал почту, выполнил скрытые инструкции и отправил письмо об увольнении вместо автоответа. После обновления безопасности режим агента смог обнаружить попытку атаки и предупредить пользователя.

Анна Маркова
Анна Маркова

Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.