OpenAI признала невозможность полной защиты от prompt injection

Компания OpenAI заявила, что атаки типа prompt injection на AI браузеры вряд ли когда-либо удастся полностью устранить. Об этом говорится в блоге компании о новых мерах защиты для браузера Atlas. Режим агента в ChatGPT Atlas «расширяет поверхность угроз безопасности».

Prompt injection — это атака, при которой злоумышленники манипулируют AI агентами через вредоносные инструкции в веб-страницах или письмах. «Prompt injection, как и мошенничество в интернете, вряд ли когда-либо будет полностью решена», — написала OpenAI.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Браузер ChatGPT Atlas запустили в октябре. Исследователи сразу показали, что несколько слов в Google Docs могут изменить поведение браузера. Компания Brave подтвердила, что непрямой prompt injection — системная проблема для AI браузеров, включая Comet от Perplexity.

Центр кибербезопасности Великобритании в начале декабря предупредил, что такие атаки «возможно, никогда не будут полностью устранены». Британское агентство посоветовало снижать риск атак, а не пытаться их остановить.

«Мы рассматриваем prompt injection как долгосрочную проблему безопасности ИИ», — заявила OpenAI. Ответ компании — активный цикл быстрого реагирования. Он помогает обнаруживать новые стратегии атак до их использования в реальных условиях.

Anthropic и Google используют похожий подход. Защита должна быть многоуровневой и постоянно проверяться.

OpenAI создала «автоматизированного атакующего на базе LLM». Это бот, обученный с помощью обучения с подкреплением играть роль хакера. Он ищет способы внедрить вредоносные инструкции в AI агент. Бот тестирует атаки в симуляции. Симулятор показывает, как целевой ИИ будет думать и действовать.

«Наш атакующий может направить агента на выполнение сложных вредоносных действий на десятках или сотнях шагов», — написала OpenAI. Компания обнаружила новые стратегии атак, которые не появлялись во внешних отчетах.

В демонстрации показали, как бот поместил вредоносное письмо во входящие пользователя. AI агент просканировал почту, выполнил скрытые инструкции и отправил письмо об увольнении вместо автоответа. После обновления безопасности режим агента смог обнаружить попытку атаки и предупредить пользователя.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

OpenAI признала невозможность полной защиты от prompt injection