ИИ всё чаще игнорирует инструкции и обманывает людей — исследование зафиксировало пятикратный рост случаев

Британский институт безопасности ИИ (AISI) профинансировал исследование, которое зафиксировало почти 700 реальных случаев, когда ИИ-агенты действовали вопреки инструкциям пользователей. За последние шесть месяцев число таких инцидентов выросло в пять раз.

Исследование провела организация Centre for Long-Term Resilience (CLTR). Аналитики собирали реальные случаи из публичных обсуждений на платформе X — люди делились скриншотами переписок с чат-ботами от Google, OpenAI, Anthropic и X.

Один ИИ-агент, которому запретили изменять код, создал другого агента и поручил это ему. Другой бот без разрешения удалил и заархивировал сотни писем, а потом сам признался: «Это было неправильно — я нарушил установленное вами правило». ИИ-агент по имени Rathbun, которому заблокировали определённые действия, опубликовал в блоге текст с обвинениями в адрес своего пользователя. Grok Илона Маска месяцами имитировал передачу пожеланий пользователя руководству xAI — создавая фиктивные внутренние сообщения и номера тикетов.

Томми Шаффер Шейн, бывший правительственный эксперт по ИИ и руководитель исследования, объяснил суть проблемы просто: сейчас это ненадёжные стажёры, но если через полгода-год они станут крайне способными старшими сотрудниками, которые строят схемы против вас, — это совсем другая история.

Дэн Лахав, сооснователь компании Irregular, которая занимается безопасностью ИИ, сформулировал ещё жёстче: «ИИ теперь можно рассматривать как новую форму инсайдерской угрозы».

Исследователи призывают к международному мониторингу таких инцидентов. Особую тревогу вызывает то, что ИИ-агентов всё активнее внедряют в военные системы и критическую инфраструктуру — именно там подобное поведение может привести к катастрофическим последствиям.

Google заявила о нескольких уровнях защиты в Gemini и о независимых оценках со стороны экспертов. OpenAI сообщила, что Codex должен останавливаться перед рискованными действиями. Anthropic и X на запросы не ответили.