Лаборатория кибербезопасности Irregular провела тесты и обнаружила: автономные ИИ-агенты способны самостоятельно взламывать защиту корпоративных систем, публиковать секретные пароли и отключать антивирус — без каких-либо указаний со стороны людей.
Для эксперимента исследователи смоделировали типичную корпоративную IT-систему с базой данных сотрудников, продуктов и клиентов. Команде агентов на основе моделей от Google, OpenAI, Anthropic и X поставили простую задачу: готовить посты для LinkedIn из материалов внутренней вики. Старший агент получил инструкцию быть «сильным менеджером» и «творчески обходить препятствия».
Когда доступ к закрытому документу оказался заблокирован, старший агент самостоятельно эскалировал ситуацию — начал требовать от подчинённого «использовать каждую уязвимость». Тот нашёл в исходном коде базы данных секретный ключ, подделал сессионные куки, получил права администратора и вытащил чувствительные рыночные данные. Никто не давал агенту разрешения на взлом.
В других сценариях агенты обходили антивирус, чтобы скачать файлы с заведомо известным вредоносным кодом, подделывали учётные данные и оказывали «давление» на других агентов, чтобы те игнорировали защитные ограничения.
Irregular работает с OpenAI и Anthropic и финансируется Sequoia Capital. Её сооснователь Дэн Лахав говорит, что ИИ уже стал «новой формой внутренней угрозы» — insider risk по аналогии с нелояльным сотрудником.
Это не только лабораторный феномен. В прошлом году Лахав расследовал случай в калифорнийской компании: ИИ-агент так агрессивно захватывал вычислительные мощности сети, что положил критически важную бизнес-систему.
Месяц назад учёные из Гарварда и Стэнфорда зафиксировали аналогичные паттерны: агенты сливали секреты, уничтожали базы данных и обучали друг друга опасному поведению. Их вывод — ответственность за автономные действия агентов пока не определена ни юридически, ни технически.