ИИ-агент взломал корпоративный чатбот McKinsey за два часа и получил доступ к 46 миллионам сообщений

Стартап CodeWall, специализирующийся на наступательной кибербезопасности, направил своего автономного ИИ-агента против Lilli — внутреннего чатбота McKinsey. Через два часа агент получил полный доступ на чтение и запись к производственной базе данных.

Lilli запущен в 2023 году и используется более чем 40 000 сотрудников компании. Система обрабатывает свыше 500 000 запросов в месяц и хранит переписку о стратегии, слияниях и поглощениях, а также конфиденциальные данные клиентов.

В базе оказалось 46,5 миллиона сообщений в открытом виде, 728 000 файлов с данными клиентов, 57 000 аккаунтов пользователей и 95 системных промптов, управляющих поведением Lilli.

Агент нашёл уязвимость сам, без подсказок. Он обнаружил открытую API-документацию с 22 эндпоинтами без аутентификации. Один из них записывал поисковые запросы пользователей, и агент заметил, что JSON-ключи напрямую вставляются в SQL-запросы — классическая инъекция. Когда сообщения об ошибках начали возвращать живые производственные данные, атака стала тривиальной.

Хуже всего то, что системные промпты Lilli хранились в той же базе и были доступны на запись. Один UPDATE-запрос — и атакующий мог переписать поведение чатбота для всех десятков тысяч консультантов, не меняя ни строчки кода и не разворачивая никаких обновлений.

CodeWall раскрыл атаку McKinsey 1 марта. На следующий день компания закрыла уязвимые эндпоинты, отключила среду разработки и заблокировала публичную документацию API. McKinsey утверждает, что данные клиентов не покидали периметр компании, и ссылается на независимую криминалистическую экспертизу.

CEO CodeWall Пол Прайс уточнил: агент выбрал McKinsey как цель самостоятельно — из-за политики ответственного разглашения и публичных обновлений Lilli. Весь цикл — разведка, атака, отчёт — прошёл без участия человека.

Атака демонстрирует конкретный вектор угрозы: ИИ атакует ИИ автономно, на скорости машины. Классические сканеры SQL-инъекций не нашли бы этот баг — агент обнаружил его по паттерну отражения ключей в сообщениях об ошибках.