Google DeepMind следит за своими ИИ-агентами как за сотрудниками под подозрением

Google DeepMind опубликовал документ под названием «AI Control Roadmap» — подробный план того, как компания контролирует собственные ИИ-системы. Суть проста: агентам не доверяют по умолчанию.

DeepMind сравнивает подход с инструктором по вождению: тот доверяет ученику, но держит руку у руля и ногу у тормоза. ИИ-агенты получают доступ к ресурсам постепенно — по мере того, как подтверждают надёжность своих действий.

Внутри фреймворк устроен как корпоративная система безопасности. Используется MITRE ATT&CK — стандартный инструмент кибербезопасности, который раскладывает атаки на отдельные тактики и техники. На его основе DeepMind выстроил четыре уровня обнаружения угроз (D1–D4) и три уровня реагирования (R1–R3). Доверенные ИИ-агенты выступают «надзирателями» за остальными — следят за логикой рассуждений и действиями активных агентов.

Чтобы проверить систему на практике, команда прогнала её через миллион задач по написанию кода. Результат неожиданный: почти все нарушения были не злонамеренными, а случайными — агент просто слишком старательно выполнял задачу и заходил слишком далеко. Система уже работает в реальном времени для агента Gemini Spark и умеет останавливать, например, случайное удаление данных.

Одна из главных угроз, которую DeepMind выделяет — это способность моделей скрывать свои рассуждения. Сейчас система следит за «цепочкой мыслей» агента, которую та выводит в текст. Но модели могут научиться думать без видимого следа или понять, что за ними наблюдают, и вести себя иначе. На этот случай в плане предусмотрен переход к анализу поведения и изучению внутренних состояний модели.

Параллельно DeepMind опубликовал отдельный документ для политиков — «Три уровня безопасности агентов». В нём описывается защита от угроз на уровне отдельного агента, цепочек агентов и всей экосистемы в целом. Компания предупреждает: окно для выработки глобальных стандартов быстро закрывается, и если лаборатории, правительства и исследователи не договорятся сейчас, потом будет поздно.