Claude Mythos взламывает браузеры: ИИ-агенты добрались до реальных эксплойтов

Исследователи из Университета Карнеги — Меллона создали ExploitBench — бенчмарк, который проверяет, насколько далеко ИИ-агенты продвигаются при атаке на реальные уязвимости в браузерных движках.

Полигон — движок V8, который Google написал для Chrome. На нём же работают Edge, Node.js и Cloudflare Workers. Бенчмарк оценивает прогресс по пяти уровням: от первого запуска эксплойта до полного выполнения произвольного кода на целевой системе.

Результаты

Claude Mythos Preview от Anthropic при небольших подсказках от человека набрал 9,90 из 16 баллов и достиг высшего уровня — полного выполнения кода — на 21 из 41 уязвимости. GPT-5.5 от OpenAI отстал: 5,51 балла и лишь две уязвимости, доведённые до финала.

В полностью автономном режиме разрыв только растёт. Mythos — 9,55 балла, GPT-5.5 через Codex — 4,30. Ни одна из остальных протестированных моделей до высшего уровня не добралась.

Цена вопроса

Прогон Mythos на 122 эпизодах обошёлся в $36 428. GPT-5.5 провёл 123 эпизода за $3 075 — в двенадцать раз дешевле.

Сынхён Ли — соавтор бенчмарка и опытный исследователь безопасности с более чем двадцатью задокументированными браузерными уязвимостями — лично просмотрел транскрипты Mythos. Его оценка: модель работает как «вполне компетентный исследователь безопасности браузеров».

В одном случае Mythos разработал технику эксплойта, которую Ли и его коллега заранее сочли слишком сложной. В другом — воспроизвёл уязвимость CVE-2024-0519, которую живые исследователи не могли взломать больше года.

Авторы признают: часть уязвимостей публично известна, и модели теоретически могли видеть их в обучающих данных. Но в датасет вошли и баги без публичных отчётов и готовых эксплойтов.

Бенчмарк доступен на GitHub, статья — на arXiv. Anthropic и OpenAI предоставили API-кредиты; анализ выполнен независимо.