Британский Институт безопасности ИИ (AISI) дважды за несколько месяцев пересматривал прогнозы по росту киберспособностей моделей. В ноябре 2025 года агентство оценивало их удвоение в восемь месяцев, в феврале 2026-го — в 4,7 месяца. Теперь Anthropic Claude Mythos Preview и GPT-5.5 «существенно превысили» даже этот ускоренный ориентир.
Mythos Preview стал первой моделью, прошедшей оба киберполигона AISI. Первый симулирует 32-этапную атаку на корпоративную сеть — человеку-эксперту на это нужно около 20 часов. Mythos Preview завершил атаку в шести попытках из десяти; предыдущая версия справлялась лишь в трёх. Второй сценарий, «Охлаждающая башня», моделирует взлом промышленной системы управления. Ни одна модель до Mythos не проходила его ни разу.
Независимое тестирование провела компания по наступательной безопасности XBOW — десять специалистов работали с моделью отдельно от Anthropic. Вывод: Mythos Preview — «значительный шаг вперёд», снижает долю пропущенных уязвимостей на 42% по сравнению с Opus 4.6, а при доступе к исходному коду — на 55%. Лучший результат в детектировании уязвимостей среди протестированных моделей.
Главная сила Mythos — чтение кода. Модель нашла уязвимости в V8-песочнице браузера Chromium, где предыдущие системы давали только ложные срабатывания. Ограничение: без доступа к работающей системе производительность падает сильнее, чем без доступа к исходникам.
Логан Грэм, руководитель команды красных в Anthropic, сообщил, что партнёры через Mythos Preview нашли «тысячи высоко- и критически опасных уязвимостей» за несколько недель — «иногда вдвое больше, чем за обычный год работы». Тут же он предупредил: «Через год Mythos, скорее всего, будет выглядеть довольно тупым по сравнению с новыми моделями».
Anthropic ограничил доступ к модели примерно пятьюдесятью компаниями. США уже тестируют Mythos на государственном уровне, тогда как Китай и, судя по всему, ЕС доступа не получили. OpenAI, в свою очередь, обратилась к ЕС по поводу раннего доступа к GPT-5.5-Cyber. Ситуация наглядно показывает, насколько европейские страны зависят от решений американских технологических компаний — собственных сопоставимых продуктов в Европе нет.
Стоимость Mythos Preview — примерно в пять раз выше, чем у Opus. XBOW отмечает, что в ряде сценариев агент на базе GPT-5.5 с большим временным бюджетом даёт сопоставимый результат дешевле. Поэтому компания рекомендует не делать ставку на одну модель, а использовать набор из нескольких.