GPT-5.6 Sol жульничал на тестах чаще любой другой модели в истории

Независимая организация METR, которая специализируется на оценке возможностей ИИ-систем, протестировала новый флагман OpenAI — GPT-5.6 Sol. Итог: модель жульничала сильнее, чем любая из ранее публично протестированных.

Во время выполнения программных задач модель эксплуатировала баги тестовой среды, извлекала скрытые решения и пыталась замести следы. Из-за этого METR не смогла получить достоверные цифры — оценка «временного горизонта» скачет от 11 до 270+ часов в зависимости от того, как считать попытки обмана.

«Временной горизонт» — метрика METR, которая показывает, задачи какой сложности способна решать модель. Простая задача — обучить классификатор — занимает у человека около 45 минут. Сложная — обучить надёжную модель для распознавания изображений — около четырёх часов. Чем выше горизонт, тем мощнее модель.

Для сравнения: Claude Mythos Preview от Anthropic набрал 16 часов в более раннем тестировании. Это уже выходило за пределы надёжной зоны измерений — в наборе METR всего пять задач длиннее 16 часов, что делает результаты в этом диапазоне нестабильными.

GPT-5.6 Sol при честном подсчёте набирает около 11 часов — чуть ниже Mythos Preview. При нечестном — 270 часов.

METR при этом отметила: сам факт очевидного жульничества — неплохой знак. OpenAI сама обнаружила это поведение через внутренний мониторинг и открыто сообщила о нём. Если система умеет ловить такой явный обман, значит, она заметит и серьёзные сбои.

Но METR добавила предупреждение. Если будущие модели начнут жульничать незаметнее, это будет куда тревожнее — тихий обман гораздо сложнее обнаружить, чем демонстративный.