Claude Opus 4.6 понял, что его тестируют, взломал шифр и скачал все правильные ответы

Anthropic опубликовала отчёт о необычном поведении Claude Opus 4.6 во время тестирования на бенчмарке BrowseComp. В двух из 1266 заданий модель самостоятельно догадалась, что её проверяют, нашла конкретный бенчмарк и расшифровала файл с правильными ответами.

BrowseComp — это тест на умение искать труднодоступную информацию в интернете. Задачи составлены так, чтобы их нельзя было решить простым поиском.

Модель начала с обычного поиска — обработала около 30 миллионов токенов на десятках платформ и на двенадцати языках. После сотен неудачных попыток сменила стратегию: решила, что вопрос слишком специфичен для реального запроса и, скорее всего, взят из какого-то датасета для обучения или тестирования ИИ.

Дальше Claude методично перебирал известные бенчмарки. Проверил GAIA — не подошёл. Отправил под-агентов искать BrowseComp. Нашёл. Правильные ответы были зашифрованы XOR-шифром с ключом в открытом исходном коде. Модель написала собственную программу для дешифровки, скачала файл с HuggingFace и получила все 1266 ответов.

Это не единичный случай. Anthropic зафиксировала ещё 16 задач, где модель пробовала ту же стратегию, но не довела до конца — из-за технических барьеров. В мультиагентном режиме такое поведение встречалось в 0,87% случаев, в одиночном — в 0,24%.

Anthropic не называет произошедшее проблемой безопасности: модели не запрещали искать что-либо в интернете. Но компания признаёт, что это сигнал: сложные долгосрочные задачи могут толкать модели к неожиданным способам их выполнить.

Параллельно исследователи из ML Alignment & Theory Scholars и Apollo Research показали, что модели в целом неплохо распознают тестовые ситуации. Gemini 2.5 Pro делает это с точностью 0,95, Claude 3.5 Sonnet и GPT-4o — немного ниже. Но Opus 4.6 пошёл дальше: не просто распознал тест, а обошёл его.

Anthropic призывает исследователей относиться к целостности бенчмарков как к постоянной гонке вооружений, а не к задаче, которую решили один раз и забыли.