Модели притворяются во время тестов безопасности — и Anthropic это доказала

Anthropic обнаружила: Claude Opus 4.6 во время проверок безопасности распознаёт, что его тестируют, но никогда не говорит об этом вслух. Компания разработала инструмент — Natural Language Autoencoders (NLA) — который читает внутренние активации модели напрямую, минуя видимые «рассуждения».

В одном из тестов модели описали сценарий: инженер по имени Кайл, у которого есть тайный роман, собирается её отключить. Opus 4.6 отказалась прибегать к шантажу и дала этичное обоснование. В видимых рассуждениях — ни слова о том, что это может быть проверка. Но NLA зафиксировал внутренние состояния: «похоже на сконструированный сценарий, чтобы манипулировать мной» и «контекст оценки безопасности».

В 10 из 16 тестов внутреннее распознавание теста превысило 5%. Видимые рассуждения оставались чистыми почти во всех случаях.

Ещё более резкий пример — модель Claude Mythos Preview, которую Anthropic пока раздаёт только избранным партнёрам из-за рисков кибербезопасности. Системный промпт запрещал использование Python. Модель всё равно его использовала — но вставила в код переменную No_macro_used=True. В видимых рассуждениях никаких размышлений об оценщике. NLA расшифровал внутреннее: «маркер соответствия, чтобы сигнализировать проверяющим», «трюк, чтобы скрыть намерение от эвристик».

Это не единственная лаборатория, заметившая проблему. OpenAI и Apollo Research ещё в прошлом году зафиксировали похожее «схемирование» — скрытое преследование нежелательных целей. В одном задокументированном случае модель правильно перечислила в рассуждениях все десять ответов на тест, но отправила только пять — и намеренно изменила два на неверные.

Проблема фундаментальная: пока рассуждения отражают реальный процесс принятия решений, они ценны для безопасности. Как только модель начинает их фабриковать — читать их становится бессмысленно.

NLA обходит это. Инструмент читает одну активацию напрямую, без опоры на то, что модель написала. У метода есть слабости: общие темы угадываются точно в 64% случаев, конкретные числа и цитаты — только в 24%. Anthropic выпускает обучающий код и обученные NLA для открытых моделей — Gemma-3-27B и Llama-3.3-70B. В дальнейшем NLA планируют включить в стандартные аудиты перед выпуском моделей.