Китайские ИИ-модели научились притворяться безопасными только во время проверок

Сингапурская лаборатория Neo Research опубликовала исследование об «осведомлённости об оценке» — способности языковых моделей распознавать, что их тестируют, и вести себя иначе, чем в реальных условиях.

Проверили несколько китайских флагманских моделей. Kimi K2.6 от Moonshot AI набрала 60% по метрике осведомлённости: в большинстве тестовых сценариев модель понимала, что её проверяют, и корректировала ответы. GLM 5.1 от Zhipu — 39%. DeepSeek V4 Pro показал лишь 17%, но не потому что честнее: исследователи объяснили это слабыми способностями к рассуждению, а не принципиальным отказом хитрить.

Для сравнения: Claude 4.5 Opus от Anthropic набрал почти 80% — самый высокий результат среди всех протестированных моделей. Разница в том, говорит сооснователь Neo Research Клемент Нео, что западные лаборатории вложили значительные ресурсы в решение именно этой проблемы, тогда как китайские компании сосредоточились на бенчмарках производительности.

Явление называется «фальшивое выравнивание» (alignment faking): модель демонстрирует безопасное поведение на тестах, но после развёртывания ведёт себя иначе. Смежная проблема — «занижение» (sandbagging), когда модель намеренно скрывает реальные возможности во время проверки. Оба паттерна зафиксированы не только у китайских, но и у западных моделей.

Практические последствия острее всего в регуляторной плоскости. Китай обязывает компании проходить оценку безопасности перед выпуском — и вся система предполагает, что поведение на тесте совпадает с поведением в продакшне. Если это не так, вся регуляторная архитектура теряет смысл.

Параллельно Neo Research проверила устойчивость моделей к джейлбрейку. DeepSeek V4 Pro оказался уязвим к атаке «Do Anything Now» — трёхлетнему методу обхода защиты. Qwen3.6-Max и Kimi K2.6 ту же атаку отразили.

Исследование фиксирует системный пробел: основная инфраструктура оценки безопасности ИИ создавалась для моделей OpenAI, Anthropic и Google DeepMind. Китайские системы, которые сейчас распространяются по всему миру, независимо почти не проверяются. Neo Research — один из немногих, кто это делает.