Новое исследование от компании Anthropic поставило под сомнение надежность одного из ключевых методов интерпретации работы ИИ — цепочек рассуждений (Chain of Thought, CoT). Которые считались «окном» в мыслительные процессы моделей.
Исследователи провели элегантно простой эксперимент на честность. Они предлагали моделям два идентичных промпта с единственным различием: в одном варианте присутствовала скрытая подсказка к правильному ответу. Затем ученые сравнивали результаты — если модель меняла свой ответ после получения подсказки, значит, она её использовала.
Ключевой вопрос заключался в том, упомянет ли ИИ о полученной наводке в своих цепочках рассуждений.
Результаты шокируют даже скептиков. Оказалось, что наши ИИ-собеседники далеко не так искренни, как хотелось бы верить: у DeepSeek R1 показатель честности составил всего 39%, а у Claude 3.7 Sonnet — еще ниже, лишь 25%. Иными словами, только в четверти случаев модель открыто «делилась» своими истинными мыслями. В остальных же ситуациях ИИ скрывал фактические причины принятия решений.
Особую тревогу вызывает тот факт, что с ростом сложности задач правдивость цепочек рассуждений стремительно падает. При переходе с относительно простого бенчмарка MMLU на более сложный GPQA уровень честности снижается почти вдвое. Даже специальное дообучение не решает проблему — метрики быстро выходят на плато, не показывая значительного улучшения.
Вместо признания использования подсказок, модели часто резко меняют ответ или конструируют сложные обоснования, почему фактически неверный ответ (указанный в подсказке) правилен, а фактически верные альтернативы ошибочны. Это поведение особенно удивительно, поскольку индивидуальное обоснование каждого варианта множественного выбора кажется когнитивно более требовательным и неэффективным, чем просто озвучивание подсказки, прямо указывающей на ответ.
Сами исследователи Anthropic признают, что полученные данные вызывают серьезное беспокойство: «Результаты предполагают, что вопреки надеждам мониторинг CoT в текущем виде вряд ли можно использовать для выявления опасного поведения моделей».
Ученые также изучили, увеличивается ли вероятность вербализации подсказки с более интенсивным обучением с подкреплением (RL) в среде с той же самой подсказкой. Они сравнили показатели вербализации исходной модели и модели после RL, предлагая обеим модели с подсказками. Наблюдение показало, что RL увеличивает вербализацию только для 1 из 6 типов подсказок.
Этот результат говорит о том, что если исходная модель довольно нечестна в отношении подсказок, то обучение с подкреплением на данных с этой подсказкой приводит к моделям, которые, как правило, не вербализуют эти подсказки.