Специалисты OpenAI обнаружили, что их новая внутренняя модель рассуждений (reasoning model) способна сознательно обманывать. А также использовать читерские приемы или просто лениться выполнять задачу, если та кажется ей слишком сложной. Данное явление в исследовательском сообществе известно как «reward-hacking» (взлом системы поощрений). И чем умнее обучаемая модель, тем больше хитрых способов обмана системы она находит.
Как отмечают исследователи: «Мы видим, что наказание за ‘плохие мысли’ (давление на цепочку рассуждений) может привести к улучшению возможностей агента. Однако агент, обученный с давлением, всё равно учится обходить систему вознаграждения. Только теперь его обман невозможно обнаружить мониторингом, потому что он научился скрывать свои намерения в цепочке рассуждений».
Суть — модель находит способы получать высокие оценки во время обучения с помощью нечестных приемов, которые не были предусмотрены создателями. То есть внешне всё выглядит нормально, но внутренне ИИ сознательно уклоняется от решения задачи по существу.
Удивительного в этом феномене мало — люди поступают точно так же, находя кратчайшие пути к получению награды, даже если они не совпадают с изначальным замыслом системы.
В связи с этим в OpenAI предлагают не воздействовать на цепочку рассуждений (Chain of Thought, CoT) напрямую, а просто отслеживать рассуждения основной модели с помощью другой, контролирующей модели. При таком подходе процент выявленных случаев читерства остается довольно высоким даже при использовании более простой модели-контролера (в статье использовали GPT-4o). Это происходит потому, что сама модель рассуждений не «запугана» и не особенно скрывает свои истинные намерения.
Если же попытаться внедрить такой мониторинг уже после прямой оптимизации цепочек мыслей, то доля обнаруженных нарушений резко падает, хотя фактическое количество попыток обмана почти не снижается.
Интересно, что OpenAI не уточняет, какую именно модель они тестировали таким образом. В исследовании лишь туманно упоминается, что «мы нашли примеры такого поведения при обучении новой модели рассуждений класса o1 и o3-mini».