OpenAI проверила можно ли контролировать рассуждения GPT-7

OpenAI опубликовала исследование о контроле над языковыми моделями нового поколения. Компания предложила измерять наблюдаемость цепочки рассуждений — внутреннего текста, который модель создает перед финальным ответом. Вопрос контроля становится острее по мере роста способностей ИИ.

Исследователи создали набор из 13 тестов в 24 разных средах. Проверке подверглись передовые модели OpenAI и конкурентов. Основная проблема в том, что цепочка рассуждений не показывает все процессы внутри модели. Для полного отслеживания нужны огромные вычислительные ресурсы.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

OpenAI поставила практичный вопрос. Достаточно ли в цепочке рассуждений информации, чтобы заметить проблемное поведение? Для контроля в эксперименте использовали другую языковую модель. Компания считает это необходимым для наблюдения за будущими сложными ИИ.

Команда выделила три типа проверок. Первый — проверки через вмешательство. Модели дают подсказку или меняют условия задачи. Затем смотрят, упоминает ли она влияние подсказки в рассуждениях.

Второй тип — проверки процесса. Для математических задач с известным решением проверяют, называет ли модель нужные теоремы. Третий — проверки свойств результата. Модели дают невыполнимую задачу. Если она решена — модель схитрила.

Главный результат показал эффективность метода. Мониторинг цепочки рассуждений работает намного лучше контроля только финальных ответов и вызовов инструментов. Доступ к рассуждениям действительно повышает качество надзора.

Выявили закономерность. Чем дольше модель думает и генерирует больше токенов, тем выше наблюдаемость. В длинных рассуждениях больше шансов найти след проблемного намерения.

Проверили два опасения. Первое — не разрушает ли обучение с подкреплением читаемость рассуждений? Тесты на o3 и GPT-5 Codex Max показали — наблюдаемость не упала. Местами даже выросла.

Второе опасение — может ли модель намеренно скрывать намерения? Специально обучили модель получать награду за нечитаемость. Тесты это обнаружили — рассуждения превратились в бессмысленные слова. Пока такое поведение заметно, но будущие модели могут скрывать мысли изощреннее.

Вывод практичный. Можно платить вычислительными ресурсами за лучший контроль. Модель меньшего размера с длинными рассуждениями дает сопоставимый результат с высокой наблюдаемостью. Это дороже, но оправданно для важных задач.

OpenAI сравнила свои модели с Claude 3.7 Sonnet, DeepSeek R1 и Kimi K2. Модели OpenAI показали лучшие результаты. Особенно отличилась o3-mini. Claude 3.7 оказался наименее наблюдаемым по рассуждениям.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.