В DeepSeek создали «умных судей» для искусственного интеллекта

Китайская исследовательская лаборатория DeepSeek AI представила значительное достижение в области моделирования систем вознаграждения для больших языковых моделей (LLM). Новая техника, получившая название «Настройка самостоятельной принципиальной критики» (Self-Principled Critique Tuning, SPCT), нацелена на создание универсальных и масштабируемых моделей вознаграждения (RM).

Это потенциально может привести к появлению более совершенных ИИ-приложений для открытых задач и доменов, где существующие модели не способны уловить все нюансы и сложности окружающей среды и потребностей пользователей.

Обучение с подкреплением (RL) стало краеугольным камнем в разработке передовых языковых моделей. В этом процессе модели тонко настраиваются на основе сигналов обратной связи, указывающих на качество их ответов.

Модели вознаграждения являются критически важным компонентом, обеспечивающим эти сигналы. По сути, RM действует как судья, оценивая результаты работы LLM и присваивая балл или «вознаграждение», которое направляет процесс обучения с подкреплением и обучает модель производить более полезные ответы.

Однако существующие модели вознаграждения часто сталкиваются с ограничениями. Они обычно преуспевают в узких областях с четкими правилами или легко проверяемыми ответами. Например, современные передовые модели рассуждения, такие как DeepSeek-R1, прошли фазу обучения с подкреплением, в ходе которой они обучались на математических задачах и задачах программирования, где истина четко определена.

Тем не менее, создание модели вознаграждения для сложных, открытых или субъективных запросов в общих областях остается серьезным препятствием. Исследователи DeepSeek AI пишут: «Универсальная модель вознаграждения должна генерировать качественные вознаграждения за пределами конкретных доменов, где критерии вознаграждения более разнообразны и сложны, и часто отсутствуют явные эталоны или абсолютная истина».

И они выделили четыре ключевых вызова при создании универсальных моделей вознаграждения, способных справляться с более широким спектром задач:

  1. Гибкость ввода: Модель вознаграждения должна обрабатывать различные типы ввода и уметь оценивать один или несколько ответов одновременно.
  2. Точность: Она должна генерировать точные сигналы вознаграждения в различных областях, где критерии сложны, а абсолютная истина часто недоступна.
  3. Масштабируемость на этапе вывода: Модель вознаграждения должна производить более качественные вознаграждения при выделении большего количества вычислительных ресурсов во время вывода.
  4. Обучение масштабируемому поведению: Для эффективного масштабирования на этапе вывода модели вознаграждения должны обучаться поведению, позволяющему улучшать производительность при использовании большего объема вычислений.
Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.