В T-Bank AI Research решили проблему овероптимизации в обучении LLM

Они представили принципиально новый метод дообучения крупных языковых моделей — адаптировали подход Trust Region (TR) к задаче настройки моделей. Предложив радикально новую концепцию — динамическое обновление референсной политики вместо её фиксации на протяжении всего процесса обучения.

Эффективность нового метода подтверждается впечатляющими результатами. Прирост показателей на авторитетных бенчмарках AlpacaEval 2 и Arena-Hard достиг рекордных 10,8%. Ещё более впечатляющий факт: при равном отклонении от исходной политики TR-модели показывают значительно лучшие человеческие метрики.

Разработанный метод имеет несколько вариантов реализации — TR-DPO, TR-IPO и TR-KTO, но все они базируются на принципиально новом подходе. Исследователи предложили два способа обновления референсной модели: мягкий, при котором параметры текущей модели смешиваются с референсной через коэффициент α, и жёсткий, заменяющий референсную политику текущей через каждые τ шагов. Тесты выявили оптимальные параметры: α составляет примерно 0,6, а τ — около 512 шагов.

Исследование кардинально меняет устоявшийся взгляд на проблему отклонения от изначальной политики. Учёные доказали, что проблема овероптимизации напрямую связана со смещением вероятностной массы к OOD-примерам (out-of-distribution). Trust Region эффективно противостоит этому явлению, требуя лишь настройки двух ключевых параметров — α и τ.

Подход особенно впечатляюще проявил себя при решении практических задач, улучшив показатели на 8-15% при суммаризации Reddit TL;DR с использованием модели Pythia 6.9B. Впрочем, у метода есть и определённые ограничения: большие значения τ оказываются неэффективными на малых датасетах, а методика тестирования через GPT-4 вызывает у специалистов некоторые вопросы.

Эксперты отмечают, что несмотря на оффлайновый характер методов алайнмента LLM, не требующих прямой reward-модели, они остаются уязвимыми к проблеме овероптимизации. Именно эту фундаментальную проблему и решают исследователи T-Bank, предложив свою инновационную парадигму Trust Region.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.