GENOME: новый метод оптимизации языковых моделей бьет рекорды

Исследователи предложили инновационный подход к улучшению языковых моделей, вдохновлённый эволюционной биологией. Метод получил название GENOME (GENetic Optimization for Model Evolution) и демонстрирует впечатляющие результаты, особенно в задачах, требующих логического и математического мышления. Основная идея GENOME заключается в том, чтобы применить принципы естественного отбора к языковым моделям.

Что примечательно, этот подход действительно работает и показывает превосходные результаты. Исследователи сообщают, что GENOME в среднем показывает прирост метрик на 24% относительно лучшей отдельной модели и на 10,75% по сравнению с методом Model Swarms. Максимальное улучшение достигало 54,8% на датасете DROP, предназначенном для задач, требующих рассуждений.

В этом подходе отдельные модели рассматриваются как индивиды, а их веса — как гены. К ним применяются классические эволюционные операции:

  1. Отбор — выбор наиболее эффективных моделей на тестовых данных
  2. Кроссовер — объединение весов родительских моделей для создания потомства
  3. Мутации — случайные изменения весов для увеличения разнообразия популяции

Алгоритм работает следующим образом:

  1. Берётся несколько готовых моделей, которые тестируются на целевом датасете
  2. Отбираются модели, которые решают задачу наиболее успешно
  3. Эти модели «скрещиваются» — создаются новые модели, веса которых представляют собой линейную комбинацию весов родительских моделей
  4. Добавляется элемент случайности (мутация)
  5. Процесс повторяется несколько поколений
  6. На выходе получается «популяция» высокоэффективных моделей, которые можно объединить в ансамбль

Особенно хорошо GENOME проявляет себя в задачах, связанных с логикой и математическими рассуждениями, что традиционно является сложной областью для языковых моделей.

Важное преимущество метода — он требует относительно небольшого количества данных и вычислительных ресурсов по сравнению с другими подходами к оптимизации языковых моделей. Это делает его потенциально привлекательным для организаций, не имеющих доступа к огромным вычислительным мощностям.

GENOME представляет собой не замену предварительного обучения (претрейнинга), а скорее переосмысление методов файнтюнинга и ансамблирования с использованием идей генетических алгоритмов, которые известны уже несколько десятилетий, но редко применялись в контексте современных языковых моделей.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.