Международная исследовательская группа из Сингапура и Китая представила новую ИИ-модель LongWriter-Zero, которая способна генерировать тексты объемом более 10 000 слов, используя исключительно метод обучения с подкреплением (RL) без применения предварительно подготовленных синтетических данных.
Ключевой особенностью LongWriter-Zero является использование механизма «наводящих вопросов». Перед началом генерации основного текста модель получает задание спланировать его структуру и содержание. Этот методологический прием значительно повышает связность текста, что подтверждается ростом показателей в тесте Arena-Write с 700 до 1200 баллов по шкале Эло.
Традиционная проблема всех современных языковых моделей заключается в значительном снижении качества при генерации очень длинных текстов. По мере увеличения объема текста наблюдается потеря связности, рост количества повторений и нарушение общей структуры повествования.
Большинство существующих решений преодолевают эти ограничения с помощью контролируемой тонкой настройки (SFT) на искусственно созданных длинных текстах, что требует значительных трудозатрат и часто не дает удовлетворительных результатов.
Ученые из Сингапурского университета технологий и дизайна и Университета Цинхуа разработали принципиально иной подход. В основе LongWriter-Zero, построенной на базе модели Qwen2.5-32B, лежат три специализированные модели вознаграждения, оценивающие длину текста, качество написания и структурную организацию.
Исследователи также внедрили техническую инновацию под названием «усреднение преимуществ», которая балансирует различные параметры качества в процессе обучения.
Дополнительное улучшение результатов было достигнуто благодаря предварительному обучению модели на высококачественном корпусе объемом 30 млрд токенов.
Этот этап подготовки создал основу для более эффективного использования механизмов вознаграждения в реальном времени, подтверждая гипотезу о том, что более совершенные базовые модели получают больше преимуществ от динамической настройки.
По результатам оценки LongWriter-Zero превзошла такие известные модели, как DeepSeek-R1 и Claude 4 Sonnet, как в автоматизированных тестах, так и при экспертной оценке.