Новая модель LongWriter-Zero превосходит Claude 4 в создании объемных текстов

Международная исследовательская группа из Сингапура и Китая представила новую ИИ-модель LongWriter-Zero, которая способна генерировать тексты объемом более 10 000 слов, используя исключительно метод обучения с подкреплением (RL) без применения предварительно подготовленных синтетических данных.

Ключевой особенностью LongWriter-Zero является использование механизма “наводящих вопросов”. Перед началом генерации основного текста модель получает задание спланировать его структуру и содержание. Этот методологический прием значительно повышает связность текста, что подтверждается ростом показателей в тесте Arena-Write с 700 до 1200 баллов по шкале Эло.

Традиционная проблема всех современных языковых моделей заключается в значительном снижении качества при генерации очень длинных текстов. По мере увеличения объема текста наблюдается потеря связности, рост количества повторений и нарушение общей структуры повествования.

Большинство существующих решений преодолевают эти ограничения с помощью контролируемой тонкой настройки (SFT) на искусственно созданных длинных текстах, что требует значительных трудозатрат и часто не дает удовлетворительных результатов.

Ученые из Сингапурского университета технологий и дизайна и Университета Цинхуа разработали принципиально иной подход. В основе LongWriter-Zero, построенной на базе модели Qwen2.5-32B, лежат три специализированные модели вознаграждения, оценивающие длину текста, качество написания и структурную организацию.

Исследователи также внедрили техническую инновацию под названием “усреднение преимуществ”, которая балансирует различные параметры качества в процессе обучения.

Дополнительное улучшение результатов было достигнуто благодаря предварительному обучению модели на высококачественном корпусе объемом 30 млрд токенов.

Этот этап подготовки создал основу для более эффективного использования механизмов вознаграждения в реальном времени, подтверждая гипотезу о том, что более совершенные базовые модели получают больше преимуществ от динамической настройки.

По результатам оценки LongWriter-Zero превзошла такие известные модели, как DeepSeek-R1 и Claude 4 Sonnet, как в автоматизированных тестах, так и при экспертной оценке.