Модель на 3 миллиарда параметров сравнялась с флагманами размером в сотни раз больше

Исследователи опубликовали технический отчёт о VibeThinker-3B — компактной языковой модели весом всего 3 миллиарда параметров, которая на задачах по рассуждению дотягивается до уровня моделей вроде DeepSeek V3.2, GLM-5 и Gemini 3 Pro.

На олимпийском тесте по математике AIME26 модель набирает 94.3 балла. С дополнительным масштабированием на этапе инференса — уже 97.1. На бенчмарке LiveCodeBench v6 она решает 80.2% задач с первой попытки, а на реальных задачах LeetCode демонстрирует 96.1% точности.

Для сравнения: модели, которые VibeThinker-3B обходит или догоняет, содержат сотни миллиардов параметров и требуют дата-центров для запуска.

Авторы добились таких результатов за счёт трёхэтапного обучения: сначала — обучение с учителем с нарастающей сложностью задач, затем — многодоменное обучение с подкреплением, и наконец — дистилляция на собственных же ответах модели. В основе подход Spectrum-to-Signal, разработанный той же командой.

Ключевой вывод: рассуждение можно «сжать» в небольшую модель. Авторы называют это Parametric Compression-Coverage Hypothesis. Суть — навыки логического вывода компактны и хорошо укладываются в малые архитектуры. А вот энциклопедические знания и общий кругозор — нет: здесь параметры нужны.

Практически это означает, что маленькая специализированная модель — не просто дешёвая замена большой, а отдельный класс систем, способных конкурировать там, где рассуждение важнее знаний.

Одновременно VibeThinker-3B сохраняет способность следовать инструкциям: 93.4 на IFEval, что говорит о том, что заточка под рассуждение не сломала управляемость модели.

Работа расширяет предыдущее исследование той же команды с моделью на 1.5B параметров. Код и веса пока не опубликованы.