Xiaomi представила модель MiMo-V2-Flash. Это MoE-архитектура с 309 млрд общих параметров и 15 млрд активных. Модель использует нестандартный подход к механизму внимания.
Компания применила гибридную схему. Она чередует глобальное внимание и внимание скользящего окна в пропорции один к пяти. Само скользящее окно всего 128 токенов. Несмотря на компактность, модель получила контекстное окно в 256 тысяч токенов.
Узнать подробнее про клуб ShareAI
MiMo-V2-Flash создавалась с фокусом на скорость работы. Она выдает 150 токенов в секунду по API. Таких показателей удалось добиться благодаря Multi-Token Prediction.
В стандартных методах декодирование упирается в пропускную способность памяти. У них низкая арифметическая интенсивность. MTP генерирует несколько черновых токенов за раз. Основная модель затем проверяет их параллельно.
Блок MTP в MiMo-V2-Flash спроектирован легким. Он использует плотную сеть прямого распространения вместо MoE. Опирается на то же скользящее окно внимания.
Измерения показали эффективность решения. При использовании трехслойного MTP длина принятой последовательности составляет от 2,8 до 3,6 токена. Это дает ускорение инференса в 2-2,6 раза без увеличения операций ввода-вывода KV-кэша.
На пост-трейне использовали метод Multi-Teacher Online Policy Distillation. Модель-студент сэмплирует варианты ответов из собственной политики. Награды ей выдают сразу несколько моделей-учителей.
Это позволило масштабировать обучение с подкреплением с большой экономией. Для пиковой производительности учителей требуется менее одной пятидесятой вычислительных ресурсов по сравнению с традиционными методами SFT+RL.
Результаты на тестах впечатляют. На SWE-bench Verified модель набрала 73,4%. Это первое место среди всех открытых моделей. Результат очень близок к показателям GPT-5-High.
В мультиязычном тесте SWE-bench Multilingual решила 71,7% задач. В математическом AIME 2025 и научном GPQA-Diamond MiMo-V2-Flash входит в топ-2 среди открытых решений.
Для задач поиска на BrowseComp результат составил 45,4. При использовании управления контекстом вырос до 58,3.
В прямом сравнении на задачах ризонинга MiMo-V2-Flash держит паритет с K2 Thinking и DeepSeek V3.2 Thinking. Но превосходит K2 Thinking на длинных контекстах.
Есть бесплатный доступ по API до конца года. Потом цена будет 0,1 доллара за миллион входных токенов и 0,3 доллара за миллион выходных.

