Xiaomi разогнала триллионную модель до 1000 токенов в секунду

Xiaomi совместно с командой TileRT выпустила MiMo-V2.5-Pro-UltraSpeed — первую в истории триллионную языковую модель, которая генерирует более 1000 токенов в секунду. В пике скорость достигает 1200 токенов/с.

Раньше такие показатели были уделом специализированного железа — чипов Cerebras с интеграцией на уровне пластины или процессоров Groq с SRAM-архитектурой. Xiaomi добилась того же на стандартном сервере из восьми обычных GPU.

Две технологии сделали это возможным. Во-первых, FP4-квантизация: вместо 8- или 16-битных весов модель сжата до 4 бит, но только в части MoE-экспертов — там, где потеря точности минимальна. Во-вторых, DFlash — метод спекулятивного декодирования, при котором черновая модель предсказывает сразу целый блок токенов за один проход. В задачах программирования большая модель принимает в среднем 6,3 из 8 предложенных токенов с первого раза — это и даёт скачок скорости.

На практике это открывает стратегию Best-of-N для флагманских 1T-моделей: скорость больше не ограничивает глубину рассуждения. При 1000 токенах/с можно за то же время прогнать десятки вариантов ответа параллельно, выбрать лучший и отдать пользователю. В Coding Agent это снимает потолок производительности: модель успевает написать, проверить и исправить код быстрее, чем разработчик формулирует следующий вопрос.

Доступ к UltraSpeed открывается с 9 по 23 июня 2026 года в заявочном режиме. Цена API — втрое дороже обычного MiMo-V2.5-Pro. Чат-интерфейс для одобренных заявителей бесплатный, но с ограничениями: до 10 сессий в день, не дольше 30 минут каждая.

Веса модели с FP4-квантизацией и параметры DFlash уже опубликованы на HuggingFace под открытой лицензией.