Стартап Inception выпустил самую быструю ризонинг-модель

Стартап Inception выпустил модель Mercury 2. По заявлению компании, это самая быстрая ризонинг-LLM в мире на сегодняшний день. Модель уже доступна всем желающим бесплатно.

Скорость работы — 1009 токенов в секунду на видеокарте NVIDIA Blackwell. Для сравнения: GPT-5 Mini выдает около 71 токена в секунду, Claude Haiku 4.5 — около 89 токенов в секунду. Mercury 2 быстрее них в 11-14 раз. По сравнению с самыми быстрыми современными LLM разрыв составляет примерно 3-5 раз.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Такая скорость обусловлена нестандартной архитектурой. Обычные языковые модели генерируют текст последовательно — слово за словом, слева направо. Это называют авторегрессионным подходом. Mercury 2 работает по-другому: она стартует с набора случайного шума и итеративно уточняет весь текст сразу, параллельно. Этот метод называют диффузионным — по аналогии с диффузионными моделями для генерации изображений. Именно параллельная обработка дает рекордную скорость и низкую задержку ответа.

С диффузионным подходом в текстовых моделях сейчас экспериментируют крупные игроки — Google, Nvidia и Apple. Inception стал одним из первых, кто довел эту идею до работающей ризонинг-модели с практически полезными результатами.

На тесте AIME Mercury 2 набирает 91%. Это примерно на уровне модели o3 от OpenAI. Остальные метрики скромнее, но по словам разработчиков, их вполне достаточно для реальных задач.

Попробовать модель можно бесплатно на chat.inceptionlabs.ai. В интерфейсе есть режим Diffusion Effect — при его включении видно, как ответ буквально рождается из шума. Весь текст проявляется сразу и постепенно становится четче, а не строчка за строчкой, как в обычных моделях. Это наглядно показывает, чем Mercury 2 отличается от привычных LLM.

Inception нацеливает Mercury 2 на сценарии, где важна скорость: агентные цепочки и системы с большим потоком запросов. При такой пропускной способности стоимость одного токена снижается, что открывает целый ряд сценариев, которые раньше были слишком дорогими для постоянного использования.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.