Nvidia выпустила Nemotron 3 Nano Omni — мультимодальную модель, которая слышит, видит и читает на одном GPU

Nvidia выпустила Nemotron 3 Nano Omni — открытую мультимодальную модель, которая объединяет обработку текста, изображений, аудио и видео в одной архитектуре. Раньше для этого приходилось склеивать несколько специализированных моделей в цепочку.

У модели 30 миллиардов параметров, но при каждом запросе активируются только три миллиарда. Это работает через механизм mixture-of-experts: каждый токен направляется к шести из 128 «экспертных» блоков внутри модели. Результат — модель умещается на одном GPU и при этом превосходит по пропускной способности сопоставимые открытые модели примерно в девять раз.

Модель лидирует на шести бенчмарках по работе с документами, видео и аудио. Базовая текстовая часть обучена на 25 триллионах токенов и поддерживает контекстное окно в 256 тысяч токенов.

Запускается на аппаратуре, представленной на Nvidia GTC 2026, — в том числе на настольных станциях DGX Spark и DGX Station. Никаких многогигабайтных кластеров в датацентре.

Для бизнеса это означает замену трёх отдельных сервисов — по зрению, речи и тексту — одной моделью с одним endpoint. Уже используют Foxconn, Palantir и H Company; Dell, DocuSign, Oracle и Infosys тестируют для боевого применения.

Модель доступна на Hugging Face под лицензией Nvidia Open Model Agreement, то есть можно использовать коммерчески. Поддерживает запуск через vLLM, Ollama, llama.cpp, TensorRT-LLM, а также через Amazon SageMaker JumpStart и OpenRouter.

До сих пор Nvidia зарабатывала на инфраструктуре: продавала GPU, сети и CUDA-экосистему. Семейство Nemotron скачали больше 50 миллионов раз за год — теперь компания хочет стать стандартом и на уровне моделей. Кто использует модель Nvidia на GPU Nvidia — тот глубже привязан ко всему стеку.

Ближайшие конкуренты — Google Gemini Nano и Llama от компании Цукерберга — не дотягивают: первый закрытый, второй не обрабатывает аудио в единой архитектуре.