NVIDIA выпустила Nemotron 3 Super: открытая модель на 120 млрд параметров, которая быстрее GPT-4o при равных затратах

NVIDIA представила Nemotron 3 Super — открытую гибридную модель с 120 млрд общих параметров и 12 млрд активных. Это первая модель в серии Nemotron, которая обучалась с Latent MoE, многотокенным предсказанием и NVFP4 одновременно.

Архитектура сочетает слои Mamba (эффективная работа с длинными последовательностями) и Transformer (точные рассуждения). За счёт этого модель потребляет в 4 раза меньше памяти и вычислений по сравнению с предыдущей версией. На платформе Blackwell скорость инференса в 4 раза выше, чем у FP8-моделей на Hopper.

Обучение шло в три этапа: предобучение на 25 трлн токенов (из них 10 трлн уникальных, с акцентом на код и рассуждения), тонкая настройка на 7 млн примеров, и наконец — обучение с подкреплением на 37 датасетах в 21 конфигурации среды. Итог: контекстное окно на 1 млн токенов и способность держать цель в долгих агентных задачах.

По сравнению с предыдущим Nemotron Super — до 5 раза больший throughput и вдвое выше точность. В тестах DeepResearch Bench и DeepResearch Bench II модель заняла первое место. Против GPT-OSS-120B и Qwen3.5-122B в ряде сценариев она показывает в 2,2–7,5 раза более высокий throughput.

Сэм Хоган, CEO Inference Research, протестировал модель несколько недель и назвал её «лучшей американской open-source моделью своего размера» с отличной производительностью для агентов и вызовов инструментов.

Perplexity, Palantir и Siemens уже интегрируют Nemotron 3 Super. Среди целевых применений — разработка ПО, кибербезопасность и финансовый анализ. Веса, данные и рецепт обучения открыты.

NVIDIA также анонсировала модель Ultra — следующую в линейке.