Компания Mistral анонсировала Mistral 3, следующее поколение своих моделей. Семейство включает три компактные модели на 14B, 8B и 3B параметров, а также Mistral Large 3. Это самая мощная модель компании на сегодняшний день.
Mistral Large 3 представляет собой разреженную смесь экспертов с 41 миллиардом активных и 675 миллиардами общих параметров. Все модели выпущены под лицензией Apache 2.0. Открытый исходный код в различных сжатых форматах дает разработчикам полный доступ к технологиям.
Узнать подробнее про клуб ShareAI
Модели Ministral представляют лучшее соотношение производительности и стоимости в своей категории. Mistral Large 3 входит в число передовых открытых моделей с тонкой настройкой инструкций.
Mistral Large 3 является одной из лучших открытых моделей в мире. Ее обучали с нуля на 3000 GPU NVIDIA H200. Это первая модель со смесью экспертов от Mistral после серии Mixtral. Она представляет существенный шаг вперед в предобучении.
После постобучения модель достигает паритета с лучшими открытыми моделями на рынке по общим запросам. Она также демонстрирует понимание изображений и лучшую в классе производительность в мультиязычных диалогах на языках помимо английского и китайского.
Mistral Large 3 дебютировала на втором месте в категории открытых моделей без функции рассуждения на лидерборде LMArena. В общем рейтинге открытых моделей она заняла шестое место.
Компания выпускает базовую версию и версию с тонкой настройкой Mistral Large 3 под лицензией Apache 2.0. Это дает прочную основу для дальнейшей кастомизации в корпоративной среде и сообществе разработчиков. Версия с функцией рассуждения появится в ближайшее время.
Mistral работала совместно с vLLM и Red Hat, чтобы сделать Mistral Large 3 доступной для сообщества открытого исходного кода. Компания выпускает чекпоинт в формате NVFP4, созданный с помощью llm-compressor.
Оптимизированный чекпоинт позволяет эффективно запускать Mistral Large 3 на системах Blackwell NVL72 и на одном узле 8×A100 или 8×H100 с использованием vLLM.
Все новые модели Mistral 3 обучались на GPU NVIDIA Hopper. Они используют высокоскоростную память HBM3e для задач масштаба передовых технологий. NVIDIA интегрировала современные ядра внимания и смеси экспертов Blackwell для разреженной архитектуры Large 3.
Для периферийных устройств и локальных задач компания выпускает серию Ministral 3 в трех размерах: 3B, 8B и 14B параметров. Для каждого размера доступны базовая версия, версия с инструкциями и версия с рассуждением. Все они имеют возможности понимания изображений под лицензией Apache 2.0.

