Китайская DeepSeek-V3 — теперь лучшая модель ИИ с открытым исходным кодом

Она обошла Meta Llama 3.1 405B и бросила вызов закрытым гигантам вроде GPT-4. Впечатляющие цифры говорят сами за себя: 671 миллиард параметров, из которых 37 миллиардов активируются для каждого токена, обучение на 14,8 триллионах токенов.

Модель работает в три раза быстрее предшественницы и демонстрирует выдающиеся результаты в тестах, приближаясь к показателям GPT-4 и обходя Claude 3.5 Sonnet.

В сложнейшем тесте GPQA Diamond, где проверяются научные знания уровня PhD, DeepSeek-V3 набрала 59,1%. Хотя это и уступает результату OpenAI o1 (76%), для открытой модели это впечатляющий результат.

Революционным моментом стала интеграция возможностей рассуждения от серии моделей R1, что вывело способности DeepSeek-V3 к логическому мышлению на новый уровень.

«Наш подход элегантно включает паттерны верификации и рефлексии R1, что заметно улучшает производительность в задачах рассуждения», — отмечается в техническом документе.

DeepSeek делает ставку не только на технологии, но и на доступность. До 8 февраля 2025 года сохранятся текущие тарифы V2, после чего цена составит всего $0,27 за миллион токенов на входе и $1,10 на выходе — одно из самых выгодных предложений на рынке.

Модель уже доступна на GitHub с полной документацией. Пользователи могут протестировать её на chat.deepseek.com, где доступна функция поиска в интернете, или интегрировать через Hugging Face.

За последние месяцы DeepSeek совершила значительный прорыв в экосистеме открытого ИИ.

Всего несколько недель назад компания выпустила V2.5-1210, завершающую модель серии V2, а теперь представила революционную V3, демонстрируя стремительный темп развития технологий искусственного интеллекта.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.