Она обошла Meta Llama 3.1 405B и бросила вызов закрытым гигантам вроде GPT-4. Впечатляющие цифры говорят сами за себя: 671 миллиард параметров, из которых 37 миллиардов активируются для каждого токена, обучение на 14,8 триллионах токенов.
Модель работает в три раза быстрее предшественницы и демонстрирует выдающиеся результаты в тестах, приближаясь к показателям GPT-4 и обходя Claude 3.5 Sonnet.
В сложнейшем тесте GPQA Diamond, где проверяются научные знания уровня PhD, DeepSeek-V3 набрала 59,1%. Хотя это и уступает результату OpenAI o1 (76%), для открытой модели это впечатляющий результат.
Революционным моментом стала интеграция возможностей рассуждения от серии моделей R1, что вывело способности DeepSeek-V3 к логическому мышлению на новый уровень.
«Наш подход элегантно включает паттерны верификации и рефлексии R1, что заметно улучшает производительность в задачах рассуждения», — отмечается в техническом документе.
DeepSeek делает ставку не только на технологии, но и на доступность. До 8 февраля 2025 года сохранятся текущие тарифы V2, после чего цена составит всего $0,27 за миллион токенов на входе и $1,10 на выходе — одно из самых выгодных предложений на рынке.
Модель уже доступна на GitHub с полной документацией. Пользователи могут протестировать её на chat.deepseek.com, где доступна функция поиска в интернете, или интегрировать через Hugging Face.
За последние месяцы DeepSeek совершила значительный прорыв в экосистеме открытого ИИ.
Всего несколько недель назад компания выпустила V2.5-1210, завершающую модель серии V2, а теперь представила революционную V3, демонстрируя стремительный темп развития технологий искусственного интеллекта.