Китайская лаборатория искусственного интеллекта DeepSeek выпустила новую модель DeepSeek-R1. Которая по ряду показателей не уступает нашумевшей o1 от OpenAI, а в некоторых тестах даже превосходит её.
Главное техническое достижение – это архитектура на основе Mixture of Experts (MoE) с впечатляющими 671 миллиардами параметров, из которых активно используются около 37 млрд.
В новой версии разработчики применили метод холодного SFT (Supervised Fine-Tuning), что позволило значительно улучшить читаемость ответов и избавиться от повторов. Модель поддерживает контекстное окно до 128 тысяч токенов.
DeepSeek-R1 уже доступна на платформе HuggingFace под лицензией MIT, что позволяет использовать её в коммерческих целях без ограничений. Модель превзошла o1 в нескольких ключевых бенчмарках: AIME, MATH-500 и SWE-bench Verified, особенно в задачах по математике, физике и программированию.
Компания также выпустила «облегчённые» версии R1 размером от 1.5 до 70 млрд параметров – самую маленькую можно запустить даже на обычном ноутбуке.
API-доступ к полной версии обойдётся на 90-95% дешевле, чем у o1: $0.14 за миллион входных токенов при попадании в кэш, $0.55 при промахе и $2.19 за миллион выходных токенов.
Протестировать модель можно бесплатно на официальном сайте (до 50 сообщений в день). Интерфейс похож на ChatGPT, хотя и с меньшим количеством функций.
При этом есть уникальные возможности «глубокого мышления» (DeepThink) и поиска.