Стали известны детали архитектуры нового DeepSeek R2

На популярной китайской платформе Jiuyan Gongshe, неизвестный пользователь опубликовал инсайдерскую информацию. О готовящемся к выпуску DeepSeek R2, который обещает стать настоящим прорывом в индустрии. По данным инсайдера, DeepSeek R2 обучают одновременно на китайских чипах Huawei Ascend 910B и американских Nvidia H800.

DeepSeek R2 будет построен на новой архитектуре Hybrid MoE 3.0. И разработчики заложили в систему колоссальные 1,2 триллиона параметров, однако благодаря инновационной архитектуре единовременно будут активироваться только около 78 млрд. Это должно обеспечить беспрецедентную эффективность системы.

По результатам тестирования, якобы проведенного Alibaba Cloud, стоимость обработки одного токена на длинных контекстах в DeepSeek R2 будет на впечатляющие 97,3% ниже по сравнению с флагманской моделью OpenAI — GPT-4 Turbo. Если эти данные подтвердятся, китайский ИИ может серьезно пошатнуть доминирование американских разработчиков на мировом рынке.

Особый интерес представляет информация об аппаратной базе для обучения новой модели. Фактическая производительность системы на операциях FP16 якобы достигла фантастических 512 PetaFLOPS. Это соответствует примерно 91% эффективности аналогичных кластеров на чипах Nvidia A100 — чрезвычайно амбициозный показатель, демонстрирующий серьезный прогресс китайских технологий.

Согласно утечке, релиз революционной модели DeepSeek R2 запланирован уже на май этого года, что может существенно изменить расстановку сил на глобальном рынке искусственного интеллекта.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.