DeepSeek выпустил обновленную модель V3.1

Китайская компания DeepSeek выпустила обновленную модель V3.1 со встроенной функцией быстрой обработки запросов. Новую версию уже можно протестировать через веб-интерфейс, мобильное приложение и программный интерфейс API.

Модель V3.1 поддерживает контекстное окно размером 128K токенов, однако результаты тестирования в специализированных бенчмарках пока не публиковались. Предыдущая версия V3 получила обновление 20 марта, а более мощная рассуждающая модель R1 была обновлена 28 мая.

В рейтинговой системе LMArena обнаружены две неизвестные модели, которые могут принадлежать DeepSeek. Это указывает на возможное ускорение выпуска обновлений для R1, хотя найденные модели могут оказаться разными версиями V3.

Релиз V3.1 происходит на фоне задержки флагманской модели R2. Первоначально источники прогнозировали ее выход в мае, но сейчас запуск перенесен на начало осени. По данным Financial Times, задержка связана с двумя основными проблемами - длительной разметкой обучающих материалов и трудностями с получением необходимого оборудования.

Из-за международных санкций Китай испытывает нехватку графических процессоров NVIDIA, которые необходимы для обучения современных ИИ-моделей. Китайские чиновники предложили использовать отечественные чипы Huawei Ascend для тренировки R2, однако эксперимент оказался неудачным.

В итоге было принято решение вернуться к использованию чипов NVIDIA для обучения моделей, а процессоры Ascend применять только для запуска готовых моделей для конечных пользователей.