DeepSeek выпустил обновленную модель V3.1

Китайская компания DeepSeek выпустила обновленную модель V3.1 со встроенной функцией быстрой обработки запросов. Новую версию уже можно протестировать через веб-интерфейс, мобильное приложение и программный интерфейс API.

Модель V3.1 поддерживает контекстное окно размером 128K токенов, однако результаты тестирования в специализированных бенчмарках пока не публиковались. Предыдущая версия V3 получила обновление 20 марта, а более мощная рассуждающая модель R1 была обновлена 28 мая.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

В рейтинговой системе LMArena обнаружены две неизвестные модели, которые могут принадлежать DeepSeek. Это указывает на возможное ускорение выпуска обновлений для R1, хотя найденные модели могут оказаться разными версиями V3.

Релиз V3.1 происходит на фоне задержки флагманской модели R2. Первоначально источники прогнозировали ее выход в мае, но сейчас запуск перенесен на начало осени. По данным Financial Times, задержка связана с двумя основными проблемами — длительной разметкой обучающих материалов и трудностями с получением необходимого оборудования.

Из-за международных санкций Китай испытывает нехватку графических процессоров NVIDIA, которые необходимы для обучения современных ИИ-моделей. Китайские чиновники предложили использовать отечественные чипы Huawei Ascend для тренировки R2, однако эксперимент оказался неудачным.

В итоге было принято решение вернуться к использованию чипов NVIDIA для обучения моделей, а процессоры Ascend применять только для запуска готовых моделей для конечных пользователей.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.