DeepSeek-V3 получил мощнейшее обновление, особенно в вычислениях

Пользователи массово сообщают, что разница в способностях между предыдущей и обновлённой версиями модели  DeepSeek-V3 разительная. Особенно когда речь идёт о математических вычислениях и задачах программирования. В конфигурации модели не произошло каких-то кардинальных изменений, а команда DeepSeek пока не сделала официального анонса обновления.

Новый DeepSeek-V3 представляет собой языковую модель с архитектурой Mixture-of-Experts (MoE), насчитывающую 685 млрд параметров. Это последняя итерация флагманской модели от команды DeepSeek, которая и так находилась в лидерах по ряду бенчмарков, а теперь, похоже, поднимает планку ещё выше.

Новая версия DeepSeek-V3 уже доступна на Hugging Face, однако её веса занимают почти 700 Гб, что делает локальное использование модели недоступным для большинства пользователей из-за высоких требований к аппаратному обеспечению. Однако сервис OpenRouter уже интегрировал обновлённую модель, что позволяет всем желающим опробовать её возможности бесплатно через их платформу.

Эксперты отмечают, что такой значительный прогресс в возможностях модели без видимых изменений в архитектуре может свидетельствовать о серьёзных улучшениях в методологии обучения или принципиально новом подходе к финальной настройке модели. Также высказываются предположения о возможном расширении обучающего датасета высококачественными примерами математических задач и программного кода.

Сообщество с нетерпением ожидает официального пресс-релиза и технического отчёта от команды DeepSeek, чтобы понять, какие именно инновации позволили достичь такого впечатляющего скачка в производительности модели.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.