Пользователи массово сообщают, что разница в способностях между предыдущей и обновлённой версиями модели DeepSeek-V3 разительная. Особенно когда речь идёт о математических вычислениях и задачах программирования. В конфигурации модели не произошло каких-то кардинальных изменений, а команда DeepSeek пока не сделала официального анонса обновления.
Новый DeepSeek-V3 представляет собой языковую модель с архитектурой Mixture-of-Experts (MoE), насчитывающую 685 млрд параметров. Это последняя итерация флагманской модели от команды DeepSeek, которая и так находилась в лидерах по ряду бенчмарков, а теперь, похоже, поднимает планку ещё выше.
Новая версия DeepSeek-V3 уже доступна на Hugging Face, однако её веса занимают почти 700 Гб, что делает локальное использование модели недоступным для большинства пользователей из-за высоких требований к аппаратному обеспечению. Однако сервис OpenRouter уже интегрировал обновлённую модель, что позволяет всем желающим опробовать её возможности бесплатно через их платформу.
Эксперты отмечают, что такой значительный прогресс в возможностях модели без видимых изменений в архитектуре может свидетельствовать о серьёзных улучшениях в методологии обучения или принципиально новом подходе к финальной настройке модели. Также высказываются предположения о возможном расширении обучающего датасета высококачественными примерами математических задач и программного кода.
Сообщество с нетерпением ожидает официального пресс-релиза и технического отчёта от команды DeepSeek, чтобы понять, какие именно инновации позволили достичь такого впечатляющего скачка в производительности модели.