DeepSeek представил технологию Sparse Attention

Компания DeepSeek представила экспериментальную модель DeepSeek-V3.2-Exp, которая стала промежуточным шагом к следующему крупному обновлению их ИИ-системы. Главное новшество в этой версии — технология DeepSeek Sparse Attention, которая делает обработку длинных текстов быстрее и экономичнее.

Суть нового метода в том, что модель учится выборочно обрабатывать информацию. Вместо расчета всех связей между словами, она фокусируется только на важных элементах. При этом качество ответов практически не снижается, что подтверждают проведенные тесты.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Согласно опубликованным бенчмаркам, общий уровень работы остался на уровне предыдущей версии V3.1, но при этом заметно выросла вычислительная эффективность. Это позволяет использовать модель с меньшими затратами ресурсов.

В некоторых тестах новая версия показала небольшое снижение показателей. Например, в тесте Humanity’s Last Exam результаты немного ухудшились. Однако в других бенчмарках, таких как AIME 2025 и Codeforces, модель продемонстрировала улучшения.

Такая стабильность качества при общем ускорении работы может говорить о том, что компания проводит оптимизацию перед выпуском более масштабного обновления в будущем. Похоже, что DeepSeek делает ставку на удешевление и ускорение работы с длинными контекстами.

DeepSeek-V3.2-Exp доступна с открытым исходным кодом. Пользователи уже сейчас могут протестировать модель на платформе Hugging Face или запустить ее через инструменты vLLM и SGLang. Для удобства разработчиков подготовлены готовые докер-образы.

Технология DeepSeek Sparse Attention может стать важным шагом к созданию более эффективных ИИ-агентов и RAG-систем. Если подход докажет свою эффективность, это потенциально откроет новые возможности для систем искусственного интеллекта, работающих с большими объемами данных.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

DeepSeek представил технологию Sparse Attention