DeepSeek выложил код движка DSpark — генерация моделей ускорилась на 85%

DeepSeek опубликовал исходный код и научную статью DSpark — системы оптимизации инференса, которая ускоряет генерацию токенов на 60–85%. Код доступен в открытом репозитории на GitHub.

Инференс — это то, что происходит, когда вы пишете запрос модели и ждёте ответа. Именно на этом этапе компании тратят больше всего вычислительных ресурсов. Ускорить его на 85% — значит либо снизить расходы примерно вдвое, либо обслуживать вдвое больше пользователей на том же железе.

DSpark — часть проекта DeepSpec, в котором DeepSeek систематизирует внутренние технические наработки и открывает их сообществу. Компания известна тем, что добивается высокой производительности при относительно скромных ресурсах: их модели конкурируют с GPT-4 класса при значительно меньших затратах на обучение.

Публикация подобных оптимизаций — редкость. Крупные лаборатории обычно оставляют инфраструктурные наработки внутри. DeepSeek последовательно идёт в другую сторону: открывает и веса моделей, и технические детали их работы.

Для инженеров, которые запускают большие языковые модели в продакшене, DSpark — готовый инструмент, который можно изучить и адаптировать. Для исследователей — задокументированный набор техник с измеримым результатом.