DeepSeek открыл FlashMLA: эффективные GPU-ядра стали доступны всем

Компания DeepSeek начала беспрецедентную кампанию по открытию своих внутренних технологий. Первым в открытый доступ вышел проект FlashMLA – набор оптимизированных GPU-ядер, которые активно используются в производственных системах компании. В основе технологии лежит метод multi latent attention (MLA), позволяющий существенно снизить потребление памяти за счет эффективного сжатия матриц ключей и значений в трансформерах.

Несмотря на высокую перспективность, до сегодняшнего дня оптимизированных решений для этого метода практически не существовало. FlashMLA предлагает готовое решение для быстрого инференса с поддержкой формата bfloat16, что обеспечивает оптимальный баланс между скоростью работы и точностью вычислений. Особенно важно, что код совместим со всей линейкой графических процессоров серии Hopper, включая H100 и H800.

В течение недели компания обещает опубликовать еще четыре репозитория из своей внутренней экосистемы. Это решение может существенно повлиять на развитие всей отрасли, предоставив разработчикам доступ к передовым технологиям оптимизации искусственного интеллекта.

Код проекта уже доступен на GitHub по адресу github.com/deepseek-ai/FlashMLA, что открывает новые возможности для всего сообщества разработчиков ИИ.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.