Alibaba снизила потребность в чипах Nvidia на 82%

Alibaba разработала систему, которая позволяет сократить количество необходимых графических ускорителей Nvidia для своих языковых моделей на 82%. Этот прорыв особенно важен для китайских компаний, которые сталкиваются с ограничениями на импорт специальных чипов для искусственного интеллекта.

Как сообщает издание South China Morning Post, система под названием Aegaeon проходит бета-тестирование в одном из подразделений Alibaba Cloud уже больше трех месяцев. Компания представила результаты своей работы на мероприятии SOSP в Сеуле.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Система помогла сократить количество ускорителей Nvidia H20, обслуживающих десятки языковых моделей, с 1192 до 213 штук. При этом речь идет о моделях с 72 миллионами параметров.

В создании Aegaeon Alibaba сотрудничала с учеными из Пекинского университета. Они назвали эту разработку «первой попыткой выявить излишние затраты при одновременном обслуживании нагрузок с большими языковыми моделями».

Проблема, которую решает новая система, хорошо знакома всем крупным облачным провайдерам. Они должны одновременно обслуживать тысячи ИИ-моделей, но на практике часто используются лишь несколько популярных, например Qwen или DeepSeek. Остальные модели запускаются редко.

Это приводит к неэффективному использованию ресурсов. В экосистеме Alibaba Cloud до 17,7% ускорителей выделялись всего для 1,35% запросов. Фактически большая часть дорогих чипов простаивала большую часть времени.

Исследователи по всему миру ищут способы повысить эффективность использования графических процессоров. Один из подходов – объединение их в пулы, когда один GPU может обслуживать несколько моделей.

Система Aegaeon использует автоматическое масштабирование на уровне токенов. Это позволяет графическому процессору переключаться между разными моделями прямо во время генерации текста. В результате один GPU может обрабатывать до семи разных моделей.

Для сравнения, в других подобных системах один ускоритель обычно работает максимум с двумя или тремя моделями. При этом в Aegaeon задержки при переключении между моделями сократились на 97%.

Alibaba тестирует новую систему на своей платформе Bailian, которая предлагает модели Qwen бизнес-клиентам. В тестах используются ускорители Nvidia H20, которые были созданы американской компанией специально для китайского рынка.

Стоит отметить, что весной 2025 года эти ускорители временно попали под запрет на поставку в Китай, но к лету ограничения были сняты. Однако китайские власти стали рекомендовать местным разработчикам переходить на отечественные комплектующие.

По словам главы Nvidia, из-за этих событий доля компании на китайском рынке передовых чипов для искусственного интеллекта упала практически до нуля. В таких условиях оптимизация использования имеющихся ресурсов становится для китайских технологических компаний особенно важной задачей.

Автор: Юлия Самойлова
Пишет о технологиях искусственного интеллекта с 2019 года. Специализируется на материалах о практическом применении ИИ в различных отраслях.