Alibaba разработала систему, которая позволяет сократить количество необходимых графических ускорителей Nvidia для своих языковых моделей на 82%. Этот прорыв особенно важен для китайских компаний, которые сталкиваются с ограничениями на импорт специальных чипов для искусственного интеллекта.
Как сообщает издание South China Morning Post, система под названием Aegaeon проходит бета-тестирование в одном из подразделений Alibaba Cloud уже больше трех месяцев. Компания представила результаты своей работы на мероприятии SOSP в Сеуле.
Узнать подробнее про клуб ShareAI
Система помогла сократить количество ускорителей Nvidia H20, обслуживающих десятки языковых моделей, с 1192 до 213 штук. При этом речь идет о моделях с 72 миллионами параметров.
В создании Aegaeon Alibaba сотрудничала с учеными из Пекинского университета. Они назвали эту разработку «первой попыткой выявить излишние затраты при одновременном обслуживании нагрузок с большими языковыми моделями».
Проблема, которую решает новая система, хорошо знакома всем крупным облачным провайдерам. Они должны одновременно обслуживать тысячи ИИ-моделей, но на практике часто используются лишь несколько популярных, например Qwen или DeepSeek. Остальные модели запускаются редко.
Это приводит к неэффективному использованию ресурсов. В экосистеме Alibaba Cloud до 17,7% ускорителей выделялись всего для 1,35% запросов. Фактически большая часть дорогих чипов простаивала большую часть времени.
Исследователи по всему миру ищут способы повысить эффективность использования графических процессоров. Один из подходов – объединение их в пулы, когда один GPU может обслуживать несколько моделей.
Система Aegaeon использует автоматическое масштабирование на уровне токенов. Это позволяет графическому процессору переключаться между разными моделями прямо во время генерации текста. В результате один GPU может обрабатывать до семи разных моделей.
Для сравнения, в других подобных системах один ускоритель обычно работает максимум с двумя или тремя моделями. При этом в Aegaeon задержки при переключении между моделями сократились на 97%.
Alibaba тестирует новую систему на своей платформе Bailian, которая предлагает модели Qwen бизнес-клиентам. В тестах используются ускорители Nvidia H20, которые были созданы американской компанией специально для китайского рынка.
Стоит отметить, что весной 2025 года эти ускорители временно попали под запрет на поставку в Китай, но к лету ограничения были сняты. Однако китайские власти стали рекомендовать местным разработчикам переходить на отечественные комплектующие.
По словам главы Nvidia, из-за этих событий доля компании на китайском рынке передовых чипов для искусственного интеллекта упала практически до нуля. В таких условиях оптимизация использования имеющихся ресурсов становится для китайских технологических компаний особенно важной задачей.