Память HBM стала узким местом в развитии ИИ-ускорителей

Современные ИИ-ускорители достигли предела, где пропускная способность интерфейса памяти стала главным тормозом развития. Об этом заявили представители индустрии. Дефицит или объем памяти отходят на второй план. Устранение барьера зависит от разработчиков GPU и больших языковых моделей.

Ша Рабии, сооснователь Majestic Labs, рассказал CNBC о сути проблемы. Ускорители вычислений в последние годы значительно прибавили в быстродействии. Память практически не стала быстрее. Именно производительность памяти сейчас ограничивает рост скорости работы больших языковых моделей.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Переход к инференсу увеличит потребности в объеме памяти. Спрос будет расти очень быстро. Чем больше в инфраструктуре ИИ памяти, тем больше клиентов она может обслуживать одновременно.

На CES 2026 основатель Nvidia Дженсен Хуанг говорил о необходимости наращивать выпуск памяти. Он отметил, что покупатели игровых решений компании обижены на отрасль ИИ. Дефицит памяти толкает цены вверх даже в смежных сегментах рынка вроде видеокарт и консолей.

Запланированный AMD и Nvidia переход на память HBM4 не решит проблему полностью. Эта память ограничена в количестве каналов и высоте стека микросхем. Также есть лимиты по ширине интерфейса. Пропускная способность вычислительных систем могла бы масштабироваться эффективнее без этих ограничений.

Наращивать количество вычислительных блоков в GPU сейчас не имеет смысла. Память не успевает передавать данные при нагрузках, связанных с обучением моделей и инференсом.

Методы упаковки чипов тоже выступают ограничивающим фактором. При высоком спросе производственные мощности сильно загружены. Это усиливает дефицит скоростной памяти и повышает расходы производителей.

Разработчики ищут решения на архитектурном уровне. Они изучают вычисления внутри микросхем памяти — технологию PIM. Также рассматривают увеличение плотности компоновки микросхем в стеке памяти. В многокристальных решениях применяют прогрессивные интерфейсы типа UCIe. Они увеличивают полосу пропускания и снижают задержки при работе с данными.

Темпы масштабирования ИИ-инфраструктуры будут зависеть от прогресса в области более быстрой памяти.

HBM4 даст прирост быстродействия в полтора раза относительно HBM3E. Через 2048-разрядную шину можно передавать до 2 терабайт данных в секунду. К 2027 году появится память HBM4E. Она потенциально увеличит скорость передачи информации еще в полтора раза.

Внедрение интерфейса CXL должно повысить эффективность обмена данными между компонентами систем. В части памяти переход к CXL обеспечит рост степени загрузки на 50%. Также снизится энергопотребление на 20-30%. Новые методы трехмерной компоновки памяти тоже помогут повысить производительность и снизить энергопотребление.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.