Ускорители Nvidia GB200 столкнулись с проблемами при обучении ИИ

Аналитическое агентство SemiAnalysis опубликовало детальный технический анализ современных решений для обучения искусственного интеллекта. И в настоящее время для эффективной тренировки передовых ИИ-моделей оптимально подходят ускорители предыдущего поколения — Nvidia H100 и H200, а также аппаратные решения Google TPU.

Серверные стойки GB200 NVL72, оснащенные новейшими графическими процессорами Nvidia, демонстрируют критические проблемы в двух ключевых компонентах: медной коммутационной плате NVLink и системах диагностики неисправностей.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Архитектура NVL72 предусматривает использование 64 ускорителей GB200 для активного обучения и 8 дополнительных GPU в качестве резервных. Теоретически такая конфигурация должна обеспечивать отказоустойчивость, однако несовершенство диагностических инструментов не позволяет оперативно локализовать и устранить неисправности.

При возникновении проблемы с одним из ускорителей весь процесс обучения останавливается, что требует отката к последней контрольной точке и длительного ремонта.

Исследователи SemiAnalysis подчеркивают, что им не известно ни об одном случае успешного завершения полного цикла обучения фронтирной (передовой) модели на серверах GB200 NVL72.

В связи с этим аналитики рекомендуют использовать данную платформу преимущественно для инференса – запуска уже обученных моделей при обслуживании конечных пользователей.

Примечательно, что сама Nvidia в последних маркетинговых материалах о GB200 NVL72 сместила акцент с обучения на запуск готовых моделей, хотя в ранних анонсах компания позиционировала платформу как универсальное решение для обоих сценариев использования.

Экономический анализ SemiAnalysis демонстрирует, что совокупная стоимость владения для GPU GB200 в 1,6-1,7 раза превышает аналогичный показатель для H100. Следовательно, для обеспечения рентабельности новые ускорители должны демонстрировать производительность минимум в 1,6 раза выше при сопоставимом времени простоя – условие, которое в текущей конфигурации не выполняется.

Автор: Юлия Самойлова
Пишет о технологиях искусственного интеллекта с 2019 года. Специализируется на материалах о практическом применении ИИ в различных отраслях.