Аналитическое агентство SemiAnalysis опубликовало детальный технический анализ современных решений для обучения искусственного интеллекта. И в настоящее время для эффективной тренировки передовых ИИ-моделей оптимально подходят ускорители предыдущего поколения — Nvidia H100 и H200, а также аппаратные решения Google TPU.
Серверные стойки GB200 NVL72, оснащенные новейшими графическими процессорами Nvidia, демонстрируют критические проблемы в двух ключевых компонентах: медной коммутационной плате NVLink и системах диагностики неисправностей.
Узнать подробнее про клуб ShareAI
Архитектура NVL72 предусматривает использование 64 ускорителей GB200 для активного обучения и 8 дополнительных GPU в качестве резервных. Теоретически такая конфигурация должна обеспечивать отказоустойчивость, однако несовершенство диагностических инструментов не позволяет оперативно локализовать и устранить неисправности.
При возникновении проблемы с одним из ускорителей весь процесс обучения останавливается, что требует отката к последней контрольной точке и длительного ремонта.
Исследователи SemiAnalysis подчеркивают, что им не известно ни об одном случае успешного завершения полного цикла обучения фронтирной (передовой) модели на серверах GB200 NVL72.
В связи с этим аналитики рекомендуют использовать данную платформу преимущественно для инференса – запуска уже обученных моделей при обслуживании конечных пользователей.
Примечательно, что сама Nvidia в последних маркетинговых материалах о GB200 NVL72 сместила акцент с обучения на запуск готовых моделей, хотя в ранних анонсах компания позиционировала платформу как универсальное решение для обоих сценариев использования.
Экономический анализ SemiAnalysis демонстрирует, что совокупная стоимость владения для GPU GB200 в 1,6-1,7 раза превышает аналогичный показатель для H100. Следовательно, для обеспечения рентабельности новые ускорители должны демонстрировать производительность минимум в 1,6 раза выше при сопоставимом времени простоя – условие, которое в текущей конфигурации не выполняется.