OpenAI и техгиганты создали протокол, который делает суперкомпьютеры быстрее и дешевле

OpenAI вместе с AMD, Broadcom, Intel, Microsoft и NVIDIA разработала новый сетевой протокол MRC — Multipath Reliable Connection. Его задача — убрать узкие места в сетях, которые соединяют десятки тысяч GPU внутри суперкомпьютеров.

Обычная сеть передаёт данные по одному маршруту. MRC разбивает трафик на потоки и гонит их одновременно по сотням путей. Если какой-то канал падает, протокол находит обход за микросекунды — обычные сети на это тратят секунды или даже десятки секунд. Для обучения больших моделей это критично: сбой в сети раньше останавливал всё.

Архитектура MRC позволяет подключить более 100 000 GPU, используя всего два уровня Ethernet-коммутаторов вместо трёх или четырёх в стандартных сетях на 800 Гбит/с. Это напрямую снижает стоимость железа и энергопотребление.

Протокол уже работает в реальных условиях. MRC развёрнут на всех крупнейших суперкомпьютерах OpenAI с GPU NVIDIA GB200 — на площадке Oracle Cloud Infrastructure в Абилине, штат Техас, и на суперкомпьютерах Microsoft Fairwater. Во время обучения одной из последних моделей для ChatGPT и Codex команда перезагрузила четыре коммутатора первого уровня — и не пришлось даже предупреждать инженеров, которые в этот момент вели обучение.

Спецификация MRC опубликована через Open Compute Project — отраслевую организацию, которая занимается открытыми стандартами для дата-центров. Вместе со спецификацией вышла научная статья с описанием архитектуры.

Открытый стандарт означает, что технология не останется внутри одной компании. Производители сетевого оборудования уже участвовали в разработке — значит, поддержка в железе появится быстрее.