MegaTrain: как обучить модель на 120 миллиардов параметров на одной видеокарте

Обычно для обучения больших языковых моделей нужны кластеры из десятков или сотен GPU. Исследователи представили MegaTrain — систему, которая позволяет тренировать модели с более чем 100 миллиардами параметров на одной видеокарте и в полной точности (full precision), без квантизации.

Ключевая идея: не хранить веса модели на GPU постоянно. Вместо этого параметры и состояния оптимизатора лежат в обычной оперативной памяти компьютера (CPU memory), а GPU используется только в момент вычислений. Система загружает один слой модели, считает градиенты и выгружает их обратно — слой за слоем.

Главная проблема такого подхода — узкое место между CPU и GPU по пропускной способности. MegaTrain решает его двумя способами. Первый — конвейерная загрузка: пока GPU считает один слой, система уже подгружает следующий. Второй — вместо постоянно хранящихся вычислительных графов используются «шаблоны» слоёв, к которым веса подключаются динамически по мере загрузки.

На одном GPU NVIDIA H200 с 1,5 ТБ оперативной памяти MegaTrain уверенно обучает модели до 120 миллиардов параметров. При обучении 14B-моделей система работает в 1,84 раза быстрее, чем DeepSpeed ZeRO-3 с CPU offloading — это популярный инструмент от Microsoft для распределённого обучения.

Отдельный результат: модель на 7 миллиардов параметров с контекстом 512 тысяч токенов обучается на одном GH200 — суперчипе NVIDIA, совмещающем GPU и большой объём высокоскоростной памяти.

Практическое значение пока ограничено: 1,5 ТБ оперативной памяти — редкость даже в серьёзных лабораториях.

Статья опубликована на arXiv 6 апреля 2026 года.