Агент-гуманоид научился делать акробатику — просто добавили слои в нейросеть

Исследователи из Принстона и Варшавского технологического университета выяснили: если увеличить глубину нейросети в системах обучения с подкреплением (RL), агент начинает вести себя принципиально иначе. Не просто лучше — он приобретает навыки, которых не было вовсе.

Обычно в RL-системах используют 2–5 слоёв. Команда протестировала сети глубиной до 1024 слоёв и зафиксировала прирост производительности в 2–50 раз в зависимости от задачи. На самой сложной задаче — лабиринт с гуманоидом — разрыв с базовой моделью превысил 1000 раз.

Картина получилась наглядной. Сеть из 4 слоёв просто бросается к цели и падает. При 16 слоях агент учится идти прямо. При 256 — начинает перепрыгивать стены. Авторы называют это первым задокументированным случаем подобных поведений в goal-conditioned RL для гуманоидных агентов.

В основе — алгоритм Contrastive RL (CRL). Он решает главную проблему RL: нехватку обратной связи. Языковая модель учится на каждом слове, а агент получает сигнал только в конце — достиг цели или нет. CRL учит агента задавать вопрос: похоже ли это действие на шаг к цели? Ответ формируется через собственный опыт, без человеческих меток.

Важный результат: глубина оказалась эффективнее ширины. Сеть с удвоенным числом слоёв обходила даже самые широкие сети при меньшем числе параметров. Но это работает только с CRL — классические RL-алгоритмы от добавления слоёв не выигрывают.

Есть ограничения: все эксперименты пока только в симуляции, а оффлайн-режим (когда агент не взаимодействует со средой) дополнительной глубины не оценил. Код открыт.

Результат вписывается в более широкую картину: в 2022 году исследователи из Гёте-университета показали, что законы масштабирования из LLM работают и для RL. Теперь стало ясно, какой именно параметр тянуть — глубину, а не ширину.