Исследователи из Принстона и Варшавского технологического университета выяснили: если увеличить глубину нейросети в системах обучения с подкреплением (RL), агент начинает вести себя принципиально иначе. Не просто лучше — он приобретает навыки, которых не было вовсе.
Обычно в RL-системах используют 2–5 слоёв. Команда протестировала сети глубиной до 1024 слоёв и зафиксировала прирост производительности в 2–50 раз в зависимости от задачи. На самой сложной задаче — лабиринт с гуманоидом — разрыв с базовой моделью превысил 1000 раз.
Картина получилась наглядной. Сеть из 4 слоёв просто бросается к цели и падает. При 16 слоях агент учится идти прямо. При 256 — начинает перепрыгивать стены. Авторы называют это первым задокументированным случаем подобных поведений в goal-conditioned RL для гуманоидных агентов.
В основе — алгоритм Contrastive RL (CRL). Он решает главную проблему RL: нехватку обратной связи. Языковая модель учится на каждом слове, а агент получает сигнал только в конце — достиг цели или нет. CRL учит агента задавать вопрос: похоже ли это действие на шаг к цели? Ответ формируется через собственный опыт, без человеческих меток.
Важный результат: глубина оказалась эффективнее ширины. Сеть с удвоенным числом слоёв обходила даже самые широкие сети при меньшем числе параметров. Но это работает только с CRL — классические RL-алгоритмы от добавления слоёв не выигрывают.
Есть ограничения: все эксперименты пока только в симуляции, а оффлайн-режим (когда агент не взаимодействует со средой) дополнительной глубины не оценил. Код открыт.
Результат вписывается в более широкую картину: в 2022 году исследователи из Гёте-университета показали, что законы масштабирования из LLM работают и для RL. Теперь стало ясно, какой именно параметр тянуть — глубину, а не ширину.