Исследователи из компании Цукерберга и нескольких университетов создали систему, которая не просто решает задачи, но и переписывает логику собственного обучения. Они назвали её гиперагентом.
Проблема прежних самообучающихся систем была простой: механизм, который управляет улучшением, написан людьми и не меняется. Система может совершенствоваться — но только в рамках того, что заложил человек. Гиперагент от этого ограничения избавлен.
Система состоит из двух частей в одном редактируемом коде. Первая решает задачу — например, оценивает научную статью или придумывает функцию вознаграждения для робота. Вторая — изменяет весь агент, включая себя саму. Получается петля: агент становится лучше не только в работе, но и в том, как именно он становится лучше.
За основу взят Darwin Gödel Machine — метод, где агент генерирует варианты своего кода, тестирует их и сохраняет успешные как отправные точки для следующих улучшений. Новая система, DGM-H, снимает одно принципиальное ограничение оригинала: тот работал только с задачами программирования. За пределами кода его результаты падали практически до нуля.
DGM-H проверяли на четырёх областях. В задаче рецензирования научных статей точность выросла с 0,0 до 0,710. В проектировании поведения четырёхногого робота — с 0,060 до 0,372. На бенчмарке Polyglot по программированию система вышла на уровень исходного DGM, хотя под кодирование не затачивалась.
Самый неожиданный результат — перенос навыков. Гиперагент, обученный на рецензировании и робототехнике, справился с оценкой олимпийских задач по математике. Агенты из оригинального DGM застряли на нуле. Система сама, без инструкций, разработала трекер производительности, систему памяти и эвристики для среды симуляции.
Все эксперименты проводились в изолированной среде с ограниченным доступом к интернету. Авторы сами предупреждают: такие системы могут развиваться быстрее, чем человек успевает их проверять. Код опубликован на GitHub.
*Компания Meta признана экстремистской и запрещена в РФ.