MIT: новый подход к обучению ИИ-агентов может улучшить их работу

Исследователи из MIT обнаружили неожиданный феномен. Иногда обучение ИИ-агентов в среде, отличной от той, где они будут работать, даёт лучшие результаты. Этот эффект, названный «эффектом тренировки в помещении», противоречит общепринятой практике максимального приближения тренировочной среды к реальным условиям.

Команда исследовала это явление, обучая ИИ-агентов играть в модифицированные игры Atari с добавленной непредсказуемостью. Результаты показали, что агенты, обученные в среде с меньшей неопределенностью или «шумом», работали лучше, чем конкуренты, тренировавшиеся в той же шумной среде, где проводилось тестирование.

«Если мы учимся играть в теннис в помещении, где нет шума, мы можем легче освоить разные удары. Затем, переместившись в более шумную среду, например на ветреный корт, у нас может быть более высокая вероятность хорошей игры, чем если бы мы начали учиться в ветреной среде», – объясняет Серена Боно, научный сотрудник MIT Media Lab и ведущий автор исследования.

Исследователи разработали технику добавления определенного количества шума в функцию перехода – элемент обучения с подкреплением, определяющий вероятность перемещения агента из одного состояния в другое. В игре Pac-Man, например, это определяет вероятность движения призраков вверх, вниз, влево или вправо.

Результаты оказались неожиданными: агент, обученный в игре без шума, а затем протестированный в среде с шумом в функции перехода, показал лучшие результаты, чем агент, обученный сразу в шумной игре. Этот эффект проявился как в специально модифицированных, так и в обычных версиях игр.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.