Исследователи из MIT обнаружили неожиданный феномен. Иногда обучение ИИ-агентов в среде, отличной от той, где они будут работать, даёт лучшие результаты. Этот эффект, названный «эффектом тренировки в помещении», противоречит общепринятой практике максимального приближения тренировочной среды к реальным условиям.
Команда исследовала это явление, обучая ИИ-агентов играть в модифицированные игры Atari с добавленной непредсказуемостью. Результаты показали, что агенты, обученные в среде с меньшей неопределенностью или «шумом», работали лучше, чем конкуренты, тренировавшиеся в той же шумной среде, где проводилось тестирование.
«Если мы учимся играть в теннис в помещении, где нет шума, мы можем легче освоить разные удары. Затем, переместившись в более шумную среду, например на ветреный корт, у нас может быть более высокая вероятность хорошей игры, чем если бы мы начали учиться в ветреной среде», – объясняет Серена Боно, научный сотрудник MIT Media Lab и ведущий автор исследования.
Исследователи разработали технику добавления определенного количества шума в функцию перехода – элемент обучения с подкреплением, определяющий вероятность перемещения агента из одного состояния в другое. В игре Pac-Man, например, это определяет вероятность движения призраков вверх, вниз, влево или вправо.
Результаты оказались неожиданными: агент, обученный в игре без шума, а затем протестированный в среде с шумом в функции перехода, показал лучшие результаты, чем агент, обученный сразу в шумной игре. Этот эффект проявился как в специально модифицированных, так и в обычных версиях игр.