Опубликован рассказ об ИИ-агенте Lumine. Он создан на базе модели Qwen2-VL-7B. Агента научили играть в Genshin Impact.
Lumine способен пройти основную сюжетную линию региона Мондштадт. У живых игроков это занимает около пяти часов. Агент справляется с этой задачей с эффективностью человека. Также Lumine проходит следующие регионы, на которых не обучался. Он даже переносит навыки на другие похожие игры.
Узнать подробнее про клуб ShareAI
Агент работает в режиме реального времени. Он обрабатывает изображение с экрана пять раз в секунду. Каждые 200 миллисекунд Lumine генерирует текстовое описание действий. Из этого описания извлекаются движения мышью и нажатия клавиш. Частота обновлений достигает тридцати раз в секунду.
Внутри это обычная автодополняющая модель. Нет никаких специальных надстроек для действий. Используется только аккуратно придуманный формат текста. Он описывает, куда повернуть камеру, куда бежать, что нажать и как долго.
Агент может переключаться в режим размышления. Сначала он обдумывает дальнейшие действия, затем выполняет свой план. Чаще всего ИИ использует эту возможность при серьезных изменениях условий или получении нового задания.
Обучение построено в три этапа. Сначала модель дообучили на 1731 часе записанного геймплея Genshin Impact. Она научилась имитировать действия игроков и освоила базовые примитивы. Это движение, прыжки, атаки, взаимодействие с предметами и меню.
Затем добавили около 200 часов данных в формате инструкция-действие. Это текстовая инструкция и соответствующий отрезок игры с действиями. Так управление привязали к задачам на естественном языке.
На последнем этапе использовали 15 часов прохождения сюжетной линии. Там разметили короткие мысли агента. Зачем он делает этот шаг и что планирует дальше. Это дало ему гибридный режим рассуждений.
Lumine не ограничивается одной игрой. Без дополнительного обучения он проходит стоминутные миссии в Wuthering Waves. Также он справляется с первой главой Honkai: Star Rail длительностью около пяти часов. При этом он работает с другими интерфейсами и камерами.
Авторы называют это открытым рецептом создания универсальных агентов для трехмерных миров. В будущем полученные знания могут использовать для управления роботами.

