Международная группа исследователей из Northwestern University, Microsoft, Stanford и University of Washington представила инновационную систему RAGEN. Нацеленную на решение одной из самых острых проблем современных ИИ-агентов — их ненадежности и хрупкости в реальных условиях корпоративного использования.
Среди авторов исследования выступает Зихан Ван, бывший исследователь DeepSeek, в настоящее время завершающий докторскую диссертацию в Northwestern University. Ключевой особенностью разработки стал инновационный фреймворк StarPO, который исследует, как большие языковые модели могут учиться через опыт, а не простое запоминание.
В отличие от статических задач вроде решения математических задач или генерации кода, система RAGEN сфокусирована на многоходовых, интерактивных сценариях, где агенты должны адаптироваться, запоминать и рассуждать в условиях неопределенности.
Исследователи выявили фундаментальную проблему, которую назвали «Эхо-ловушкой». Согласно их наблюдениям, ИИ-агенты изначально генерируют символические, хорошо обоснованные ответы.
Однако со временем системы обучения с подкреплением (RL) начинают поощрять «shortcuts» — кратчайшие пути решения, что приводит к повторяющемуся поведению, которое в итоге снижает общую производительность. Этот регресс вызван петлями обратной связи, когда определенные фразы или стратегии получают высокие награды на ранних этапах, что поощряет их чрезмерное использование и подавляет исследование новых возможностей.
Фреймворк StarPO работает в двух чередующихся фазах: стадии развертывания, где языковая модель генерирует полные последовательности взаимодействий на основе рассуждений, и стадии обновления, когда модель оптимизируется с использованием нормализованных кумулятивных вознаграждений. Эта структура обеспечивает более стабильный и интерпретируемый цикл обучения по сравнению со стандартными подходами к оптимизации политики.
Для реализации и тестирования фреймворка авторы использовали доработанные варианты моделей Qwen от Alibaba, включая Qwen 1.5 и Qwen 2.5. Эти модели послужили базовыми языковыми моделями для всех экспериментов и были выбраны благодаря их открытым весам и надежным возможностям следования инструкциям, что обеспечивало воспроизводимость и последовательные базовые сравнения.