Alibaba проверяет ИИ-агентов на умение укладываться в бюджет

Команда Alibaba выпустила DeepPlanning - бенчмарк для оценки ИИ-агентов в долгосрочном планировании. Тест проверяет способность работать с жесткими временными и финансовыми ограничениями. Это не пошаговое рассуждение, а глобальная оптимизация всего плана.

Бенчмарк включает два сложных домена. Первый - планирование многодневных путешествий с поминутным расписанием. Второй - сложный шопинг с комбинированием купонов. Каждая задача имитирует реальную среду с API для сбора информации.

Агент должен удовлетворять локальные ограничения типа конкретных пожеланий к отелю. И одновременно укладываться в глобальные лимиты бюджета и времени. Один просчет разрушает весь план.

В планировании путешествий агент играет роль персонального помощника. На входе запрос на естественном языке с пунктом назначения, датами, бюджетом и предпочтениями. Например, отель 3 звезды с феном.

В распоряжении 9 специализированных API. Поиск рейсов, поездов, отелей, ресторанов и достопримечательностей. На выходе структурированный отчет с пошаговым расписанием и детализацией затрат.

Ключевой навык - пространственно-временное мышление. Нужно состыковать время вылета, часы работы музеев и продолжительность трансферов. Без накладок и превышения бюджета.

Планирование покупок превращает ИИ в умного покупателя. Агент решает комбинаторную задачу оптимизации. Найти лучшие товары по детальным требованиям и максимизировать пользу от скидок.

На вооружении 15 API для семантического поиска, фильтрации по атрибутам и управления купонами. Финал - JSON-корзина с оптимальным набором товаров и примененными промокодами.

Сложность в расчете правил комбинирования скидок. Межмагазинные против внутрибрендовых купонов. Цель - абсолютно минимальная итоговая цена.

Лучший результат у GPT-5.2-high - 44,6% средней точности. Claude-4.5-Opus с рассуждением показал 33,9%. GPT-5-high набрал 31,6%.

Отключение режима размышления резко снижает результаты. Claude-4.5-Opus без рассуждения упал с 33,9% до 26,3%. Это показывает важность явных паттернов рассуждения для сложного планирования.

Даже лучшая модель справляется меньше чем наполовину. 44,6% - это много ошибок в планах. Агенты еще далеки от человеческого уровня в задачах с множеством ограничений.

Материалы открыты. Научная статья на arXiv, датасет на Hugging Face и ModelScope, код на GitHub. Актуальный лидерборд доступен на сайте проекта.