Команда Alibaba выпустила DeepPlanning — бенчмарк для оценки ИИ-агентов в долгосрочном планировании. Тест проверяет способность работать с жесткими временными и финансовыми ограничениями. Это не пошаговое рассуждение, а глобальная оптимизация всего плана.
Бенчмарк включает два сложных домена. Первый — планирование многодневных путешествий с поминутным расписанием. Второй — сложный шопинг с комбинированием купонов. Каждая задача имитирует реальную среду с API для сбора информации.
Узнать подробнее про клуб ShareAI
Агент должен удовлетворять локальные ограничения типа конкретных пожеланий к отелю. И одновременно укладываться в глобальные лимиты бюджета и времени. Один просчет разрушает весь план.
В планировании путешествий агент играет роль персонального помощника. На входе запрос на естественном языке с пунктом назначения, датами, бюджетом и предпочтениями. Например, отель 3 звезды с феном.
В распоряжении 9 специализированных API. Поиск рейсов, поездов, отелей, ресторанов и достопримечательностей. На выходе структурированный отчет с пошаговым расписанием и детализацией затрат.
Ключевой навык — пространственно-временное мышление. Нужно состыковать время вылета, часы работы музеев и продолжительность трансферов. Без накладок и превышения бюджета.
Планирование покупок превращает ИИ в умного покупателя. Агент решает комбинаторную задачу оптимизации. Найти лучшие товары по детальным требованиям и максимизировать пользу от скидок.
На вооружении 15 API для семантического поиска, фильтрации по атрибутам и управления купонами. Финал — JSON-корзина с оптимальным набором товаров и примененными промокодами.
Сложность в расчете правил комбинирования скидок. Межмагазинные против внутрибрендовых купонов. Цель — абсолютно минимальная итоговая цена.
Лучший результат у GPT-5.2-high — 44,6% средней точности. Claude-4.5-Opus с рассуждением показал 33,9%. GPT-5-high набрал 31,6%.
Отключение режима размышления резко снижает результаты. Claude-4.5-Opus без рассуждения упал с 33,9% до 26,3%. Это показывает важность явных паттернов рассуждения для сложного планирования.
Даже лучшая модель справляется меньше чем наполовину. 44,6% — это много ошибок в планах. Агенты еще далеки от человеческого уровня в задачах с множеством ограничений.
Материалы открыты. Научная статья на arXiv, датасет на Hugging Face и ModelScope, код на GitHub. Актуальный лидерборд доступен на сайте проекта.

