Исследователи Microsoft провели сравнительный анализ ИИ-агентов, работающих через программные интерфейсы (API) и графические интерфейсы пользователя (GUI), выявив их ключевые различия и предложив способы их эффективного сочетания.
Оценка по девяти категориям показала, что API-агенты более стабильны, менее подвержены ошибкам и значительно эффективнее — они могут выполнять сложные задачи за один шаг. GUI-агенты, хотя и требуют больше действий для достижения той же цели, обладают большей универсальностью, поскольку могут управлять практически любым программным обеспечением с видимым интерфейсом.
Согласно опубликованному исследованию, агенты API и GUI принципиально отличаются по методам взаимодействия с программным обеспечением. В то время как API-агенты используют прямые вызовы функций, GUI-агенты имитируют человеческие действия — перемещаются по меню и нажимают кнопки на экране.
Например, для планирования события API-агент может выполнить один вызов функции, тогда как GUI-агент откроет приложение календаря, найдет нужный экран и заполнит форму вручную.
Особенно заметны различия при работе с новыми или часто обновляемыми функциями: GUI-агенты легче адаптируются к изменениям интерфейса, в то время как API-агенты зависят от стабильных спецификаций. В вопросах безопасности преимущество у API-агентов, где доступ может быть ограничен на уровне отдельных функций, тогда как GUI-агенты обычно взаимодействуют со всем интерфейсом одновременно.
Обслуживание также проще с API-агентами благодаря контролю версий, в то время как GUI-агенты более хрупкие — даже небольшие визуальные изменения могут нарушить их работу. Однако в плане прозрачности лидируют GUI-агенты, поскольку пользователи могут наблюдать каждое действие визуально, что упрощает аудит.
По мнению исследователей, недавние достижения в области мультимодального ИИ могут сделать GUI-агентов более надежными, а новые инструменты упрощают разработку API, что в совокупности приведет к более гибким формам автоматизации.
Microsoft также представила четкие рекомендации по выбору типа агента: API-агенты предпочтительны для задач, критичных к производительности и безопасности, особенно при работе с хорошо документированными интерфейсами, внутренними операциями и базами данных.
GUI-агенты рекомендуются для устаревших систем без API, мобильных приложений с ограниченным доступом к API и задач, требующих визуального контроля, например, тестирования пользовательского интерфейса.