Новая модель Gemini научилась работать с веб-интерфейсами

Google выпустил специализированную модель Gemini 2.5 Computer Use для взаимодействия с пользовательскими интерфейсами. Новый инструмент позволяет ИИ-агентам управлять веб-страницами и приложениями как обычный человек – кликать, печатать и прокручивать страницы.

Модель создана на основе возможностей Gemini 2.5 Pro по визуальному пониманию и обработке информации. По данным компании, она превосходит конкурентов в тестах на управление веб и мобильными интерфейсами, обеспечивая при этом меньшую задержку.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Разработчики получили доступ к этой технологии через API Gemini в сервисах Google AI Studio и Vertex AI. Модель особенно полезна для задач, которые требуют прямого взаимодействия с графическими интерфейсами, например, для заполнения форм, управления выпадающими списками и фильтрами.

Принцип работы инструмента основан на цикличном взаимодействии. Модель получает запрос пользователя, скриншот среды и историю действий, после чего анализирует их и генерирует ответ – обычно это функция, представляющая одно из действий с интерфейсом. После выполнения действия новый скриншот отправляется обратно модели, и цикл повторяется.

Google отмечает, что Gemini 2.5 Computer Use в первую очередь оптимизирован для работы с веб-браузерами, хотя также показывает хорошие результаты в управлении мобильными интерфейсами. Компания пока не адаптировала модель для управления на уровне операционных систем компьютеров.

В компании уделили особое внимание вопросам безопасности. Были встроены защитные функции против трех ключевых рисков: намеренного неправильного использования, непредвиденного поведения модели и вредоносных промптов в веб-среде. Разработчикам предоставлены дополнительные инструменты контроля, позволяющие предотвратить автоматическое выполнение потенциально опасных действий.

Модель уже используется внутренними командами Google для тестирования интерфейсов, что значительно ускоряет разработку программного обеспечения. Технология также применяется в Project Mariner, агенте тестирования Firebase и некоторых функциях AI Mode в поиске Google.

Начиная с сегодняшнего дня, модель Gemini 2.5 Computer Use доступна в режиме публичного предварительного доступа через API Gemini.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.