Google добавила возможность управления компьютером в модель Gemini 3.5 Flash — теперь это встроенный инструмент, а не отдельная модель. ИИ-агент видит экран, кликает, вводит текст и прокручивает страницы в браузерах, на мобильных устройствах и десктопах.
Раньше для этого нужна была специальная модель Gemini Computer Use, вышедшая в октябре 2025 года. Теперь управление экраном доступно внутри Flash наравне с запуском кода, поиском и вызовом функций. Разработчикам не нужно переключаться между двумя моделями — всё в одной.
Матео Кирос, продакт-менеджер Google, описал интеграцию так: Flash теперь умеет видеть экран, рассуждать о происходящем и совершать действия.
Google позиционирует это для корпоративных клиентов. Агенты смогут тестировать ПО без живых тестировщиков, заполнять формы, извлекать данные из интерфейсов и работать с внутренними инструментами компаний.
Отдельно Google проработала защиту от prompt injection — атаки, при которой вредоносные инструкции на веб-странице заставляют агента делать что-то нежелательное. Предусмотрены две опциональные защиты: запрос подтверждения перед важными действиями (отправка формы, покупка, удаление данных) и автоматическая остановка агента при обнаружении подозрительных инструкций. Обе защиты не включены по умолчанию.
Flash — одна из самых дешёвых моделей Google, что делает computer use доступным для масштабной автоматизации. Доступно через Gemini API и Gemini Enterprise Agent Platform — переименованный Vertex AI.
На рынке уже работают Claude Computer Use от Anthropic (поддерживает не только браузеры, но и файловые системы) и аналогичный инструмент OpenAI. Google сделала ставку на интеграцию и стоимость, а не на универсальность.
Новых бенчмарков для встроенного инструмента Google не публиковала. Технология всё ещё плохо справляется с CAPTCHA, всплывающими окнами и динамически загружаемым контентом.