Agentic Vision дает Gemini 3 Flash прирост точности на 10%

Google выпустила функцию Agentic Vision для модели Gemini 3 Flash. Технология меняет подход к анализу изображений. Вместо одного взгляда модель теперь активно работает с картинкой.

Раньше схема была простой: посмотри на изображение и ответь. Теперь модель делает три шага. Посмотри, поработай с картинкой и только потом ответь. Это дает прирост точности на 5-10% по сравнению с обычной Gemini 3 Flash.

Работает через цикл Think-Act-Observe. Первый шаг - анализ изображения и составление плана. Второй - выполнение кода на Python для обработки картинки. Третий - добавление новой информации в контекст для ответа.

Модель может приближать мелкие детали, поворачивать изображение или наносить разметку. Например, для подсчета объектов она детектирует каждый из них, рисует рамки и считает прямоугольники. Не просто смотрит и угадывает число, а проверяет математически.

Задача посчитать пальцы на руке иллюстрирует разницу. Обычная модель ответит 5 сразу. Agentic Vision детектит каждый палец с рамками, считает и выдает результат. Картинка становится визуальным черновиком для рассуждений.

Лучше всего функция работает на сложных таблицах и мелких деталях. Это задачи, где один взгляд дает ошибку. Модель пишет код для увеличения нужных частей изображения или расчетов по данным из таблицы.

Прирост в 5-10% может показаться небольшим. Но для задач, где важна точность, это существенная разница. Особенно при работе с финансовыми документами, медицинскими снимками или технической документацией.

Функция уже доступна разработчикам через API. Ее можно попробовать в Google AI Studio и Vertex AI. Также внедрение началось в приложении Gemini. Пользователи скоро получат доступ к улучшенному анализу изображений.

Agentic Vision превращает модель в активного исследователя изображений. Она не просто распознает, что видит. Она может манипулировать картинкой программно для получения лучшего результата.