Agentic Vision дает Gemini 3 Flash прирост точности на 10%

Google выпустила функцию Agentic Vision для модели Gemini 3 Flash. Технология меняет подход к анализу изображений. Вместо одного взгляда модель теперь активно работает с картинкой.

Раньше схема была простой: посмотри на изображение и ответь. Теперь модель делает три шага. Посмотри, поработай с картинкой и только потом ответь. Это дает прирост точности на 5-10% по сравнению с обычной Gemini 3 Flash.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Работает через цикл Think-Act-Observe. Первый шаг — анализ изображения и составление плана. Второй — выполнение кода на Python для обработки картинки. Третий — добавление новой информации в контекст для ответа.

Модель может приближать мелкие детали, поворачивать изображение или наносить разметку. Например, для подсчета объектов она детектирует каждый из них, рисует рамки и считает прямоугольники. Не просто смотрит и угадывает число, а проверяет математически.

Задача посчитать пальцы на руке иллюстрирует разницу. Обычная модель ответит 5 сразу. Agentic Vision детектит каждый палец с рамками, считает и выдает результат. Картинка становится визуальным черновиком для рассуждений.

Лучше всего функция работает на сложных таблицах и мелких деталях. Это задачи, где один взгляд дает ошибку. Модель пишет код для увеличения нужных частей изображения или расчетов по данным из таблицы.

Прирост в 5-10% может показаться небольшим. Но для задач, где важна точность, это существенная разница. Особенно при работе с финансовыми документами, медицинскими снимками или технической документацией.

Функция уже доступна разработчикам через API. Ее можно попробовать в Google AI Studio и Vertex AI. Также внедрение началось в приложении Gemini. Пользователи скоро получат доступ к улучшенному анализу изображений.

Agentic Vision превращает модель в активного исследователя изображений. Она не просто распознает, что видит. Она может манипулировать картинкой программно для получения лучшего результата.

Автор: Юлия Самойлова
Пишет о технологиях искусственного интеллекта с 2019 года. Специализируется на материалах о практическом применении ИИ в различных отраслях.