Компания Google расширила функциональные возможности своей флагманской ИИ-модели Gemini 2.5, интегрировав технологию разговорной сегментации изображений. Это позволяет анализировать и идентифицировать визуальные элементы на основе запросов, сформулированных на естественном языке.
В отличие от классических систем компьютерного зрения, оперирующих фиксированным набором идентификаторов типа «собака», «автомобиль» или «стул», обновленная модель Gemini демонстрирует способность интерпретировать сложные лингвистические конструкции и корректно применять их к соответствующим участкам изображения.
Техническая архитектура системы обеспечивает обработку многокомпонентных реляционных запросов, включая идентификацию объектов на основе их взаимного расположения и контекстуальных связей.
Например, модель успешно выделяет сегменты, соответствующие запросу «человек с зонтом», что требует одновременного распознавания объекта и его атрибута с последующим установлением их взаимосвязи.
Особого внимания заслуживает способность Gemini 2.5 обрабатывать логические конструкции в запросах, такие как «все люди, которые не сидят», где система должна одновременно идентифицировать класс объектов и применить к нему отрицательный предикат, исключающий определенное подмножество.
Значительным технологическим прорывом является реализация идентификации визуальных элементов, соответствующих абстрактным понятиям, не имеющим четких морфологических признаков.
Система демонстрирует способность выделять области изображения, визуально соответствующие таким концептам как «беспорядок» или «повреждение», что предполагает наличие алгоритмов высокоуровневого семантического анализа визуальной информации.
Дополнительным преимуществом является интеграция модулей оптического распознавания текста, позволяющая Gemini идентифицировать объекты, требующие интерпретации текстовой информации в кадре.
Это позволяет модели выделять на изображении такие элементы, как «фисташковая пахлава» в витрине, что требует не только визуального распознавания кондитерского изделия, но и прочтения соответствующей текстовой метки.