ИИ Google теперь понимает контекст изображений и отвечает на вопросы о них

Google добавил функцию мультимодального поиска в AI Mode — свой экспериментальный режим поиска, который позволяет пользователям задавать сложные многоуровневые вопросы и уточняющие запросы для более глубокого изучения темы. Теперь пользователи, имеющие доступ к AI Mode, могут использовать эту функцию для задания вопросов о фотографиях, которые они загрузили или сделали с помощью камеры.

Согласно информации от Google, AI Mode способен понимать всю сцену на изображении, включая взаимосвязи между объектами, их материалы, цвета, формы и расположение. Новые возможности анализа изображений в AI Mode работают на базе мультимодальных технологий Google Lens, сообщила компания.

Используя технику, названную «query fan-out» (распространение запроса), AI Mode задает множество вопросов как об изображении в целом, так и об объектах, показанных на нем, предоставляя более детальную информацию, чем традиционный поиск Google.

Например, вы можете сделать снимок своей книжной полки и ввести запрос: «Если мне понравились эти книги, какие похожие книги с высоким рейтингом вы можете порекомендовать?». AI Mode идентифицирует каждую книгу, а затем предоставит список рекомендованных книг со ссылками для получения дополнительной информации и/или их приобретения.

AI Mode также позволяет задавать уточняющие вопросы для сужения поиска, например: «Я ищу что-то для быстрого чтения. Какая из этих рекомендаций самая короткая?».

В рамках анонса, сделанного в понедельник, Google также сообщила, что делает AI Mode доступным для миллионов новых пользователей, зарегистрированных в Labs — платформе Google для экспериментальных функций и продуктов. До этого AI Mode был доступен только для подписчиков Google One AI Premium.

Запущенный в прошлом месяце, AI Mode нацелен на конкуренцию с популярными сервисами, такими как Perplexity и ChatGPT Search от OpenAI. Google заявила, что планирует продолжать совершенствовать пользовательский опыт и расширять функциональность этой функции.

Мультимодальный поиск представляет собой значительный шаг вперед в развитии поисковых технологий, позволяя искусственному интеллекту интерпретировать и анализировать визуальную информацию наряду с текстовой. Это открывает новые возможности для пользователей, которые могут получать более контекстно-зависимые и детализированные ответы на свои запросы, основанные на реальных объектах из окружающего мира.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

ИИ Google теперь понимает контекст изображений и отвечает на вопросы о них