Компания Google объявила о выпуске значительных обновлений для платформ Android и Chrome, направленных на повышение доступности продуктов с использованием ИИ-технологий.
Ключевым нововведением стало расширение функциональности TalkBack — встроенного в Android экранного диктора, который теперь позволяет пользователям взаимодействовать с Gemini для получения информации об изображениях и элементах экрана. Этот инструмент особенно полезен для людей с нарушениями зрения или полностью лишенных возможности видеть.
В прошлом году Google уже интегрировала возможности Gemini в TalkBack, предоставив доступ к ИИ-генерируемым описаниям изображений даже при отсутствии альтернативного текста. Теперь пользователи получили возможность задавать вопросы и получать ответы об отображаемом контенте.
Практическое применение функции иллюстрируется следующим примером: если друг отправит фотографию своей новой гитары, пользователь сможет не только получить общее описание инструмента, но и задать уточняющие вопросы о бренде или цвете. Кроме того, теперь доступна возможность анализа всего экрана смартфона.
Например, во время совершения покупок через мобильное приложение можно запросить у Gemini информацию о материале интересующего товара или наличии скидок.
Параллельно с этим Google представила обновление для Expressive Captions — функции субтитров в реальном времени, которая использует ИИ для распознавания не только слов собеседника, но и особенностей их произношения.
Компания отмечает, что одним из способов самовыражения является растягивание звуков в словах, поэтому новая функция длительности в Expressive Captions теперь отображает это в текстовом формате. Пользователи смогут различать, когда спортивный комментатор восклицает «потрясааающий бросок» или когда собеседник говорит не просто «нет», а «нееет».
Также в субтитрах появятся новые обозначения для звуков, таких как свист или покашливание.