Яндекс представил технологию улучшенного голосового распознавания

Исследователи Яндекса опубликовали научную статью, описывающую нейросетевую технологию для распознавания голосовых команд на фоне шума. Работа принята на международную конференцию Interspeech 2025, которая пройдет в Нидерландах. На этом мероприятии также будут представлены исследования Microsoft, Google DeepMind, Google AR и других технологических компаний.

Технология уже применяется в умных колонках и ТВ Станциях Яндекса с голосовым ассистентом Алиса. Основное преимущество разработки — способность распознавать команды при наличии посторонних шумов, включая музыку, звук льющейся воды, шум вечеринки или стройки. Пользователям не нужно выключать бытовые приборы или повышать голос для взаимодействия с устройством.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

В основе решения лежит комбинация алгоритмов эхоподавления и шумоподавления с использованием нейросетевого attention-механизма.

Стандартные методы эхоподавления эффективны при распознавании голоса на фоне музыки, а алгоритмы шумоподавления уменьшают окружающие звуки, но искажают человеческую речь. Разработанная Яндексом нейросеть получает на вход одновременно два сигнала — с шумоподавлением и эхоподавлением, выбирая в каждый момент времени наиболее четкий из них.

Технология основана на алгоритме keyword spotter (KWS), адаптированном для работы в шумных условиях. Эффективность решения проверена на двух наборах данных: из лаборатории с контролируемыми условиями и от умных колонок в естественной обстановке.

Авторы сравнили свой алгоритм с существующими решениями по качеству шумоподавления, точности распознавания ключевых слов и потреблению вычислительных ресурсов. Яндекс планирует сделать эту технологию доступной для разработчиков со всего мира.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Яндекс представил технологию улучшенного голосового распознавания