Яндекс представил технологию улучшенного голосового распознавания

Яндекс представил технологию улучшенного голосового распознавания

Исследователи Яндекса опубликовали научную статью, описывающую нейросетевую технологию для распознавания голосовых команд на фоне шума. Работа принята на международную конференцию Interspeech 2025, которая пройдет в Нидерландах. На этом мероприятии также будут представлены исследования Microsoft, Google DeepMind, Google AR и других технологических компаний.

Технология уже применяется в умных колонках и ТВ Станциях Яндекса с голосовым ассистентом Алиса. Основное преимущество разработки - способность распознавать команды при наличии посторонних шумов, включая музыку, звук льющейся воды, шум вечеринки или стройки. Пользователям не нужно выключать бытовые приборы или повышать голос для взаимодействия с устройством.

В основе решения лежит комбинация алгоритмов эхоподавления и шумоподавления с использованием нейросетевого attention-механизма.

Стандартные методы эхоподавления эффективны при распознавании голоса на фоне музыки, а алгоритмы шумоподавления уменьшают окружающие звуки, но искажают человеческую речь. Разработанная Яндексом нейросеть получает на вход одновременно два сигнала - с шумоподавлением и эхоподавлением, выбирая в каждый момент времени наиболее четкий из них.

Технология основана на алгоритме keyword spotter (KWS), адаптированном для работы в шумных условиях. Эффективность решения проверена на двух наборах данных: из лаборатории с контролируемыми условиями и от умных колонок в естественной обстановке.

Авторы сравнили свой алгоритм с существующими решениями по качеству шумоподавления, точности распознавания ключевых слов и потреблению вычислительных ресурсов. Яндекс планирует сделать эту технологию доступной для разработчиков со всего мира.

Ирина Задорожная
Ирина Задорожная

Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.