Исследователи Яндекса опубликовали научную статью, описывающую нейросетевую технологию для распознавания голосовых команд на фоне шума. Работа принята на международную конференцию Interspeech 2025, которая пройдет в Нидерландах. На этом мероприятии также будут представлены исследования Microsoft, Google DeepMind, Google AR и других технологических компаний.
Технология уже применяется в умных колонках и ТВ Станциях Яндекса с голосовым ассистентом Алиса. Основное преимущество разработки — способность распознавать команды при наличии посторонних шумов, включая музыку, звук льющейся воды, шум вечеринки или стройки. Пользователям не нужно выключать бытовые приборы или повышать голос для взаимодействия с устройством.
В основе решения лежит комбинация алгоритмов эхоподавления и шумоподавления с использованием нейросетевого attention-механизма.
Стандартные методы эхоподавления эффективны при распознавании голоса на фоне музыки, а алгоритмы шумоподавления уменьшают окружающие звуки, но искажают человеческую речь. Разработанная Яндексом нейросеть получает на вход одновременно два сигнала — с шумоподавлением и эхоподавлением, выбирая в каждый момент времени наиболее четкий из них.
Технология основана на алгоритме keyword spotter (KWS), адаптированном для работы в шумных условиях. Эффективность решения проверена на двух наборах данных: из лаборатории с контролируемыми условиями и от умных колонок в естественной обстановке.
Авторы сравнили свой алгоритм с существующими решениями по качеству шумоподавления, точности распознавания ключевых слов и потреблению вычислительных ресурсов. Яндекс планирует сделать эту технологию доступной для разработчиков со всего мира.