Amazon выпускает ИИ-модель с рекордной точностью распознавания 96,8%

Компания Amazon представила свою ИИ-модель Nova Sonic, способную обрабатывать голосовые команды и генерировать естественную речь на уровне, сопоставимом с передовыми разработками OpenAI и Google. В релизе Amazon заявила, что Nova Sonic является «самой экономически эффективной» голосовой ИИ-моделью на рынке, примерно на 80% дешевле, чем GPT-4o от OpenAI.

Nova Sonic — это ответ Amazon на новейшие голосовые модели, такие как технология, лежащая в основе Voice Mode в ChatGPT. По сравнению с ними старые цифровые помощники вроде Alexa от Amazon и Siri от Apple выглядят неестественно скованными.

Новая технология уже доступна через Bedrock — платформу Amazon для разработки корпоративных ИИ-приложений, использующую двунаправленный потоковый API.

Как сообщил старший вице-президент и главный научный сотрудник Amazon по AGI Рохит Прасад, компоненты Nova Sonic уже работают в обновлённом цифровом голосовом помощнике Alexa+. В интервью TechCrunch Прасад отметил, что Nova Sonic опирается на опыт Amazon в создании «крупных оркестровых систем» — технического каркаса, составляющего основу Alexa.

По словам Прасада, по сравнению с конкурирующими голосовыми ИИ-моделями Nova Sonic преуспевает в маршрутизации запросов пользователей к различным API. Эта возможность помогает Nova Sonic «понимать», когда необходимо получить информацию из интернета в режиме реального времени, обработать проприетарный источник данных или выполнить действие во внешнем приложении, используя соответствующий инструмент.

В диалоге Nova Sonic говорит «в подходящий момент», учитывая паузы и прерывания собеседника. Система также генерирует текстовую расшифровку речи пользователя, которую разработчики могут использовать для различных приложений.

Nova Sonic менее подвержена ошибкам распознавания речи, чем другие голосовые ИИ-модели. По данным Amazon, в многоязычном тесте Multilingual LibriSpeech модель достигла показателя ошибок распознавания слов (WER) всего 4,2% в среднем для английского, французского, итальянского, немецкого и испанского языков.

В тесте на шумные взаимодействия с несколькими участниками (Augmented Multi Party Interaction) Nova Sonic оказалась на 46,7% точнее в плане WER, чем модель GPT-4o-transcribe от OpenAI. Amazon также утверждает, что Nova Sonic обладает лидирующей в отрасли скоростью, со средней воспринимаемой задержкой 1,09 секунды, что делает её быстрее модели GPT-4o, использующейся в Realtime API от OpenAI (1,18 секунды).