OpenAI выпустил аудио-модели, способные подражать любому голосу

OpenAI представила в своём API три новые аудио-модели, которые могут радикально изменить взаимодействие пользователей с ИИ-агентами. Первые две модели, gpt-4o-transcribe и gpt-4o-mini-transcribe, относятся к категории speech2text (распознавание речи в текст). По заявлению разработчиков, они не только превосходят предыдущую модель Whisper, но и устанавливают новый отраслевой стандарт (SOTA — State Of The Art).

Особенно впечатляющими обещают быть результаты работы с акцентами, в шумной среде и при быстрой речи — традиционно сложных сценариях для систем распознавания речи. Третья модель, gpt-4o-mini-tts, представляет собой решение для text2speech (преобразование текста в речь). Однако это не просто озвучивание текста — модель способна воспроизводить текст с той интонацией и тем голосом, которые задаст пользователь.

Основное различие между gpt-4o-transcribe и gpt-4o-mini-transcrib заключается в размере (и, соответственно, в цене использования). Более крупная модель gpt-4o-transcribe демонстрирует улучшенные показатели WER (Word Error Rate — коэффициент словесных ошибок) по сравнению с существующими моделями Whisper во множестве признанных тестов, что отражает значительный прогресс в технологии распознавания речи.

Эти улучшения, как поясняют в OpenAI, стали результатом целенаправленных инноваций в области обучения с подкреплением и обширного обучения на разнообразных, высококачественных аудиоданных.

Поэкспериментировать с этой технологией уже можно на сайте www.openai.fm.

В дополнение к этим моделям, OpenAI обновила свою библиотеку для создания агентов — Agents SDK, которая теперь также поддерживает аудио. Это открывает возможности для разработки различных «говорящих» приложений начиная с сегодняшнего дня.

В своём заявлении OpenAI отмечает: «За последние несколько месяцев мы инвестировали в развитие интеллекта, возможностей и полезности текстовых агентов — систем, которые самостоятельно выполняют задачи от имени пользователей — с выпусками Operator, Deep Research, Computer-Using Agents и Responses API со встроенными инструментами. Однако для того, чтобы агенты были действительно полезными, людям необходимо иметь возможность более глубокого, интуитивного взаимодействия с агентами, выходящего за рамки просто текста — используя естественный разговорный язык для эффективного общения».

Новые модели особенно хорошо подходят для таких случаев использования, как центры обработки клиентских звонков, расшифровка заметок совещаний и многие другие сценарии, где точная обработка речи играет критическую роль.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.