OpenAI выпустила голосовые модели с рассуждением уровня GPT-5 — в реальном времени

OpenAI выпустила три новые голосовые модели: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Главная — GPT-Realtime-2 — по качеству рассуждений сопоставима с GPT-5, но работает прямо во время живого разговора.

До сих пор голосовые модели сильно уступали текстовым: они не умели сложно рассуждать, держать контекст и работать с инструментами одновременно. GPT-Realtime-2 меняет это. Контекстное окно выросло с 32 000 до 128 000 токенов, модель умеет вызывать несколько инструментов параллельно. Если что-то идёт не так, она не молчит — говорит «подождите секунду» или «у меня сейчас проблемы с этим».

OpenAI предложила три сценария применения. Voice-to-Action — пользователь говорит вслух что нужно, модель разбирается и делает. Systems-to-Voice — приложение превращает данные в голосовые подсказки, например сообщает маршрут до выхода при задержке рейса. Voice-to-Voice — живой перевод между людьми в разговоре. Deutsche Telekom уже тестирует последний сценарий в клиентской поддержке.

Разработчики могут регулировать глубину рассуждений на пяти уровнях — от «minimal» до «xhigh». По умолчанию стоит «low», чтобы не тормозить простые запросы. На бенчмарке Big Bench Audio модель набирает 96,6% на уровне «high» против 81,4% у предшественника. На Audio MultiChallenge, который проверяет следование инструкциям в многоходовых диалогах, — 48,5% против 34,7%.

GPT-Realtime-Translate обрабатывает более 70 входящих языков и выдаёт результат на 13. GPT-Realtime-Whisper — стриминговая транскрипция речи в реальном времени: подходит для совещаний, трансляций, медицины и продаж.

Цены: GPT-Realtime-2 стоит $32 за миллион токенов аудиовхода и $64 за выход (кэшированный вход — $0,40). GPT-Realtime-Translate — $0,034 в минуту, Whisper — $0,017 в минуту. Все три модели доступны через Realtime API уже сейчас.