Компания Cartesia выпустила новый генератор речи Sonic 3, который отличается минимальной задержкой в синтезе звука и способностью передавать естественные эмоции. Особенностью модели стало использование архитектуры State Space Models (SSM) вместо классических трансформеров.
Благодаря новому подходу Sonic 3 запоминает состояние диалога и не пересчитывает весь контекст для каждого предсказания, что обеспечивает мгновенную генерацию звука. Задержка составляет всего около 190 миллисекунд от текста до готового аудио, а средняя латентность самой модели — 90 миллисекунд, что превосходит многих конкурентов.
Узнать подробнее про клуб ShareAI
Важным преимуществом Sonic 3 является естественное звучание. Генератор передает эмоции, смех, дыхание и реакцию на собеседника. Модель поддерживает 42 языка, включая русский, и корректно произносит акронимы вроде NASA или UNESCO, чувствует настроение и ритм текста.
Sonic 3 может клонировать голоса, создавая уникальное звучание бренда или персонажа на основе всего нескольких секунд образца. Технология легко масштабируется, поддерживает потоковую генерацию и способна обрабатывать миллионы запросов одновременно без потери качества.
Сервис уже доступен всем пользователям, включая жителей России. При регистрации пользователи получают 30 000 бесплатных кредитов, чего достаточно для тестирования возможностей системы и применения в личных проектах. Минимальный платный тариф начинается от 5 долларов.
Использовать Sonic 3 достаточно просто. После регистрации на сайте CartesiaAi пользователь попадает в рабочий интерфейс, где можно ввести текст на любом из поддерживаемых языков. Управление эмоциями осуществляется через специальные команды на английском в начале абзаца и в квадратных скобках в тексте.
Система предлагает широкий выбор мужских и женских голосов с различными тембрами и манерой произношения. Пользователи могут настраивать скорость, громкость и эмоциональный оттенок звучания, добавляя радостные, грустные или удивленные интонации.
Для создания аудио необходимо нажать кнопку «Speak», а для сохранения результата — «Download». Интерфейс интуитивно понятен и позволяет быстро освоить все возможности генератора речи даже начинающим пользователям.
Выход Sonic 3 знаменует новый этап в развитии технологий синтеза речи, предлагая более естественное и эмоциональное звучание при минимальных задержках.

