Microsoft выпустила три новых AI-модели: голос, транскрипция и картинки под брендом MAI

Microsoft пополнила линейку собственных AI-моделей сразу тремя новинками: MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2. Все три доступны через Microsoft Foundry и MAI Playground — MAI Playground пока работает только для пользователей из США.

MAI-Transcribe-1 — модель распознавания речи. На отраслевом бенчмарке FLEURS она показала уровень ошибок в словах 3,9% — лучший результат среди конкурентов в топ-25 языков мира, включая японский. Цена — от $0,36 за час транскрипции.

MAI-Voice-1 генерирует речь: 60 секунд звука — за одну секунду работы. Модель умеет передавать интонации и эмоции, не теряя «голос» персонажа на длинных текстах. Из нескольких секунд записи можно создать кастомный голос. Стоит от $22 за миллион символов. Microsoft уже интегрировала её в Copilot Audio Expressions.

MAI-Image-2 вошла в топ-3 на лидерборде Arena.ai — платформы для сравнения генераторов изображений. Модель анонсировали ещё 19 марта, и с тех пор она уже улучшила качество картинок в Copilot. По заявлению компании, генерация идёт как минимум вдвое быстрее при том же качестве. Крупнейшее мировое рекламное агентство WPP уже использует MAI-Image-2 в промышленных масштабах.

Мустафа Сулейман, CEO Microsoft AI, лично продемонстрировал возможности модели в своём твиттере — макро-снимок клоунрыбки в пионах. Сатья Надела анонсировал весь пакет одним постом: «Мы привносим семейство MAI каждому разработчику в Foundry».

Модели позиционируются как более быстрые и дешёвые, чем у конкурентов. Это первая крупная волна собственных базовых моделей Microsoft — до этого компания в основном полагалась на OpenAI.