Alibaba Cloud выпускает мультимодальную ИИ-модель Qwen2.5-Omni-7B

Alibaba Cloud представила Qwen2.5-Omni-7B – унифицированную мультимодальную модель полного цикла в серии Qwen. Эта уникальная разработка создана для комплексного мультимодального восприятия и способна обрабатывать разнообразные входные данные, включая текст, изображения, аудио и видео, одновременно генерируя текстовые и голосовые ответы в режиме реального времени.

Высокая производительность Qwen2.5-Omni-7B включает архитектуру Thinker-Talker, которая разделяет генерацию текста (Thinker) и синтез речи (Talker) для минимизации взаимных помех. А также TMRoPE (Time-aligned Multimodal RoPE) – технику внедрения позиционирования для лучшей синхронизации видеовходов с аудио и Block-wise Streaming Processing, который обеспечивает аудиоответы с низкой задержкой.

Несмотря на компактную архитектуру с 7 млрд параметров, Qwen2.5-Omni-7B обеспечивает хорошую производительность и мощные мультимодальные возможности. Эта уникальная комбинация делает её хорошей основой для разработки гибких, экономически эффективных ИИ-агентов, которые предоставляют ощутимую ценность, особенно в интеллектуальных голосовых приложениях.

Например, модель может быть использована для трансформации жизни людей с нарушениями зрения через аудиоописания окружающей среды в реальном времени, предложения пошаговых кулинарных инструкций путем анализа видеоингредиентов или для обеспечения работы интеллектуальных служб клиентской поддержки, которые действительно понимают потребности клиентов.

Модель уже стала доступна с открытым исходным кодом на платформах Hugging Face и GitHub, с дополнительным доступом через Qwen Chat и сообщество Alibaba Cloud с открытым исходным кодом ModelScope. За последние годы Alibaba Cloud открыла исходный код более 200 генеративных ИИ-моделей.

Qwen2.5-Omni-7B была предварительно обучена на обширном, разнообразном наборе данных, включая данные изображение-текст, видео-текст, видео-аудио, аудио-текст и текст, что обеспечивает надежную производительность во всех задачах.

Благодаря инновационной архитектуре и высококачественному предварительно обученному набору данных, модель отлично справляется с выполнением голосовых команд, достигая уровня производительности, сопоставимого с вводом чистого текста.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.