Alibaba представила Qwen3.5-Omni — модель, которая одновременно понимает текст, изображения, аудио и видео, а в ответ может выдавать не только текст, но и синтезированную речь.
Модель обучена на более чем 100 миллионах часов аудиовизуальных данных. Внутри неё два модуля: «Thinker» генерирует текстовый ответ, а «Talker» превращает его в речь с учётом контекста. Вся система изначально рассчитана на работу в реальном времени.
Максимальная длина контекста — 256 000 токенов. Это позволяет загрузить до 10 часов аудио или 400 секунд видео за один раз. Распознавание речи поддерживает 74 языка, включая русский, синтез речи — 29 языков.
Отдельная фишка — режим «Audio-Visual Vibe Coding»: пользователь показывает рукописную схему и голосом объясняет, что нужно сделать, а модель пишет под это код. Именно этот сценарий Tongyi Lab использует как центральное демо модели.
В бенчмарках по работе с аудио и видео Qwen3.5-Omni Plus по ряду тестов превосходит Gemini 3.1 Pro — флагман Google. Прямого сравнения с GPT-4o пока нет.
Модель вышла в трёх версиях: Plus, Flash и Light — для разных задач и бюджетов. Доступна через Alibaba Cloud API, в том числе стриминговый для голосовых приложений.
Qwen последовательно закрывает разрыв с западными лабораториями в сегменте мультимодальных моделей. Впервые китайская мультимодальная модель официально заявляет о превосходстве над актуальным флагманом Google.