Мультимодальная модель Qwen3-VL получила открытый исходный код

Компания Alibaba объявила о важном шаге в своей стратегии открытых технологий. Китайский технологический гигант опубликовал в свободном доступе исходный код Qwen3-VL - мультимодальной модели, объединяющей возможности работы с текстом и визуальным контентом.

В отличие от обычных языковых моделей, которые работают преимущественно с текстом, Qwen3-VL способна анализировать изображения и видео, а также взаимодействовать с пользовательскими интерфейсами. Это значительно расширяет спектр практического применения технологии в бизнес-задачах.

Среди основных возможностей модели - точный анализ событий в видеороликах продолжительностью до двух часов и расширенная поддержка оптического распознавания символов (OCR). Число поддерживаемых языков увеличилось с 19 до 32, включая редкие алфавиты и сложный наклонный текст.

Технически значимым достижением стала работа с контекстом длиной 256 тысяч токенов, с возможностью расширения до миллиона. Это позволяет модели обрабатывать большие документы, наборы изображений или полнометражные фильмы без потери качества анализа.

Разработчики отмечают широкий спектр применения Qwen3-VL. В бизнесе модель может использоваться для автоматизации офисных задач, создания диаграмм в Draw.io или управления графическими интерфейсами. В медицине возможно применение для анализа снимков и выявления рисков заболеваний. Для промышленности открываются перспективы мониторинга объектов в реальном времени.