Компания Alibaba объявила о важном шаге в своей стратегии открытых технологий. Китайский технологический гигант опубликовал в свободном доступе исходный код Qwen3-VL — мультимодальной модели, объединяющей возможности работы с текстом и визуальным контентом.
В отличие от обычных языковых моделей, которые работают преимущественно с текстом, Qwen3-VL способна анализировать изображения и видео, а также взаимодействовать с пользовательскими интерфейсами. Это значительно расширяет спектр практического применения технологии в бизнес-задачах.
Узнать подробнее про клуб ShareAI
Среди основных возможностей модели — точный анализ событий в видеороликах продолжительностью до двух часов и расширенная поддержка оптического распознавания символов (OCR). Число поддерживаемых языков увеличилось с 19 до 32, включая редкие алфавиты и сложный наклонный текст.
Технически значимым достижением стала работа с контекстом длиной 256 тысяч токенов, с возможностью расширения до миллиона. Это позволяет модели обрабатывать большие документы, наборы изображений или полнометражные фильмы без потери качества анализа.
Разработчики отмечают широкий спектр применения Qwen3-VL. В бизнесе модель может использоваться для автоматизации офисных задач, создания диаграмм в Draw.io или управления графическими интерфейсами. В медицине возможно применение для анализа снимков и выявления рисков заболеваний. Для промышленности открываются перспективы мониторинга объектов в реальном времени.