Мультимодальная модель Qwen3-VL получила открытый исходный код

Компания Alibaba объявила о важном шаге в своей стратегии открытых технологий. Китайский технологический гигант опубликовал в свободном доступе исходный код Qwen3-VL — мультимодальной модели, объединяющей возможности работы с текстом и визуальным контентом.

В отличие от обычных языковых моделей, которые работают преимущественно с текстом, Qwen3-VL способна анализировать изображения и видео, а также взаимодействовать с пользовательскими интерфейсами. Это значительно расширяет спектр практического применения технологии в бизнес-задачах.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Среди основных возможностей модели — точный анализ событий в видеороликах продолжительностью до двух часов и расширенная поддержка оптического распознавания символов (OCR). Число поддерживаемых языков увеличилось с 19 до 32, включая редкие алфавиты и сложный наклонный текст.

Технически значимым достижением стала работа с контекстом длиной 256 тысяч токенов, с возможностью расширения до миллиона. Это позволяет модели обрабатывать большие документы, наборы изображений или полнометражные фильмы без потери качества анализа.

Разработчики отмечают широкий спектр применения Qwen3-VL. В бизнесе модель может использоваться для автоматизации офисных задач, создания диаграмм в Draw.io или управления графическими интерфейсами. В медицине возможно применение для анализа снимков и выявления рисков заболеваний. Для промышленности открываются перспективы мониторинга объектов в реальном времени.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.