Alibaba представила Qwen-Image-2512 — обновление базовой модели генерации изображений. Модель доступна в Qwen Chat. По сравнению с августовской версией появились три ключевых улучшения.
Первое — реалистичность людей. Qwen-Image-2512 значительно снизила AI-эффект на изображениях. Особенно заметно на человеческих лицах. Предыдущая версия создавала синтетический вид. Новая модель генерирует естественные черты.
Узнать подробнее про клуб ShareAI
Второе — детализация природных элементов. Система точнее рендерит пейзажи, шерсть животных и другие натуральные объекты. Каждый волос, травинка или капля воды получают отдельную обработку.
Третье — улучшенный рендеринг текста. Модель повысила точность и качество текстовых элементов. Лучше работает композиция текста и изображения.
Компания провела более 10 000 раундов слепых оценок на AI Arena. Результаты показывают, что Qwen-Image-2512 стала сильнейшей открытой моделью. Она конкурирует даже с закрытыми системами.
Сравнение версий показывает драматический прогресс. На примере пожилой китайской пары разница очевидна. Августовская модель не могла точно передать возрастные черты лица. Морщины выглядели искусственно. Декабрьская версия точно захватывает признаки возраста.
Детализация волос стала ключевым отличием. Старая версия сливала пряди в однородную массу. Новая рендерит каждую прядь отдельно. Результат выглядит естественно и реалистично.
Модель точнее следует семантическим инструкциям в промптах. Пример — запрос с подростком, наклонившим тело вперед. Qwen-Image-2512 точно воспроизводит позу. Предыдущая версия игнорировала эту деталь.
Улучшения распространяются за пределы людей. Пейзажи получили богатую градацию оттенков. Водопады, туман и растительность рендерятся с высокой точностью. Волны океана выглядят естественно с правильной пеной и брызгами.
Шерсть животных — отдельная демонстрация возможностей. На примере золотистого ретривера видна прорисовка каждого волоска. Подшерсток мягкий и плотный. Остевые волосы длинные с видимой слоистостью. Свет играет на кончиках естественно.
Текстуры дикой природы также улучшились. Пример — самец архара на скалистой местности. Грубая плотная шерсть серо-коричневого цвета покрывает мускулистое тело. Массивные спиральные рога выглядят материально.
Рендеринг текста был сильной стороной оригинальной модели. Qwen-Image-2512 поднимает планку еще выше. Точность написания, компоновка и интеграция текста с изображением работают лучше.
Выпуск показывает серьезность намерений Alibaba в генерации изображений. Компания конкурирует с Midjourney, DALL-E и Stable Diffusion. Открытость модели дает преимущество разработчикам.

