Alibaba выпустила Z-Image — открытую модель для генерации фотореалистичных изображений. Компания заявляет, что результаты сравнимы с уровнем Flux 2. Демоверсия доступна бесплатно на платформе HuggingFace.
Главная особенность Z-Image — компактный размер при высоком качестве. Модель содержит всего 6 миллиардов параметров. При этом она выдает результаты, сравнимые с крупными нейросетями. Для сравнения, Flux 2 использует 32 миллиарда параметров. Это более чем в пять раз больше.
Узнать подробнее про клуб ShareAI
Разработчики говорят о возможностях системы. Нейросеть воспроизводит достопримечательности и виды городов мира по текстовому запросу. Система понимает описания на разных языках и создает соответствующие изображения.
Также реализован рендеринг текста на английском и китайском языке. Модель обучали и другим языкам — русскому, немецкому, французскому и испанскому. Но на них Z-Image пока пишет с ошибками. Требуется дополнительное обучение для улучшения качества.
Модель доступна в нескольких вариантах. Бесплатную демоверсию можно попробовать на HuggingFace прямо в браузере. Код и веса версии Z-Image Turbo выложили на трех платформах — GitHub, HuggingFace и ModelScope.
Важное преимущество — низкие требования к оборудованию. Для работы Z-Image Turbo подойдут видеокарты на 16 ГБ видеопамяти. Это делает модель доступной для широкого круга пользователей. Многие современные игровые карты имеют такой объем памяти.
Компания планирует расширить линейку моделей. Позже Alibaba собирается опубликовать версию Z-Image Edit. Она будет предназначена для редактирования готовых изображений. Также готовится улучшенная версия Z-Image Base. Она будет более тяжелой, но даст лучшее качество результатов.
Выход Z-Image усиливает конкуренцию на рынке генеративных моделей для изображений. Китайские компании активно развивают собственные решения в области ИИ. Открытая лицензия позволяет разработчикам использовать модель в своих проектах без ограничений.
Компактный размер модели открывает новые возможности. Генерация изображений становится доступна на менее мощном оборудовании. Это может ускорить внедрение технологий ИИ в различных приложениях и сервисах.

