Новая разработка Сбера превосходит Gemini и Grok в редактировании графики

Сбер представил систему попиксельного редактирования изображений Malvina, интегрированную в GigaChat. Ключевая особенность разработки заключается в возможности манипулирования визуальным контентом посредством текстовых инструкций на любом языке, что обеспечивает максимальную доступность технологии для широкого круга пользователей.

Согласно технической документации и результатам независимых сравнительных тестов (SBS), представленных разработчиками, Malvina демонстрирует превосходство над аналогичными решениями от технологических гигантов — системами Gemini и Grok. Разработчики особо отмечают конкурентную позицию относительно Gemini, реализующей сходный функционал попиксельного редактирования.

В контексте сопоставления с ChatGPT-4o авторы проекта указывают на принципиальные различия в базовых технологических подходах, что делает прямое сравнение некорректным. Несмотря на признание высокого уровня достижений OpenAI, специалисты Сбера акцентируют внимание на отсутствии в ChatGPT-4o полноценного попиксельного редактирования, что существенно ограничивает возможности системы в определенных сценариях применения.

Технологическая архитектура Malvina реализована на основе комбинации двух ключевых компонентов: высокопроизводительной мультимодальной модели (VLM) и оптимизированной диффузионной модели, что обеспечивает исключительную функциональность инструмента.

Потенциал применения разработки охватывает широкий спектр задач, включая удаление объектов по текстовому описанию, восстановление и колоризацию архивных фотографий, модификацию внешности субъектов, манипуляции с элементами гардероба и аксессуарами, удаление фона для документальной фотографии, изменение цветовых характеристик объектов и материалов, виртуальную реставрацию техники и корректировку интерьеров.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.