Salesforce выпускает полностью открытую мультимодальную систему

Исследовательское подразделение Salesforce AI Research представило BLIP3-o — полностью открытую унифицированную архитектуру, способную к симультанному пониманию и генерации визуального контента.

Инженерная архитектура BLIP3-o базируется на гибридном подходе, интегрирующем авторегрессионную модель для генерации промежуточных семантических признаков с диффузионным трансформером для преобразования абстрактных представлений в визуальные артефакты.

Методологический анализ демонстрирует превосходство flow matching над среднеквадратичной ошибкой в задачах генеративного моделирования, обеспечивая повышенное разнообразие и визуальное качество синтезированного контента.

Оптимальная стратегия обучения предполагает поэтапную специализацию: первичное развитие навыков понимания изображений с последующим замораживанием параметров и переключением на генеративные задачи.

Количественная оценка производительности позиционирует BLIP3-o 8B как лидирующее решение с показателями 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Качественное исследование с участием экспертов подтверждает превосходство BLIP3-o над коммерческой системой Janus Pro по критериям визуального качества и соответствия текстовым инструкциям.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.