Исследовательское подразделение Salesforce AI Research представило BLIP3-o — полностью открытую унифицированную архитектуру, способную к симультанному пониманию и генерации визуального контента.
Инженерная архитектура BLIP3-o базируется на гибридном подходе, интегрирующем авторегрессионную модель для генерации промежуточных семантических признаков с диффузионным трансформером для преобразования абстрактных представлений в визуальные артефакты.
Методологический анализ демонстрирует превосходство flow matching над среднеквадратичной ошибкой в задачах генеративного моделирования, обеспечивая повышенное разнообразие и визуальное качество синтезированного контента.
Оптимальная стратегия обучения предполагает поэтапную специализацию: первичное развитие навыков понимания изображений с последующим замораживанием параметров и переключением на генеративные задачи.
Количественная оценка производительности позиционирует BLIP3-o 8B как лидирующее решение с показателями 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Качественное исследование с участием экспертов подтверждает превосходство BLIP3-o над коммерческой системой Janus Pro по критериям визуального качества и соответствия текстовым инструкциям.