OpenAI представила генератор изображений в GPT-4o

OpenAI наконец интегрировала продвинутую генерацию и редактирование изображений непосредственно в модель GPT-4o. Теперь пользователи получили доступ к фотореалистичной генерации, точному воспроизведению текстов на изображениях и даже возможности создавать видео прямо в чате.

Преимущество в совместном распределении онлайн-изображений и текста, изучая не только то, как изображения связаны с языком, но и как они связаны друг с другом. В сочетании с агрессивным пост-обучением полученная модель обладает визуальной беглостью, способной генерировать изображения, которые последовательны и учитывают контекст.

Компания OpenAI давно считала, что генерация изображений должна быть основной возможностью их языковых моделей. Именно поэтому они встроили свой самый продвинутый генератор изображений в GPT-4o. Результат — генерация изображений, которая не только красива, но и функциональна.

В отличие от других современных генеративных моделей, которые могут создавать сюрреалистические, захватывающие сцены, но испытывают трудности с рабочими изображениями, используемыми для обмена и создания информации, GPT-4o отлично справляется с точным отображением текста, точным следованием инструкциям и использованием собственной базы знаний и контекста чата.

Новая функция позволяет трансформировать загруженные изображения или использовать их в качестве визуального вдохновения. Эти возможности облегчают создание именно того изображения, которое вы представляете, помогая более эффективно общаться с помощью визуальных элементов и превращая генерацию изображений в практический инструмент с точностью и мощью.

Ключевые улучшения включают:

Рендеринг текста: GPT-4o способен точно воспроизводить текст на изображениях, что превращает генерацию изображений в инструмент для визуальной коммуникации.
Многоэтапная генерация: Поскольку генерация изображений теперь является нативной для GPT-4o, вы можете улучшать изображения через естественную беседу, при этом сохраняя согласованность.
Следование инструкциям: В то время как другие системы испытывают трудности с 5-8 объектами, GPT-4o может обрабатывать до 10-20 различных объектов, обеспечивая лучший контроль.
Обучение в контексте: Модель способна учитывать весь контекст разговора при создании изображений.

Генерация изображений в GPT-4o становится доступной с сегодняшнего дня для пользователей Plus, Pro, Team и Free в качестве генератора изображений по умолчанию в ChatGPT. Доступ скоро появится для пользователей Enterprise и Edu. Функция также доступна для использования в Sora. Для тех, кто особенно ценит DALL·E, он по-прежнему доступен через специальный GPT DALL·E.