OpenAI наконец интегрировала продвинутую генерацию и редактирование изображений непосредственно в модель GPT-4o. Теперь пользователи получили доступ к фотореалистичной генерации, точному воспроизведению текстов на изображениях и даже возможности создавать видео прямо в чате.
Преимущество в совместном распределении онлайн-изображений и текста, изучая не только то, как изображения связаны с языком, но и как они связаны друг с другом. В сочетании с агрессивным пост-обучением полученная модель обладает визуальной беглостью, способной генерировать изображения, которые последовательны и учитывают контекст.
Компания OpenAI давно считала, что генерация изображений должна быть основной возможностью их языковых моделей. Именно поэтому они встроили свой самый продвинутый генератор изображений в GPT-4o. Результат — генерация изображений, которая не только красива, но и функциональна.
В отличие от других современных генеративных моделей, которые могут создавать сюрреалистические, захватывающие сцены, но испытывают трудности с рабочими изображениями, используемыми для обмена и создания информации, GPT-4o отлично справляется с точным отображением текста, точным следованием инструкциям и использованием собственной базы знаний и контекста чата.
Новая функция позволяет трансформировать загруженные изображения или использовать их в качестве визуального вдохновения. Эти возможности облегчают создание именно того изображения, которое вы представляете, помогая более эффективно общаться с помощью визуальных элементов и превращая генерацию изображений в практический инструмент с точностью и мощью.
Ключевые улучшения включают:
- Рендеринг текста: GPT-4o способен точно воспроизводить текст на изображениях, что превращает генерацию изображений в инструмент для визуальной коммуникации.
- Многоэтапная генерация: Поскольку генерация изображений теперь является нативной для GPT-4o, вы можете улучшать изображения через естественную беседу, при этом сохраняя согласованность.
- Следование инструкциям: В то время как другие системы испытывают трудности с 5-8 объектами, GPT-4o может обрабатывать до 10-20 различных объектов, обеспечивая лучший контроль.
- Обучение в контексте: Модель способна учитывать весь контекст разговора при создании изображений.
Генерация изображений в GPT-4o становится доступной с сегодняшнего дня для пользователей Plus, Pro, Team и Free в качестве генератора изображений по умолчанию в ChatGPT. Доступ скоро появится для пользователей Enterprise и Edu. Функция также доступна для использования в Sora. Для тех, кто особенно ценит DALL·E, он по-прежнему доступен через специальный GPT DALL·E.