Короче, случилось то, чего все ждали: OpenAI наконец-то открыла доступ к своей видеонейронке Sora. А также к её «младшей сестре» Sora Turbo – более компактной модели для быстрых генераций. Причём теперь можно не только потыкать демки, но и самим поиграться – правда, за деньги. Давайте разберём, что там внутри и почему это действительно большой шаг вперёд.
Что умеет эта штука?
В двух словах – генерирует видео буквально из всего: текста, картинок, других видео. Причём не какие-то там трёхсекундные обрывки, а полноценные ролики в Full HD (1080p). Сама генерация молниеносная – занимает от 20 секунд до максимум 2 минут, и – что реально круто – результат можно продлевать до 5 раз.
Самое интересное, что ребята из OpenAI хорошенько натренировали систему на новостных кадрах. В результате, когда просишь её сгенерить что-то в стиле телевизионной передачи, выходит прямо как настоящее. При этом нейронка особенно круто справляется с абстракциями, анимационными стилями и пейзажами – прямо видно, где её сильные стороны.
Вишенка на торте – это Storyboard, такой продвинутый режиссёрский инструмент. Представляете, можно буквально сказать системе: «На пятой секунде пусть чувак помашет рукой» – и она это сделает! А ещё можно склеивать до 10 разных сцен, каждая со своим промптом.
Но это только начало. Смотрите, какие там ещё есть крутые фишки:
— Remix – берёте готовое видео и радикально меняете его (например, превращаете мамонтов в роботов);
— ReCut – не просто обрезаете видео, а можете догенерировать для него совершенно новую концовку;
— Loop – делаете идеальные зацикленные гифки;
— Blend – микшируете несколько видео вместе;
— IMG-to-video с промпт-поддержкой GPT – реально умная штука, которая может продолжить любой кадр, превращая его в видео.
Тарифы и возможности
С доступом всё чётко разделено на два варианта. Первый – ChatGPT Plus за $20 в месяц:
— 50 генераций (1000 кредитов);
— Видео максимум до 720p;
— При этом для 480p можно делать ролики до 10 секунд, а для HD качества только до 5;
— Базовые функции;
— Но есть серьёзное ограничение – нельзя работать с фотками, где есть люди.
А вот Pro-версия за $200 – это уже полный фарш:
— 500 быстрых генераций (10000 кредитов);
— После этого лимита можно генерить бесконечно, просто в «медленной очереди»;
— Full HD 1080p без ограничений;
— Ролики до 20 секунд;
— 5 генераций можно запускать параллельно;
— Никаких водяных знаков на выходе;
— Полная свобода в работе с любыми фотками, включая портреты.
С кредитами история прозрачная — выдаются на месяц и потом сгорают. К примеру, 20-секундное видео в максимальном качестве съедает 1000 кредитов. А простенькое 5-секундное видео в 480p стоит всего 25 кредитов. Есть 2 типа очередей: быстрая и медленная.
Кстати, про подводные камни. Один из тестеров попробовал «оживить» старое семейное фото с родителями и братом – система наотрез отказалась это делать. Модерация сейчас просто зверская, хотя OpenAI обещает постепенно ослаблять хватку.
Как это всё работает на практике
Sora живёт на своём отдельном сайте sora.com, и если вы знакомы с midjourney.com, то будете как дома – тот же стиль галереи, где можно подсматривать чужие промпты.
Есть удобные папки для организации работ, куча инструментов для экспериментов со стилями. Доступ пока через VPN, и не везде работает – особенно тормозит Европа со своими регуляторными заморочками.
По многим параметрам она реально обходит конкурентов, но есть и косяки: объекты могут странно появляться и исчезать, люди двигаются как роботы, физика иногда просто отказывается работать. С текстом и сложными деталями пока беда, да и переходы между сценами бывают дёрганые.
Сам Сэм Альтман сравнивает текущую версию Sora с GPT-1. То есть не ждите, что сразу сможете сгенерить нового «Гарри Поттера», но как инструмент для тестирования идей – это уже очень серьёзно. И да, есть момент, который настораживает: в Pro-версии нет водяных знаков, а значит, скоро в соцсетях станет практически невозможно отличить реальное видео от сгенерированного.
Что в итоге
Sora – это действительно большой шаг вперёд в генерации видео. И хотя она пока не заменит человека в создании полноценных фильмов (да и сами разработчики подчёркивают, что это не цель), для быстрого прототипирования идей и создания коротких роликов – это уже полноценный рабочий инструмент.
Да, там есть баги и ограничения, модерация иногда слишком строгая, а движения не всегда естественные. Но давайте будем честными – 3-4 года назад мы и мечтать не могли о таком качестве генерации видео. А теперь у нас есть инструмент, который за пару минут может создать реалистичное видео практически любого стиля и содержания.