На конференции Google I/O компания представила Gemini Omni — новое семейство мультимодальных моделей. Главная идея: дать системе любой набор данных — текст, аудио, изображение или видеофрагмент — и получить на выходе полноценный ролик.
Это не монтаж и не склейка файлов. Omni анализирует все входные данные вместе и создаёт видео с пониманием физики, культуры и контекста. Пример от Кора Кавукчуоглу, главного технолога DeepMind: по запросу «пластилиновый объяснитель про сворачивание белков» модель за секунды отрендерила stop-motion ролик с закадровым голосом про аминокислоты и альфа-спирали.
Первая модель в семействе — Gemini Omni Flash — уже доступна в приложении Gemini, YouTube Shorts и студии Flow. Ролики пока ограничены десятью секундами — не из технических соображений, а потому что большинству пользователей пока этого хватает, объяснила Николь Бриктова, директор по продукту в Google DeepMind.
Отдельная функция — цифровые аватары. Пользователь записывает себя, произносит последовательность цифр для верификации, система создаёт его персонального аватара для будущих роликов. Google позиционирует это как «персонализированные мемы»: можно снять, как ты получаешь Оскар или летишь на Луну.
Все видео автоматически маркируются через SynthID — цифровой водяной знак, подтверждающий генерацию через Gemini. Мера против дипфейков.
У Google уже есть модель Veo для генерации видео из текста и изображений. Omni — не её обновление, а другое направление: объединение языкового интеллекта Gemini с рендерингом медиамоделей. Сандар Пичаи, CEO Google, назвал это «переходом от предсказания текста к симуляции реальности».
API появится в ближайшие недели. Профессиональная версия Omni Pro выйдет позже — когда именно, компания не сообщает.