Google объединит возможности Gemini и Veo в единую систему

Гендиректор Google DeepMind Демис Хассабис заявил о планах компании объединить языковые модели Gemini с системой генерации видео Veo. “Мы изначально создавали Gemini как мультимодальную модель. За этим стоит наше видение универсального цифрового ассистента, который сможет реально помогать людям в физическом мире”, – подчеркнул Хассабис.

Особый интерес представляет источник данных для обучения этих систем. Хассабис сообщил, что видеоданные для обучения Veo 2 преимущественно поступают с платформы YouTube, принадлежащей Google. “Просматривая огромное количество роликов с YouTube, Veo 2 может понять физику окружающего мира”, – пояснил глава DeepMind.

Индустрия искусственного интеллекта постепенно движется к созданию “омни-моделей” – систем, способных понимать и создавать различные типы контента. Уже сейчас новейшие версии Gemini умеют генерировать не только текст, но и аудио с изображениями. OpenAI интегрировала в ChatGPT возможность создания изображений, включая арт в стиле Studio Ghibli. Amazon также анонсировала запуск собственной универсальной модели “any-to-any” до конца текущего года.

В контексте этих заявлений особую значимость приобретает недавнее расширение пользовательского соглашения Google. По данным TechCrunch, компания изменила свои условия обслуживания в прошлом году, чтобы получить более широкий доступ к данным для обучения ИИ-моделей. Представители Google подтвердили, что их модели “могут” обучаться на “некотором” контенте с YouTube в соответствии с соглашениями с создателями контента.