Google объединит возможности Gemini и Veo в единую систему

Гендиректор Google DeepMind Демис Хассабис заявил о планах компании объединить языковые модели Gemini с системой генерации видео Veo.  «Мы изначально создавали Gemini как мультимодальную модель. За этим стоит наше видение универсального цифрового ассистента, который сможет реально помогать людям в физическом мире», – подчеркнул Хассабис.

Особый интерес представляет источник данных для обучения этих систем. Хассабис сообщил, что видеоданные для обучения Veo 2 преимущественно поступают с платформы YouTube, принадлежащей Google. «Просматривая огромное количество роликов с YouTube, Veo 2 может понять физику окружающего мира», – пояснил глава DeepMind.

Индустрия искусственного интеллекта постепенно движется к созданию «омни-моделей» – систем, способных понимать и создавать различные типы контента. Уже сейчас новейшие версии Gemini умеют генерировать не только текст, но и аудио с изображениями. OpenAI интегрировала в ChatGPT возможность создания изображений, включая арт в стиле Studio Ghibli. Amazon также анонсировала запуск собственной универсальной модели «any-to-any» до конца текущего года.

В контексте этих заявлений особую значимость приобретает недавнее расширение пользовательского соглашения Google. По данным TechCrunch, компания изменила свои условия обслуживания в прошлом году, чтобы получить более широкий доступ к данным для обучения ИИ-моделей. Представители Google подтвердили, что их модели «могут» обучаться на «некотором» контенте с YouTube в соответствии с соглашениями с создателями контента.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.