Ученые из Университета Цинхуа создали модель Droplet3D для генерации трехмерных объектов. Главное отличие системы - она учится на основе видео, а не статичных изображений.
Этот подход позволяет извлекать из видео пространственные связи и смысловые свойства объектов. Благодаря этому 3D-модели получаются более качественными и разнообразными.
Для обучения системы исследователи собрали большой набор данных Droplet3D-4M. В него вошли 4 млн 3D-объектов с подробными текстовыми описаниями. На этих данных также обучили дополнительную видео-модель DropletVideo.
Система может создавать по тексту или картинке последовательные многоракурсные изображения. Она работает как с отдельными предметами, так и с целыми сценами.