在几分钟内生成四维内容也可以控制运动效果:北京大学和密歇根提出DG4D-人工智能

首页 2024-07-09 10:25:19

AIxiv专栏是本网站发布学术技术内容的专栏。在过去的几年里,AIxiv专栏收到了2000多篇报道,覆盖了世界各大高校和企业的顶级实验室,有效地促进了学术交流和传播。如果您有优秀的工作要分享,请提交或联系报告。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

作者潘亮博士目前是上海人工智能实验室的research scientist。从2020年到2023年,他在新加坡南洋理工大学s-lab担任research fellow,导师是刘子纬教授。他的研究重点是计算机视觉、3d点云和虚拟人类,并在顶级会议和期刊上发表了2700多篇论文。此外,他还多次担任计算机视觉和机器学习等领域顶级会议和期刊的审稿人。

最近,商汤科技 - 南洋理工大学联合 AI 研究中心 S-Lab ,北京大学和密歇根大学联合提出上海人工智能实验室 DreamgausianD(DG4D),显式建模和静态建模通过结合空间变化进行 3D Gaussian Splatting(GS)该技术实现了高效的四维内容生成。

最近,四维内容的生成取得了显著进展,但现有的方法存在优化时间长、运动控制能力差、细节质量低等问题。DG4D 提出了一个整体框架,包括两个主要模块:1)图像到 4D GS - 我们先用 DreamGaussianHD 生成静态 3D GS,接着基于 HexPlane 基于高斯形变的动态生成;2)视频到视频纹理的细化 - 我们细化生成的 UV 空间纹理映射,并通过使用预训练图像到视频扩散模型来增强其时间一致性。

值得注意的是,DG4D 将四维内容生成的优化时间从几个小时缩短到几分钟(如图所示 1 所示)允许在视觉上控制生成的三维运动,并支持生成能够在三维引擎中真实渲染的动画网格模型。

  • 论文名称: DreamgausianD: Generative 4D Gaussian Splatting

  • 主页地址: https://jiawei-ren.github.io/projects/dreamgausiand/?

  • 论文地址: https://arxiv.org/abs/2312.17142 ?

  • Demo 地址: https://huggingface.co/spaces/jiawei011/dreamgausiand

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图 1. DG4D 四维内容优化基本收敛可在四分半内实现

问题和挑战

生成模型可以极大地简化多样化数字内容的生产和制作(如二维图像、视频和三维景物),近年来取得了显著进展。四维内容是游戏、影视等许多下游任务的重要内容形式。传统的图形渲染引擎软件也应支持四维生成内容的引入(例如,Blender 或者 Unreal Engine),访问现有图形内容生产管道(见图) 2)。

虽然一些研究致力于动态三维(即四维)生成,但四维景物的高效和高质量生成仍存在挑战。近年来,越来越多的研究方法通过结合视频和三维生成模型来限制内容外观和动作在任何角度的一致性,从而实现四维内容的生成。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图 2. DG4D 支持将生成的四维内容引入传统计算机图形渲染引擎

目前主流的四维内容生成方法是基于四维动态神经辐射场(4D NeRF)表示。例如,MAV3D [1] 通过在 HexPlane [2] 将文本提炼成视频的扩散模型,实现文本到四维内容的生成。consistent4D [3] 为了优化级联,将视频引入四维框架 DyNeRF,四维景物是从静态捕获的视频中生成的。Animate124通过多重扩散模型的先验 [4] 单个未处理的二维图像动画可以通过文本运动描述转化为三维动态视频。基于混合 SDS [5] 技术,4D-fy [6] 采用多种预训练扩散模型,从文本到四维内容,可以实现引人入胜的生成。

然而,上述所有现有方法 [1,3,4,6] 生成单个 4D NeRF 这大大限制了它们的应用潜力,需要几个小时。此外,它们很难有效地控制或选择最终生成的运动。上述缺点主要来自以下因素:首先,上述方法的底层隐藏四维表示效率不够高,渲染速度慢,运动规律性差;其次,视频 SDS 随机性增加了收敛难度,并在最终结果中引入了不稳定性和各种缺陷伪影。

方法介绍

与直接优化 4D NeRF DG4的方法不同D 结合静态高斯飞溅技术和显式空间变换建模,为四维内容的生成构建了高效、强大的表征。此外,视频制作方法有潜力提供有价值的时空先验,提高高质量 4D 生成。具体来说,我们提出了一个整体框架,包括两个主要阶段:1)图像到 4D GS 基于视频大模型的纹理图细化。

1. 图像到 4D GS 的生成

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 图 3 图片到 4D GS 生成框架图

在这个阶段,我们使用静态 3D GS 以及空间变形来表示动态的四维景物。基于给定的二维图片,我们使用增强方法 DreamGaussianHD 该方法产生静态 3D GS。然后,通过静态 3D GS 根据函数优化时间所依赖的变形场,估计每个时间戳处的高斯变形,旨在使变形后的每个帧的形状和纹理尽可能与驱动视频中的相应帧一致。在这一阶段结束时,将生成一个动态的三维网格模型序列。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图 4 DreamGaussianHD 初始化基于 3D GS 三维物体模型

  • DreamGaussianHD 基于最近的使用 3D GS 图生三维物体法 DreamGaussian [7],我们做了一些进一步的改进,整理出一套效果更好的 3D GS 生成和初始化的方法。主要改进的操作包括 1)采用多视角优化方法;2)在优化过程中设置渲染图像背景,更适合生成黑色背景。我们称之为改进后的版本 DreamGaussianHD,具体的改进效果图可见图 4。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图 5 HexPlane 动态变场的表征

  • Gaussian Deformation 基于生成的静态 3D GS 模型,我们通过预测每帧中高斯核的变形来生成符合预期视频的动态 4D GS 模型。我们选择动态效果的表征 HexPlane(如图 5 为了预测每个时间戳下高斯核位移、旋转和比例尺度,从而驱动生成每个帧的动态模型。此外,我们还对设计网络进行了有针对性的调整,特别是对最后几个线性操作的网络层进行了残余连接和零初始化设计,以便在静态基础上平滑、充分 3D GS 模型初始化动态场(如图所示) 6 所示)。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图 6 零初始化动态变场对最终生成效果的影响

2. 从视频到视频的纹理优化

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图 7 视频到视频纹理优化框架图

类似于 DreamGaussian,基于第一阶段 4D GS 四维动态模型生成后,可提取四维网格模型序列。而且,我们也可以相似 DreamGaussian 做法,在网格模型中 UV 进一步优化空间中的纹理。不同于 DreamGaussian 利用图片生成模型优化单个三维网格模型的纹理,需要优化整个三维网格序列。

而且,我们发现,如果使用它,我们会发现 DreamGaussian 实践,即对每个三维网格序列进行独立的纹理优化,会导致不同时间戳下三维网格纹理的不一致生成,并经常出现闪烁等缺陷伪影效果。有鉴于此,我们有所不同 DreamGaussian,提出了基于视频生成大模型视频到视频的建议 UV 纹理优化方法在空间下。具体来说,我们在优化过程中随机生成了一系列相机轨迹,并在此基础上渲染了多个视频,并对渲染的视频进行了相应的加噪和去噪处理,从而增强了生成网格模型序列的纹理。

图中显示了基于图片生成的大模型和基于视频生成的大模型的纹理优化效果 8 中。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 图 8 基于视频到视频的纹理优化可以实现时间序列纹理的稳定性和一致性

实验结果

与以往的整体优化相比 4D NeRF DG4的方法D 显著减少了生成四维内容所需的时间。具体时间比较可见表 1。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?表 1 用时比较四维内容生成方法

对于基于单图生成的四维内容的设置,我们遵循以前方法的比较方法,在表中报告生成的四维内容与给定图片的一致性 2 中。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 表 2 基于单图生成的四维内容与图片的一致性对比

对于基于视频生成四维内容的设置,视频生成四维内容方法的数值结果比较可见表 3。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?表 3 对比视频生成的四维内容相关方法的数值结果

此外,我们还对最符合我们方法的单图生成四维内容的各种方法的生成结果进行了用户取样测试,测试结果报告在表中 4 中。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 表 4 用户测试基于单图生成的四维内容

DG4D 与现存开源 SoTA 图生成四维内容方法和视频生成四维内容方法的效果对比图分别显示在图中 9 和图 10 中。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图 9 图生四维内容效果对比图

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 图 10 视频生四维内容效果对比图

此外,我们还基于最近的直接前馈生成单图 3D GS 方法(即非使用) SDS 优化方法),生成静态三维内容,并在此基础上初始化动态 4D GS 的生成。生成直接前馈 3D GS,可以比基于 SDS 优化方法,更快地获得更高质量、更多样化的三维内容。基于此获得的四维内容,在图中显示 11 中。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图 11 基于前馈生成 3D GS 该方法生成的四维动态内容

图中显示了更多基于单图生成的四维内容 12 中。

结语

基于 4D GS,我们提出了 DreamGausian4D(DG4D),这是一个高效的图像 4D 生成框架。与现有的四维内容生成框架相比,DG4D 显然,优化时间从几个小时缩短到几分钟。此外,我们还展示了驱动运动生成的视频,实现了视觉可控的三维运动生成。

最后,DG4D 允许提取三维网格模型,并支持实现连贯的高质量纹理优化。我们希望 DG4D 提出的四维内容生成框架将促进四维内容生成方向的研究,并有助于实际应用的多样化。

References

[1] Singer et al. "Text-to-4D dynamic scene generation." Proceedings of the 40th International Conference on Machine Learning. 2023.?

[2] Cao et al. "Hexplane: A fast representation for dynamic scenes." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.?

[3] Jiang et al. Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video." The Twelfth International Conference on Learning Representations. 2023.

[4] Zhao et al. Animate124: Animating one image to 4d dynamic scene." arXiv preprint arXiv:2311.14603 (2023).?

[5] Poole et al. "DreamFusion: Text-to-3D using 2D Diffusion." The Eleventh International Conference on Learning Representations. 2022.

[6] Bahmani, Sherwin, et al. "4d-fy: Text-to-4d generation using hybrid score distillation sampling." arXiv preprint arXiv:2311.17984 (2023).

[7] Tang et al. "DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation." The Twelfth International Conference on Learning Representations. 2023.

以上是在几分钟内生成四维内容,也可以控制运动效果:北京大学、密歇根提出了DG4D的详细内容,请关注其他相关文章!


p