输入“/”快速插入内容

3D内容生成的综合调研

2024年8月3日修改
论文总结: 《A Comprehensive Survey on 3D Content Generation》
摘要
近年来,人工智能生成内容(AIGC)取得了显著进展,涵盖了文本、图像、视频、音频和3D等多种输入模式。其中,3D内容生成最接近现实世界的3D环境,蕴含了大量知识,既具有学术价值又有实际应用价值,同时也带来了技术挑战。本文旨在整合3D内容生成领域的发展,提出了一种新的分类方法,将现有方法分为三类:3D原生生成方法、基于2D先验的3D生成方法和混合3D生成方法。本文涵盖了约60篇主要技术论文,并讨论了当前3D内容生成技术的局限性,指出了未来工作的开放挑战和有前景的方向。此外,我们建立了一个项目网站,提供有关3D内容生成研究的资源。
引言
生成模型在自然语言处理(NLP)和图像生成领域取得了巨大成功,如ChatGPT和Midjourney,显著缩短了论文写作和图像设计的时间。在3D领域,随着3D数据量的增加和其他领域生成技术的成功,3D生成技术也取得了重要进展。
3D内容生成研究因其广泛的应用而吸引了越来越多的关注。典型应用包括游戏和娱乐设计、建筑设计和工业设计。传统的设计过程需要多视角概念设计、3D模型创建和3D模型细化,这一过程劳动强度大且耗时。3D内容生成技术将大大降低时间和劳动力成本。
3D内容生成方法分类
1.
3D原生生成方法
3D原生生成方法直接利用3D数据进行训练和生成。这些方法依赖于大量的3D数据集,并通过网络在这些数据上进行训练,以生成新的3D资产。这些方法可进一步分为三类:
对象生成:针对单一物体进行生成。例如,Text2Shape方法通过构建语言与3D物理属性之间的多对多关系,实现颜色和形状的生成控制。ShapeCraft方法逐步演化出更多的短语,构建了一个包含369K形状-文本对的数据集。
场景生成:针对整个场景进行生成。早期方法如GAUDI通过生成对抗网络(GAN)生成3D场景,但GAN在处理3D场景时面临模式崩溃等训练问题。NeuralField-LDM方法通过分层扩散模型表达图像和姿势对,实现场景生成。
人类头像生成:主要生成逼真的3D人体和头像。早期方法如3D形态模型(3DMM)和SMPL模型通过参数化模型生成3D人体。最近的方法如PIFu和HeadNeRF通过隐式函数生成高细节的3D人体。
2.
基于2D先验的3D生成方法
这些方法利用预训练的2D扩散模型,通过优化生成独特的3D表示。这种方法克服了3D数据稀缺的限制,利用2D图像-文本对的大规模数据集进行训练和生成。典型的方法包括:
DreamFusion:通过2D扩散模型指导生成高质量的3D对象,但面临分辨率和几何细节不足的问题。
Magic3D:采用粗细优化策略,分两个阶段进行优化,提高了速度和质量。Fantasia3D通过解耦几何和外观建模,进一步提升了生成质量。
3.
混合3D生成方法
混合方法结合了3D原生和基于2D先验的方法,利用丰富的2D视觉资源和目标3D监督进行生成。这种方法克服了单一方法的限制,提供了更高效和高质量的生成能力。典型的方法包括:
Zero123:通过多视图微调预训练的2D扩散模型,生成一致的新视图。
One-2-3-45:通过生成多个视图并连接重建模型,从单个图像生成3D网格,显著提高了3D生成的速度和质量。
主要技术与应用
4.
对象生成
对象生成方法通过条件输入进行训练,生成特定类别的3D对象。这些方法利用语言描述与3D物体特征之间的关系,实现生成控制。主要技术包括:
Text2Shape:通过构建语言与3D属性的多对多关系,实现颜色和形状的控制。
ShapeCraft:构建更大规模的形状-文本对数据集,支持递归生成,捕捉局部细节。
5.
场景生成
场景生成方法针对整个3D场景进行生成。这些方法利用预训练的2D模型生成部分场景,然后通过补全策略生成大规模场景。主要技术包括:
GAUDI:通过生成对抗网络生成3D场景,但面临训练问题。
SceneTex:通过深度图生成室内场景纹理,并利用多分辨率纹理场隐式编码外观。
6.
人类头像生成
人类头像生成方法利用参数化模型和深度学习技术生成高保真的3D人体和头像。这些方法通过学习3D扫描数据集或多视图图像生成逼真的3D模型。主要技术包括:
AvatarCLIP:结合视觉语言模型与隐式3D表示,实现零样本的文本驱动全身人类生成。
DreamHuman:通过多细粒度损失优化NeRF,实现可动画的3D人类生成。
未来方向
7.
挑战
当前AIGC-3D方法在生成质量、控制性和速度方面存在挑战:
质量:几何生成不够紧凑,难以建模合理的线条。纹理生成缺乏细节,难以消除光影影响,材料属性支持不足。
控制性:现有的文本/图像/草图到3D方法无法精确输出符合条件要求的3D资产,编辑能力不足。
速度:基于GS的前馈和SDS方法虽然速度快,但质量低于基于NeRF的优化方法。
8.
数据
收集包含数十亿3D对象、场景和人类的数据集是一大挑战。这可以通过开放世界3D游戏平台实现,用户可以自由创建和上传自定义3D模型。此外,提取多视图图像和视频中的丰富隐式3D知识也具有重要潜力。
9.
模型