RealmDreamer:基于文本的3D场景生成,融合了修复与深度扩散 [Arxiv 2024]
我们提出了RealmDreamer,这是一种从文本描述生成一般前向3D场景的技术。我们的技术优化了3D高斯喷溅表示,以匹配复杂的文本提示。我们通过利用最先进的文本到图像生成器来初始化这些飞溅,将它们的样本提升到3D,并计算遮挡体积。然后,我们在多个视图上优化这个表示,作为一个基于图像的扩散模型的3D修复任务。为了学习正确的几何结构,我们通过将样本从修复模型条件化来融入深度扩散模型,从而获得丰富的几何结构。最后,我们使用来自图像生成器的锐化样本对模型进行微调。值得注意的是,我们的技术不需要在任何特定场景的数据集上进行训练,就可以合成各种高质量的3D场景,包含多个对象,其广泛性还允许从单个图像进行3D合成。
代码发布
我们希望在6月左右发布代码。
引用
如果您觉得我们的工作很有趣,请考虑引用我们!
@article{shriram2024realmdreamer, title={RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion}, author={Jaidev Shriram and Alex Trevithick and Lingjie Liu and Ravi Ramamoorthi}, journal={arXiv}, year={2024} }