Project Icon

Free3D

基于单视图的一致性多视角图像合成技术

Free3D是牛津大学VGG实验室开发的新型计算机视觉技术,可从单一图像生成一致性的多视角合成图,无需显式3D表示。该技术采用射线条件归一化和伪3D注意力机制,在Objaverse等多个数据集上展现优异性能。Free3D为计算机视觉和图形学领域提供了新的研究方向,有望应用于3D重建、虚拟现实等多个领域。

Free3D

[arXiv] [项目] [引用]

效果展示

https://github.com/lyndonzheng/Free3D/assets/8929977/d4888ad6-1a1d-41ee-bc26-35b394a4dfd7

本仓库实现了Free3D的训练和测试工具,该项目由牛津大学VGG小组的郑传霞Andrea Vedaldi完成。给定单视图图像,提出的Free3D可以合成正确的新视角,无需显式的3D表示。

使用方法

安装

# 创建环境
conda create --name free3d python=3.9
conda activate free3d
# 安装pytorch
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
# 其他依赖
pip install -r requirements.txt

数据集

  • Objaverse: 用于Objaverse的训练/评估(7,729个测试实例),请从zero-1-to-3下载渲染数据集。他们提供的原始命令是:
    wget https://tri-ml-public.s3.amazonaws.com/datasets/views_release.tar.gz
    
    解压数据文件并在configs/objaverse.yaml中更改root_dir
  • OmniObject3D: 用于OmniObject3d的评估(5,275个实例),请参考OmniObject3D Github,并在configs/omniobject3d中更改root_dir。由于我们没有在此数据集上训练模型,我们直接在训练集上进行评估。
  • GSO: 用于Google Scanned Objects(GSO,1,030个实例)的评估,请下载完整的3D模型,并使用zero-1-to-3的渲染代码为每个场景生成25个视图。然后,将configs/googlescan.yaml中的root_dir更改为相应位置。我们的渲染文件可在Google Drive上获取。

推理

  • 批量测试以获取定量结果
    python batch_test.py \
    --resume [模型目录路径] \
    --config [configs/*.yaml] \
    --save_path [保存目录路径] 
    
  • 单图测试以获取定性结果
    # 对于真实示例,请下载segment anything检查点
    wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth
    # 运行单图测试命令
    python test.py \
    --resume [模型目录路径] \
    --sam_path [sam检查点路径] \
    --img_path [图像路径] \
    --gen_type ['image'或'video'] \
    --save_path [保存目录路径]
    
  • 通用指标评估方法:
    cd evaluations
    python evaluation.py --gt_path [真实图像路径] --g_path [生成的NVS图像路径]
    

训练

  • 射线条件归一化(RCN)用于提高姿态准确性,使用以下命令进行训练:
    # 下载lambda labs发布的图像条件稳定扩散检查点
    # 此训练在4个a6000(48G)上大约需要9天
    wget https://cv.cs.columbia.edu/zero123/assets/sd-image-conditioned-v2.ckpt
    # 或下载zero-1-t-3发布的检查点
    # 此训练在4个60000(48G)上大约需要2天
    wget https://cv.cs.columbia.edu/zero123/assets/105000.ckpt
    # 更改train.sh中的finetune_from,然后运行命令
    sh train.sh
    
  • 伪3D注意力用于平滑一致性,使用相同的命令进行训练(在4个A6000上需要1天),但参数不同:
    # 修改configs/objaverse.yaml如下
    views: 4
    use_3d_transformer: True
    # 将train.sh中的finetune_from修改为你的第一阶段模型
    finetune_from [RCN训练模型]
    

预训练模型

  • 不带伪3D注意力的RCN模型可在huggingface上获取。

相关工作

引用

如果您觉得我们的代码有帮助,请引用我们的论文:

@article{zheng2023free3D,
      author    = {Zheng, Chuanxia and Vedaldi, Andrea},
      title     = {Free3D: Consistent Novel View Synthesis without 3D Representation},
      journal   = {arXiv},
      year      = {2023},

致谢

非常感谢VGG的Stanislaw SzymanowiczEdgar SucarLuke Melas-Kyriazi的深刻讨论,以及VGG的Ruining LiEldar InsafutdinovYash Bhalgat的有益反馈。我们还要感谢Zero-1-to-3Objaverse-XL的作者们的有益讨论。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号