Project Icon

Era3D

基于高效行注意力的高分辨率多视图扩散模型

Era3D是一个高分辨率多视图扩散模型,采用高效行注意力机制生成3D内容。该模型可从单张图像创建多视角数字人像,包括色彩和法线图像。项目开源了实现代码、预训练权重,并提供在线演示。Era3D在保持输出质量的同时提高了计算效率,为3D内容创作和计算机视觉研究提供了实用工具。

Era3D:使用高效行级注意力的高分辨率多视图扩散

这是 Era3D:使用高效行级注意力的高分辨率多视图扩散 的官方实现。

项目页面 | Arxiv | 权重 |

https://github.com/pengHTYX/Era3D/assets/38601831/5f927a1d-c6a9-44ef-92d0-563c26a2ce75

预览图

从单张图像创建您的数字肖像

https://github.com/pengHTYX/Era3D/assets/38601831/e663005c-f8df-485e-9047-285c46b3d602

https://github.com/pengHTYX/Era3D/assets/38601831/1dbe75e6-f54a-4321-927d-3234d7568aab

安装

conda create -n Era3D python=3.9
conda activate Era3D

# torch
pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu118

# 安装 xformers,从 https://download.pytorch.org/whl/cu118 下载
pip install xformers-0.0.23.post1-cp39-cp39-manylinux2014_x86_64.whl 

# 用于重建
pip install git+https://github.com/NVlabs/tiny-cuda-nn/#subdirectory=bindings/torch
pip install git+https://github.com/NVlabs/nvdiffrast

# 其他依赖
pip install -r requirements.txt

权重

您可以直接从 huggingface 下载模型。您也可以在 Python 脚本中下载模型:

from huggingface_hub import snapshot_download
snapshot_download(repo_id="pengHTYX/MacLab-Era3D-512-6view", local_dir="./pengHTYX/MacLab-Era3D-512-6view/")

推理

  1. 我们通过运行 test_mvdiffusion_unclip.py 生成多视图颜色和法线图像。例如,
python test_mvdiffusion_unclip.py --config configs/test_unclip-512-6view.yaml \
    pretrained_model_name_or_path='pengHTYX/MacLab-Era3D-512-6view' \
    validation_dataset.crop_size=420 \
    validation_dataset.root_dir=examples \
    seed=600 \
    save_dir='mv_res'  \
    save_mode='rgb'

您可以调整 crop_size(400 或 420)和 seed(42 或 600)以获得某些情况下的最佳结果。

  1. 通常,我们使用 rembg 预测 alpha 通道。如果有瑕疵,请尝试使用 Clipdrop 移除背景。

  2. Instant-NSR 网格提取

cd instant-nsr-pl
bash run.sh $GPU $CASE $OUTPUT_DIR

例如,

bash run.sh 0 A_bulldog_with_a_black_pirate_hat_rgba  recon

带纹理的网格将保存在 $OUTPUT_DIR 中。

多视图生成的 Gradio 演示

  1. 继承前人的工作,我们使用预训练的 SAM 来交互式地移除背景。
mkdir sam_pt && cd sam_pt
wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth
cd ..
  1. 然后,运行本地 Gradio 演示。
python app.py

相关项目

我们从以下项目收集代码。我们感谢开源社区的贡献!
diffusers
Wonder3D
Syncdreamer
Instant-nsr-pl

许可证

本项目使用 AGPL-3.0 许可,因此任何包含我们代码或预训练模型的下游解决方案和产品都应开源以符合 AGPL 条件。如果您对 Era3D 的使用有任何疑问,请随时与我们联系。

引用

如果您发现这个代码库有用,请考虑引用我们的工作。

@article{li2024era3d,
  title={Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention},
  author={Li, Peng and Liu, Yuan and Long, Xiaoxiao and Zhang, Feihu and Lin, Cheng and Li, Mengfei and Qi, Xingqun and Zhang, Shanghang and Luo, Wenhan and Tan, Ping and others},
  journal={arXiv preprint arXiv:2405.11616},
  year={2024}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号