ComfyUI-3D-Pack

ComfyUI-3D-Pack

ComfyUI的多功能3D资产生成节点套件

ComfyUI-3D-Pack为ComfyUI扩展了3D处理能力的节点套件。它集成了3DGS、NeRF等算法和InstantMesh、CRM、TripoSR等模型,实现单图到3D网格的生成、多视图重建和3D可视化。该套件还提供轨道相机姿态生成、3D渲染等工具,简化了3D资产的生成流程。

ComfyUI3D生成3D资产AI建模3D可视化Github开源项目

ComfyUI-3D包

使ComfyUI生成3D资产变得像生成图像/视频一样好用和方便! <br> 这是一个广泛的节点套件,使ComfyUI能够使用尖端算法(3DGS、NeRF等)和模型(InstantMesh、CRM、TripoSR等)处理3D输入(网格和UV纹理等)。

<span style="font-size:1.5em;"> <a href=#Features>功能</a> &mdash; <a href=#install>安装</a> &mdash; <a href=#roadmap>路线图</a> &mdash; <a href=#development>开发</a> &mdash; <a href=#tips>提示</a> &mdash; <a href=#supporters>支持者</a> </span>

安装:

可以直接从ComfyUI-Manager安装🚀

  • 预构建版本可用于:
    • Windows 10/11,Ubuntu 22.04
    • Python 3.10/3.11/3.12
    • CUDA 12.1/11.8
    • torch 2.3.0+cu121/cu118,torchvision 0.18.0+cu121/cu118
  • install.py将根据您的运行环境自动下载并安装预构建版本,如果找不到相应的预构建版本,则构建脚本将自动启动,如果自动构建对您不起作用,请查看半自动构建指南
  • 如果在任何开放的Comfy3D工作流程中缺少任何节点,只需在ComfyUI-Manager中点击安装缺失的自定义节点
  • 如果由于某些原因您的comfy3d无法自动下载预训练模型,您始终可以手动下载它们并将其放入Checkpoints目录下的正确文件夹中,但请不要覆盖任何现有的.json文件
  • Docker安装请查看DOCKER_INSTRUCTIONS.md
  • **注意:**目前,您仍需要安装Visual Studio Build Tools for Windows为Linux安装gcc g++,以使InstantNGP & Convert 3DGS to Mesh with NeRF and Marching_Cubes节点工作,因为这两个节点使用了在运行时构建的JIT torch cpp扩展,但我计划很快替换这些节点

功能:

  • 使用案例请查看示例工作流程。[最后更新:2024年8月1日]

  • StableFast3DStability-AI/stable-fast-3d

    <video controls autoplay loop src="https://github.com/user-attachments/assets/3ed3d1ed-4abe-4959-bd79-4431d19c9d47"></video>

  • CharacterGenzjp-shadow/CharacterGen

    <video controls autoplay loop src="https://github.com/user-attachments/assets/4f0ae0c0-2d29-49f0-a6f2-a636dd4b4dcc"></video>

  • Unique3DAiuniAI/Unique3D

    <video controls autoplay loop src="https://github.com/MrForExample/ComfyUI-3D-Pack/assets/62230687/45dd6bfc-4f2b-4b1f-baed-13a1b0722896"></video>

  • Era3D MVDiffusion模型pengHTYX/Era3D

    <video controls autoplay loop src="https://github.com/MrForExample/ComfyUI-3D-Pack/assets/62230687/fc210cac-6c7d-4a55-926c-adb5fb7b0c57"></video>

  • InstantMesh重建模型TencentARC/InstantMesh

    <video controls autoplay loop src="https://github.com/MrForExample/ComfyUI-3D-Pack/assets/62230687/a0648a44-f8cb-4f78-9704-a907f9174936"></video> <video controls autoplay loop src="https://github.com/MrForExample/ComfyUI-3D-Pack/assets/62230687/33aecedb-f595-4c12-90dd-89d5f718598e"></video>

  • Zero123++SUDO-AI-3D/zero123plus

    • 单张图像到6个视图图像,分辨率:320X320
  • 卷积重建模型: thu-ml/CRM

    • 三阶段流程:
      1. 单张图像转换为6个视角图像(前、后、左、右、上、下)
      2. 单张图像和6个视角图像转换为6个相同视角的CCM(规范坐标图)
      3. 6个视角图像和CCM生成3D网格
    • 注意: 对于低显存电脑,如果无法将三个阶段的所有模型都装入GPU内存,可以将这三个阶段分成不同的ComfyUI工作流程,分别运行
    • 模型权重: https://huggingface.co/sudo-ai/zero123plus-v1.2

    <video controls autoplay loop src="https://github.com/MrForExample/ComfyUI-3D-Pack/assets/62230687/cf68bb83-9244-44df-9db8-f80eb3fdc29e"></video>

  • TripoSR: VAST-AI-Research/TripoSR | ComfyUI-Flowty-TripoSR

    <video controls autoplay loop src="https://github.com/MrForExample/ComfyUI-3D-Pack/assets/62230687/ec4f8df5-5907-4bbf-ba19-c0565fe95a97"></video>

  • Wonder3D: xxlong0/Wonder3D

    Wonder3D_FatCat_MVs

  • 大规模多视角高斯模型: 3DTopia/LGM

    <video controls autoplay loop src="https://github.com/MrForExample/ComfyUI-3D-Pack/assets/62230687/e221d7f8-49ac-4ed4-809b-d4c790b6270e"></video>

  • 三平面高斯变换器: VAST-AI-Research/TriplaneGaussian

    <video controls autoplay loop src="https://github.com/MrForExample/ComfyUI-3D-Pack/assets/62230687/90e7f298-bdbd-4c15-9378-1ca46cbb4871"></video>

  • 预览3DGS和3D网格: ComfyUI内的3D可视化:

    <video controls autoplay loop src="https://github.com/MrForExample/ComfyUI-3D-Pack/assets/62230687/9f3c56b1-afb3-4bf1-8845-ab1025a87463"></video>

  • 堆叠轨道相机姿态: 自动生成全范围的相机姿态组合

    • 可用于调节StableZero123 (需要先下载检查点),在一次提示中覆盖全范围的相机姿态

    • 可用于生成轨道相机姿态,并直接输入到其他3D处理节点(如高斯溅射和网格纹理烘焙)

    • 使用示例:

      <img src="https://yellow-cdn.veclightyear.com/835a84d5/42ecb056-5eff-4ae5-abec-ce7551469859.png" width="256"/> <img src="https://yellow-cdn.veclightyear.com/835a84d5/9f0b6caa-c5fe-412a-b79d-431a4bf9b589.png" width="256"/> <br> <img src="https://yellow-cdn.veclightyear.com/835a84d5/99456c95-6eba-4bad-89f8-07141f28d387.gif" width="256"/> <img src="https://yellow-cdn.veclightyear.com/835a84d5/f083516d-c687-47d3-a096-713795fc6384.gif" width="256"/>

    • 坐标系统:

      • 方位角: 俯视图中,从0度角开始旋转360度,步长为-90度,得到(0, -90, -180/180, 90, 0),此时相机顺时针旋转,反之亦然。
      • 仰角: 当相机水平向前指时为0度,指向地面为负角度,反之亦然。
  • FlexiCubes: nv-tlabs/FlexiCubes

    • 多视角深度图和蒙版(可选法线贴图)作为输入
    • 导出为3D网格
    • 使用指南:
      • voxel_grids_resolution: 决定网格分辨率/质量
      • depth_min_distance depth_max_distance: 物体到相机的距离,渲染中比depth_min_distance更近(更远)的物体部分将被渲染为纯白(黑)RGB值1, 1, 1(0, 0, 0)
      • mask_loss_weight: 控制重建3D网格的轮廓
      • depth_loss_weight: 控制重建3D网格的形状,这个损失还会影响网格表面的变形细节,因此结果取决于深度图的质量
      • normal_loss_weight: 可选。用于细化网格表面的变形细节
      • sdf_regularizer_weight: 有助于去除应用目标未监督区域中的浮点,例如仅使用图像监督时的内部面
      • remove_floaters_weight: 如果在平坦区域观察到伪影,可以增加这个值
      • cube_stabilizer_weight: 这在单个形状的优化过程中没有显著影响,但在某些情况下有助于稳定训练

    <video controls autoplay loop src="https://github.com/MrForExample/ComfyUI-3D-Pack/assets/62230687/166bbc1f-04b7-42c8-87bb-302e3f5aabb2"></video>

  • Instant NGP: nerfacc

    • 多视角图像作为输入
    • 使用行进立方体算法导出为3D网格
  • 3D高斯溅射

    • 改进的微分高斯光栅化
    • 来自Gsgen的更好的基于紧凑性的密化方法
    • 支持从给定3D网格初始化高斯分布(可选)
    • 支持小批量优化
    • 多视角图像作为输入
    • 支持导出标准3DGS .ply格式
  • 高斯溅射轨道渲染器

    • 给定3DGS文件和由堆叠轨道相机姿态节点生成的相机姿态,将3DGS渲染为图像序列或视频
  • 网格轨道渲染器

    • 给定网格文件和由堆叠轨道相机姿态节点生成的相机姿态,将3D网格渲染为图像序列或视频
  • 多视角图像网格拟合

    • 使用Nvdiffrast将多视角图像烘焙到给定3D网格的UV纹理中,支持:
    • 导出为.obj, .ply, .glb格式
  • 保存和加载3D文件

    • .obj, .ply, .glb格式用于3D网格
    • .ply格式用于3DGS
  • 3DGS和3D网格的轴切换

    • 由于不同算法可能使用不同的坐标系统,因此重新映射坐标轴的能力对于在不同节点之间传递生成结果至关重要。
  • 可自定义系统配置文件

    • 自定义客户端IP地址
    • 添加你的Hugging Face用户令牌

路线图:

  • 集成CharacterGen

  • 改进3DGS/Nerf到网格的转换算法:

    • 寻找更好的方法将3DGS或点云转换为网格(可能通过法线贴图重建?)
  • 添加并改进一些最佳的MVS算法(如2DGS等)

  • 从原始多视图图像添加相机姿态估计

开发

如何贡献

  1. Fork项目
  2. 进行改进/添加新功能
  3. 创建一个Pull Request到dev分支

项目结构

  • nodes.py: <br>包含所有Comfy3D节点的接口代码(即在ComfyUI中实际可见和使用的节点),你可以在这里添加新节点

  • Gen_3D_Modules: <br>包含所有生成模型/系统代码的文件夹(如多视图扩散模型、3D重建模型)。新的3D生成模块应添加在这里

  • MVs_Algorithms: <br>包含所有多视图立体算法代码的文件夹,即将多视图图像转换为3D表示(如高斯、MLP或网格)的算法(如高斯散射、NeRF和FlexiCubes)。新的MVS算法应添加在这里

  • web: <br>包含所有浏览器UI相关文件和代码(html、js、css)的文件夹(如html布局、样式和3D网格及高斯预览的核心逻辑)。新的网页UI应添加在这里

  • webserver: <br>包含与浏览器通信代码的文件夹,即处理网页客户端请求(如当请求特定URL路由时向客户端发送3D网格)。新的网页服务器相关功能应添加在这里

  • Configs: <br>包含不同模块配置文件的文件夹,新的配置应添加在这里,如果单个模块有多个配置,请使用子文件夹(如Unique3DCRM

  • Checkpoints: <br>包含所有预训练模型和一些diffusers所需模型架构配置文件的文件夹。如果新的检查点可以由Load_Diffusers Pipeline节点自动下载,那么应该添加在这里

  • install.py: <br>主安装脚本,将根据您的运行环境自动下载并安装预构建,如果找不到对应的预构建,则构建脚本将自动启动,由ComfyUI-Manager在使用pip安装requirements.txt中列出的依赖项后立即调用 <br>如果您尝试添加的新模块需要一些无法简单添加到requirements.txtbuild_config.remote_packages的额外包,那么您可以尝试通过修改此脚本来添加

  • _Pre_Builds: <br>包含构建所有必需依赖项的文件和代码的文件夹,如果您想预构建一些额外的依赖项,请查看_Pre_Builds/README.md以获取更多信息

提示

  • OpenGL(Three.js、Blender)世界和相机坐标系:
        世界             相机
      
        +y              上  目标
        |                |  /
        |                | /
        |______+x        |/______右
        /                /
       /                /
      /                /
    +z               前方
    
    z轴指向您并从屏幕中伸出
    仰角:在(-90,90)范围内,从+y到+x为(-90,0)
    方位角:在(-180,180)范围内,从+z到+x为(0,90)
    
  • 如果遇到OpenGL错误(例如,[F glutil.cpp:338] eglInitialize() failed),则在相应节点上将force_cuda_rasterize设置为true
  • 如果安装后,您的ComfyUI在启动或运行时卡住,您可以按照以下链接中的说明解决问题:在GPU上评估神经元模型时代码无限期挂起

支持者

编辑推荐精选

AEE

AEE

AI Excel全自动制表工具

AEE 在线 AI 全自动 Excel 编辑器,提供智能录入、自动公式、数据整理、图表生成等功能,高效处理 Excel 任务,提升办公效率。支持自动高亮数据、批量计算、不规则数据录入,适用于企业、教育、金融等多场景。

UI-TARS-desktop

UI-TARS-desktop

基于 UI-TARS 视觉语言模型的桌面应用,可通过自然语言控制计算机进行多模态操作。

UI-TARS-desktop 是一款功能强大的桌面应用,基于 UI-TARS(视觉语言模型)构建。它具备自然语言控制、截图与视觉识别、精确的鼠标键盘控制等功能,支持跨平台使用(Windows/MacOS),能提供实时反馈和状态显示,且数据完全本地处理,保障隐私安全。该应用集成了多种大语言模型和搜索方式,还可进行文件系统操作。适用于需要智能交互和自动化任务的场景,如信息检索、文件管理等。其提供了详细的文档,包括快速启动、部署、贡献指南和 SDK 使用说明等,方便开发者使用和扩展。

Wan2.1

Wan2.1

开源且先进的大规模视频生成模型项目

Wan2.1 是一个开源且先进的大规模视频生成模型项目,支持文本到图像、文本到视频、图像到视频等多种生成任务。它具备丰富的配置选项,可调整分辨率、扩散步数等参数,还能对提示词进行增强。使用了多种先进技术和工具,在视频和图像生成领域具有广泛应用前景,适合研究人员和开发者使用。

爱图表

爱图表

全流程 AI 驱动的数据可视化工具,助力用户轻松创作高颜值图表

爱图表(aitubiao.com)就是AI图表,是由镝数科技推出的一款创新型智能数据可视化平台,专注于为用户提供便捷的图表生成、数据分析和报告撰写服务。爱图表是中国首个在图表场景接入DeepSeek的产品。通过接入前沿的DeepSeek系列AI模型,爱图表结合强大的数据处理能力与智能化功能,致力于帮助职场人士高效处理和表达数据,提升工作效率和报告质量。

Qwen2.5-VL

Qwen2.5-VL

一款强大的视觉语言模型,支持图像和视频输入

Qwen2.5-VL 是一款强大的视觉语言模型,支持图像和视频输入,可用于多种场景,如商品特点总结、图像文字识别等。项目提供了 OpenAI API 服务、Web UI 示例等部署方式,还包含了视觉处理工具,有助于开发者快速集成和使用,提升工作效率。

HunyuanVideo

HunyuanVideo

HunyuanVideo 是一个可基于文本生成高质量图像和视频的项目。

HunyuanVideo 是一个专注于文本到图像及视频生成的项目。它具备强大的视频生成能力,支持多种分辨率和视频长度选择,能根据用户输入的文本生成逼真的图像和视频。使用先进的技术架构和算法,可灵活调整生成参数,满足不同场景的需求,是文本生成图像视频领域的优质工具。

WebUI for Browser Use

WebUI for Browser Use

一个基于 Gradio 构建的 WebUI,支持与浏览器智能体进行便捷交互。

WebUI for Browser Use 是一个强大的项目,它集成了多种大型语言模型,支持自定义浏览器使用,具备持久化浏览器会话等功能。用户可以通过简洁友好的界面轻松控制浏览器智能体完成各类任务,无论是数据提取、网页导航还是表单填写等操作都能高效实现,有利于提高工作效率和获取信息的便捷性。该项目适合开发者、研究人员以及需要自动化浏览器操作的人群使用,在 SEO 优化方面,其关键词涵盖浏览器使用、WebUI、大型语言模型集成等,有助于提高网页在搜索引擎中的曝光度。

xiaozhi-esp32

xiaozhi-esp32

基于 ESP32 的小智 AI 开发项目,支持多种网络连接与协议,实现语音交互等功能。

xiaozhi-esp32 是一个极具创新性的基于 ESP32 的开发项目,专注于人工智能语音交互领域。项目涵盖了丰富的功能,如网络连接、OTA 升级、设备激活等,同时支持多种语言。无论是开发爱好者还是专业开发者,都能借助该项目快速搭建起高效的 AI 语音交互系统,为智能设备开发提供强大助力。

olmocr

olmocr

一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。

olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。

飞书多维表格

飞书多维表格

飞书多维表格 ×DeepSeek R1 满血版

飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。

下拉加载更多