Project Icon

ComfyUI-AnimateAnyone-Evolved

姿态驱动视频生成的开源AI项目

ComfyUI-AnimateAnyone-Evolved是AnimateAnyone的改进实现,利用姿态图像序列和参考图像生成风格化视频。项目支持DDIM、DPM++等多种采样器和调度器,能处理长序列姿态图像。目标是在RTX 3080及以上GPU上实现每秒1帧以上的姿态到视频生成速度,并通过优化提升性能和质量。

ComfyUI-AnimateAnyone-Evolved

改进的AnimateAnyone实现,允许你使用姿势图像序列和参考图像来生成风格化视频。
本项目当前的目标是在性能等于或优于RTX 3080的GPU上实现1+FPS的理想姿势到视频生成效果!🚀

当前支持

  • 请查看**示例工作流程**了解使用方法。你可以使用测试输入来生成与我在此展示的完全相同的结果。(我从civitai获得了春丽的图像)
  • 支持不同的采样器和调度器:
    • DDIM
      • 24帧姿势图像序列,steps=20context_frames=24;在RTX3080 GPU上生成需要835.67秒
      • 24帧姿势图像序列,steps=20context_frames=12;在RTX3080 GPU上生成需要425.65秒

    • DPM++ 2M Karras
      • 24帧姿势图像序列,steps=20context_frames=12;在RTX3080 GPU上生成需要407.48秒
    • LCM
      • 24帧姿势图像序列,steps=20context_frames=24;在RTX3080 GPU上生成需要606.56秒
      • 注意:
        SD1.5的预训练LCM Lora在这里效果不佳,因为模型从SD1.5检查点经过了相当长的时间步骤重新训练,但重新训练一个新的lcm lora是可行的
    • Euler
      • 24帧姿势图像序列,steps=20context_frames=12;在RTX3080 GPU上生成需要450.66秒
    • Euler Ancestral
    • LMS
    • PNDM
  • 支持添加Lora
    • 我这样做是为了插入lcm lora
  • 支持相当长的姿势图像序列
    • 在我的RTX3080 GPU上测试,可以处理120+帧的姿势图像序列,context_frames=24
    • 只要系统能够将所有姿势图像序列放入单个张量中而不会导致GPU内存泄漏,那么决定GPU使用率的主要参数就是context_frames,它与姿势图像序列的长度无关。
  • 当前实现采用自Moore-AnimateAnyone
    • 我尝试将其分解为尽可能多的模块,因此ComfyUI中的工作流程将与AnimateAnyone论文中的原始流程非常相似:
      _Example_Workflow_Other_Imgs\AA_pipeline.png

路线图

  • 实现StreamDiffusion中提出的组件(残差CFG)(预计加速:2倍
    • 结果:
      使用DDIM调度器和RCFG一起生成的结果不够好,尽管它将生成过程加速了约4倍。
      在StreamDiffusion中,RCFG与LCM配合使用,这里可能也是这种情况,所以暂时将其保留在另一个分支中。
  • 一旦Open-AnimateAnyoneAnimateAnyone发布,就整合它们的实现和预训练模型
  • 使用stable-fast转换模型(预计加速:2倍
  • 为去噪unet训练LCM Lora(预计加速:5倍
  • 使用更好的数据集训练新模型以提高结果质量(可选,我们将看看是否有必要让我来做这个;)
  • 持续研究,始终朝着更好更快的方向前进🚀

安装(你也可以使用ComfyUI管理器)

  1. 将此仓库克隆到Your ComfyUI root directory\ComfyUI\custom_nodes\并安装依赖的Python包:
    cd Your_ComfyUI_root_directory\ComfyUI\custom_nodes\
    
    git clone https://github.com/MrForExample/ComfyUI-AnimateAnyone-Evolved.git
    
    pip install -r requirements.txt
    
    # 如果你遇到关于diffusers的错误,请运行:
    pip install --force-reinstall diffusers>=0.26.1
    
  2. 下载预训练模型:
    ./pretrained_weights/
    |-- denoising_unet.pth
    |-- motion_module.pth
    |-- pose_guider.pth
    |-- reference_unet.pth
    `-- stable-diffusion-v1-5
        |-- feature_extractor
        |   `-- preprocessor_config.json
        |-- model_index.json
        |-- unet
        |   |-- config.json
        |   `-- diffusion_pytorch_model.bin
        `-- v1-inference.yaml
    
    • 下载clip图像编码器(例如sd-image-variations-diffusers)并将其放在Your_ComfyUI_root_directory\ComfyUI\models\clip_vision
    • 下载vae(例如sd-vae-ft-mse)并将其放在Your_ComfyUI_root_directory\ComfyUI\models\vae
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号