DiffSynth Studio

简介

DiffSynth Studio是一个扩散引擎。我们重构了包括文本编码器、UNet、VAE等在内的架构，保持与开源社区模型的兼容性，同时提高了计算性能。我们提供了许多有趣的功能。尽情享受扩散模型的魔力吧！

目前，DiffSynth Studio已支持以下模型：

新闻

2024年6月21日 🔥🔥🔥 我们提出了ExVideo，这是一种旨在增强视频生成模型能力的后期微调技术。我们已将Stable Video Diffusion扩展至能够生成长达128帧的视频。
- 项目主页
- 源代码已在本仓库发布。请查看examples/ExVideo。
- 模型已在HuggingFace和ModelScope上发布。
- 技术报告已在arXiv上发布。
- 您可以在这个演示中尝试ExVideo！
2024年6月13日 DiffSynth Studio已转移至ModelScope。开发者已从"我"转变为"我们"。当然，我仍将参与开发和维护。
2024年1月29日 我们提出了Diffutoon，这是一个卡通着色的绝佳解决方案。
- 项目主页
- 源代码已在本项目中发布。
- 技术报告（IJCAI 2024）已在arXiv上发布。
2023年12月8日 我们决定开发一个新项目，旨在释放扩散模型的潜力，特别是在视频合成方面。该项目的开发已经启动。
2023年11月15日。 我们提出了FastBlend，一种强大的视频去闪烁算法。
- sd-webui扩展已在GitHub上发布。
- 演示视频已在哔哩哔哩上展示，包括三项任务。
- 技术报告已在arXiv上发布。
- 由其他用户开发的非官方ComfyUI扩展已在GitHub上发布。
2023年10月1日。 我们发布了该项目的早期版本，即FastSDXL。这是构建扩散引擎的一次尝试。
- 源代码已在GitHub上发布。
- FastSDXL包含一个可训练的OLSS调度器，用于提高效率。
  - OLSS的原始仓库在这里。
  - 技术报告（CIKM 2023）已在arXiv上发布。
  - 演示视频已在哔哩哔哩上展示。
  - 由于OLSS需要额外训练，我们没有在这个项目中实现它。
2023年8月29日。 我们提出了DiffSynth，一个视频合成框架。
- 项目页面。
- 源代码已在EasyNLP中发布。
- 技术报告（ECML PKDD 2024）已在arXiv上发布。

安装

从源代码安装：

git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .

或从pypi安装：

pip install diffsynth

使用方法（Python代码）

Python示例在examples目录中。这里我们提供一个概览。

长视频合成

我们训练了一个扩展的视频合成模型，可以生成128帧。examples/ExVideo

图像合成

通过突破扩散模型的限制，生成高分辨率图像！examples/image_synthesis。

在examples/train中支持LoRA微调。

模型	示例
Stable Diffusion
Stable Diffusion XL
Stable Diffusion 3
Kolors
Hunyuan-DiT

卡通渲染

以扁平风格渲染真实视频，并启用视频编辑功能。examples/Diffutoon

视频风格化

无需视频模型的视频风格化。examples/diffsynth

使用方法（WebUI）

python -m streamlit run DiffSynth_Studio.py