亮点
-
许可证已更新为Apache 2.0,我们已移除非商业用途限制
-
我们发布了一个stable-diffusion-webui扩展。查看更多详情此处。演示视频
-
全图模式现已可用!更多详情...
v0.0.1版本的静态+增强效果 | v0.0.2版本的静态+增强效果 | 输入图片 @bagbag1815 |
---|---|---|
-
现已提供多种新模式(静态、参考和调整大小模式)!
-
我们很高兴看到更多社区演示出现在哔哩哔哩、YouTube和X (#sadtalker)上。
更新日志
之前的更新日志可以在这里找到。
-
[2023.06.12]: 在WebUI扩展中添加了更多新功能,请参阅此处的讨论。
-
[2023.06.05]: 发布了新的512x512像素(测试版)人脸模型。修复了一些bug并提高了性能。
-
[2023.04.15]: @camenduru添加了一个WebUI Colab笔记本:
-
[2023.04.12]: 添加了更详细的WebUI安装文档,并修复了重新安装时的问题。
-
[2023.04.12]: 修复了由于第三方包导致的WebUI安全问题,并优化了
sd-webui-extension
中的输出路径。 -
[2023.04.08]: 在v0.0.2版本中,我们向生成的视频添加了标志水印以防止滥用。这个水印在后续版本中已被移除。
-
[2023.04.08]: 在v0.0.2版本中,我们添加了全图动画功能,并提供了从百度下载检查点的链接。我们还优化了增强器逻辑。
待办事项
我们正在issue #280中跟踪新的更新。
故障排除
如果您遇到任何问题,请在开issue之前阅读我们的常见问题解答。
1. 安装
社区教程:中文Windows教程 | 日本語コース(日语教程)。
Linux/Unix
-
安装Anaconda、Python和
git
。 -
创建环境并安装依赖。
git clone https://github.com/OpenTalker/SadTalker.git
cd SadTalker
conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
### Coqui TTS是gradio演示的可选项。
### pip install TTS
Windows
这里有一个中文视频教程。您也可以按照以下说明操作:
- 安装Python 3.8并勾选"Add Python to PATH"。
- 手动安装git或使用Scoop:
scoop install git
。 - 安装
ffmpeg
,按照这个教程或使用scoop:scoop install ffmpeg
。 - 通过运行
git clone https://github.com/Winfredy/SadTalker.git
下载SadTalker仓库。 - 在下载部分下载检查点和gfpgan模型。
- 以普通非管理员用户身份从Windows资源管理器运行
start.bat
,将启动一个基于Gradio的WebUI演示。
macOS
有关在macOS上安装SadTalker的教程可以在这里找到。
Docker、WSL等
请查看这里的其他教程。
2. 下载模型
您可以在Linux/macOS上运行以下脚本自动下载所有模型:
bash scripts/download_models.sh
我们还提供了一个离线补丁(gfpgan/
),因此在生成时不会下载任何模型。
预训练模型
- Google Drive
- GitHub Releases
- 百度云盘(密码:
sadt
)
GFPGAN离线补丁
- Google Drive
- GitHub Releases
- 百度云盘(密码:
sadt
)
3. 快速开始
请阅读我们关于最佳实践和配置技巧的文档。
WebUI演示
在线演示:HuggingFace | SDWebUI-Colab | Colab
本地WebUI扩展:请参考WebUI文档。
本地gradio演示(推荐):可以在本地运行类似于我们Hugging Face演示的Gradio实例:
## 您需要提前通过`pip install tts`手动安装TTS(https://github.com/coqui-ai/TTS)。
python app_sadtalker.py
您也可以更简单地启动它:
- Windows:只需双击
webui.bat
,依赖项将自动安装。 - Linux/Mac OS:运行
bash webui.sh
启动webui。
CLI用法
使用默认配置为肖像图像制作动画:
python inference.py --driven_audio <audio.wav> \
--source_image <video.mp4 or picture.png> \
--enhancer gfpgan
结果将保存在results/$SOME_TIMESTAMP/*.mp4
中。
全身/图像生成:
使用--still
生成自然的全身视频。您可以添加enhancer
来提高生成视频的质量。
python inference.py --driven_audio <audio.wav> \
--source_image <video.mp4 或 picture.png> \
--result_dir <存储结果的文件> \
--still \
--preprocess full \
--enhancer gfpgan
更多示例、配置和提示可以在 >>> 最佳实践文档 <<<中找到。
引用
如果您在研究中使用了我们的工作,请考虑引用:
@article{zhang2022sadtalker,
title={SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation},
author={Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei},
journal={arXiv preprint arXiv:2211.12194},
year={2022}
}
致谢
人脸渲染代码大量借鉴了zhanglonghao对face-vid2vid的复现和PIRender。我们感谢作者分享他们出色的代码。在训练过程中,我们还使用了来自Deep3DFaceReconstruction和Wav2lip的模型。我们感谢他们出色的工作。
我们还使用了以下第三方库:
- 人脸工具: https://github.com/xinntao/facexlib
- 人脸增强: https://github.com/TencentARC/GFPGAN
- 图像/视频增强:https://github.com/xinntao/Real-ESRGAN
扩展:
- SadTalker-Video-Lip-Sync 来自 @Zz-ww: 用于视频唇形编辑的SadTalker
相关工作
- StyleHEAT: 基于预训练StyleGAN的单样本高分辨率可编辑说话人脸生成 (ECCV 2022)
- CodeTalker: 具有离散运动先验的语音驱动3D面部动画 (CVPR 2023)
- VideoReTalking: 基于音频的野外说话头视频编辑唇形同步 (SIGGRAPH Asia 2022)
- DPE: 用于通用视频人像编辑的姿态和表情解耦 (CVPR 2023)
- 具有面部对称先验的3D GAN反演 (CVPR 2023)
- T2M-GPT: 使用离散表示从文本描述生成人体运动 (CVPR 2023)
免责声明
这不是腾讯的官方产品。
1. 在使用本代码之前,请仔细阅读并遵守适用于本代码的开源许可。
2. 在使用本代码之前,请仔细阅读并遵守适用于本代码的知识产权声明。
3. 本开源代码完全离线运行,不会收集任何个人信息或其他数据。如果您使用本代码为最终用户提供服务并收集相关数据,请根据适用的法律法规采取必要的合规措施(如发布隐私政策、采取必要的数据安全策略等)。如果收集的数据涉及个人信息,必须获得用户同意(如适用)。由此产生的任何法律责任与腾讯无关。
4. 未经腾讯书面许可,您无权使用腾讯合法拥有的名称或标识,如"腾讯"。否则,您可能承担法律责任。
5. 本开源代码不具备直接为最终用户提供服务的能力。如果您需要使用本代码进行进一步的模型训练或演示,作为您的产品的一部分为最终用户提供服务,或类似用途,请遵守适用于您的产品或服务的法律法规。由此产生的任何法律责任与腾讯无关。
6. 禁止使用本开源代码从事损害他人合法权益的活动(包括但不限于欺诈、欺骗、侵犯他人肖像权、名誉权等),或其他违反适用法律法规或违背社会公德和良好风俗的行为(包括提供不正确或虚假信息,传播色情、恐怖主义和暴力信息等)。否则,您可能承担法律责任。
标志:颜色和字体建议:ChatGPT,标志字体:Montserrat Alternates。
所有演示图像和音频的版权均来自社区用户或稳定扩散生成。如果您希望我们删除它们,请随时与我们联系。