Project Icon

SadTalker

将单张肖像图片与音频结合生成逼真的动态说话视频

SadTalker是一个开源AI项目,可将单张肖像图片与音频结合生成逼真的动态说话视频。项目采用3D运动系数学习技术,实现音频驱动的单图像说话人脸动画。SadTalker支持全身图像生成和多种增强模式,并提供WebUI界面。该技术可应用于内容创作、虚拟主播等领域。

    在Colab中打开   Hugging Face Spaces   sd webui-colab  
Replicate Discord


1 西安交通大学   2 腾讯AI实验室   3 蚂蚁集团  

CVPR 2023

sadtalker

简而言之:      单个人像图片 🙎‍♂️      +       音频 🎤       =       会说话的头像视频 🎞.


亮点

  • 许可证已更新为Apache 2.0,我们已移除非商业用途限制

  • SadTalker现已正式集成到Discord中,您可以通过发送文件免费使用。您还可以从文本提示生成高质量视频。加入:Discord

  • 我们发布了一个stable-diffusion-webui扩展。查看更多详情此处演示视频

  • 全图模式现已可用!更多详情...

v0.0.1版本的静态+增强效果v0.0.2版本的静态+增强效果输入图片 @bagbag1815
  • 现已提供多种新模式(静态、参考和调整大小模式)!

  • 我们很高兴看到更多社区演示出现在哔哩哔哩YouTubeX (#sadtalker)上。

更新日志

之前的更新日志可以在这里找到。

  • [2023.06.12]: 在WebUI扩展中添加了更多新功能,请参阅此处的讨论。

  • [2023.06.05]: 发布了新的512x512像素(测试版)人脸模型。修复了一些bug并提高了性能。

  • [2023.04.15]: @camenduru添加了一个WebUI Colab笔记本:sd webui-colab

  • [2023.04.12]: 添加了更详细的WebUI安装文档,并修复了重新安装时的问题。

  • [2023.04.12]: 修复了由于第三方包导致的WebUI安全问题,并优化了sd-webui-extension中的输出路径。

  • [2023.04.08]: 在v0.0.2版本中,我们向生成的视频添加了标志水印以防止滥用。这个水印在后续版本中已被移除。

  • [2023.04.08]: 在v0.0.2版本中,我们添加了全图动画功能,并提供了从百度下载检查点的链接。我们还优化了增强器逻辑。

待办事项

我们正在issue #280中跟踪新的更新。

故障排除

如果您遇到任何问题,请在开issue之前阅读我们的常见问题解答

1. 安装

社区教程:中文Windows教程 | 日本語コース(日语教程)

Linux/Unix

  1. 安装Anaconda、Python和git

  2. 创建环境并安装依赖。

git clone https://github.com/OpenTalker/SadTalker.git

cd SadTalker 

conda create -n sadtalker python=3.8

conda activate sadtalker

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

conda install ffmpeg

pip install -r requirements.txt

### Coqui TTS是gradio演示的可选项。
### pip install TTS

Windows

这里有一个中文视频教程。您也可以按照以下说明操作:

  1. 安装Python 3.8并勾选"Add Python to PATH"。
  2. 手动安装git或使用Scoopscoop install git
  3. 安装ffmpeg,按照这个教程或使用scoopscoop install ffmpeg
  4. 通过运行git clone https://github.com/Winfredy/SadTalker.git下载SadTalker仓库。
  5. 下载部分下载检查点和gfpgan模型。
  6. 以普通非管理员用户身份从Windows资源管理器运行start.bat,将启动一个基于Gradio的WebUI演示。

macOS

有关在macOS上安装SadTalker的教程可以在这里找到。

Docker、WSL等

请查看这里的其他教程。

2. 下载模型

您可以在Linux/macOS上运行以下脚本自动下载所有模型:

bash scripts/download_models.sh

我们还提供了一个离线补丁(gfpgan/),因此在生成时不会下载任何模型。

预训练模型

GFPGAN离线补丁

3. 快速开始

请阅读我们关于最佳实践和配置技巧的文档。

WebUI演示

在线演示HuggingFace | SDWebUI-Colab | Colab

本地WebUI扩展:请参考WebUI文档

本地gradio演示(推荐):可以在本地运行类似于我们Hugging Face演示的Gradio实例:

## 您需要提前通过`pip install tts`手动安装TTS(https://github.com/coqui-ai/TTS)。
python app_sadtalker.py

您也可以更简单地启动它:

  • Windows:只需双击webui.bat,依赖项将自动安装。
  • Linux/Mac OS:运行bash webui.sh启动webui。

CLI用法

使用默认配置为肖像图像制作动画:
python inference.py --driven_audio <audio.wav> \
                    --source_image <video.mp4 or picture.png> \
                    --enhancer gfpgan 

结果将保存在results/$SOME_TIMESTAMP/*.mp4中。

全身/图像生成:

使用--still生成自然的全身视频。您可以添加enhancer来提高生成视频的质量。

python inference.py --driven_audio <audio.wav> \
                    --source_image <video.mp4 或 picture.png> \
                    --result_dir <存储结果的文件> \
                    --still \
                    --preprocess full \
                    --enhancer gfpgan 

更多示例、配置和提示可以在 >>> 最佳实践文档 <<<中找到。

引用

如果您在研究中使用了我们的工作,请考虑引用:

@article{zhang2022sadtalker,
  title={SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation},
  author={Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei},
  journal={arXiv preprint arXiv:2211.12194},
  year={2022}
}

致谢

人脸渲染代码大量借鉴了zhanglonghao对face-vid2vid的复现PIRender。我们感谢作者分享他们出色的代码。在训练过程中,我们还使用了来自Deep3DFaceReconstructionWav2lip的模型。我们感谢他们出色的工作。

我们还使用了以下第三方库:

扩展:

相关工作

免责声明

这不是腾讯的官方产品。

1. 在使用本代码之前,请仔细阅读并遵守适用于本代码的开源许可。
2. 在使用本代码之前,请仔细阅读并遵守适用于本代码的知识产权声明。
3. 本开源代码完全离线运行,不会收集任何个人信息或其他数据。如果您使用本代码为最终用户提供服务并收集相关数据,请根据适用的法律法规采取必要的合规措施(如发布隐私政策、采取必要的数据安全策略等)。如果收集的数据涉及个人信息,必须获得用户同意(如适用)。由此产生的任何法律责任与腾讯无关。
4. 未经腾讯书面许可,您无权使用腾讯合法拥有的名称或标识,如"腾讯"。否则,您可能承担法律责任。
5. 本开源代码不具备直接为最终用户提供服务的能力。如果您需要使用本代码进行进一步的模型训练或演示,作为您的产品的一部分为最终用户提供服务,或类似用途,请遵守适用于您的产品或服务的法律法规。由此产生的任何法律责任与腾讯无关。
6. 禁止使用本开源代码从事损害他人合法权益的活动(包括但不限于欺诈、欺骗、侵犯他人肖像权、名誉权等),或其他违反适用法律法规或违背社会公德和良好风俗的行为(包括提供不正确或虚假信息,传播色情、恐怖主义和暴力信息等)。否则,您可能承担法律责任。

标志:颜色和字体建议:ChatGPT,标志字体:Montserrat Alternates

所有演示图像和音频的版权均来自社区用户或稳定扩散生成。如果您希望我们删除它们,请随时与我们联系。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号