项目介绍:Digital Life DL-B
简介
Digital Life DL-B 是一个基于 ChatGLM、Wav2lip 和 so-vits-svc 组建的数字形象方案。这个项目提供了一种通过不同的人工智能模型来创建数字形象的方法。DL-B 项目的代码于 2023 年 3 月中旬编写完毕,并且没有进行过优化或更新。目前,项目开发者正在基于这个项目参加比赛,同时项目组也在推进至 DL-C 的后续优化和 DL-D 的测试开发。由于比赛进行中,DL-C 和 DL-D 的细节在比赛结束前将不会被公布。
硬件需求
项目的运行需要一定的硬件配置。以下是一个推荐的配置,以便在本地系统上顺利运行:
- 显卡:RTX 3060 12G
- CPU:Intel i5-12400F
- 内存:16 GB
- 硬盘:30GB
环境安装
DL-B 项目需要在 Python 3.9.13 环境下运行。用户需使用 pip 安装所需的依赖库,此外还需要特殊配置 Python 3.8 的环境包用于 So-VITS 的运行。为简化用户操作,项目提供了一个预配置的环境包,用户需要下载并解压到 DL-B 文件夹中。
此外,项目还要求安装 ffmpeg。用户可以选择自行安装或者使用项目提供的“懒人包”来进行快捷安装。
模型训练
ChatGLM
ChatGLM 提供了多种微调方式,用户可以根据个人需求选择合适的微调路径。对于如何在 ChatGLM 上进行 P-tuning 微调,清华大学的 GitHub 页面提供了详细的说明。用户可通过 transformers 库自动下载模型和参数。若网络速度较慢,也可以选择手动下载模型并加载本地文件。
so-vits-svc
So-VITS 是一个非常受欢迎且成熟的语音模型,用户可以通过视频教程学习如何进行高质量的训练。所需的模型文件也可以通过提供的链接进行下载和配置。
Wav2Lip
Wav2Lip 是一款用于唇形同步的模型,通过下载必要的预训练模型,用户可以选择不同的唇同步方案。需要注意的是,用户需采集本人视频来达到最佳唇同步效果。
源码更改
DL-B 项目的源码需要进行一些额外的更改才可正常运行。用户需要更改 model 路径来加载微调后的模型;具体需要在 main_demo.py 和几个相关文件中进行路径和参数的修改。
总结
Digital Life DL-B 是一款集成了多种人工智能模型的数字形象方案,尽管在开发初期代码较为生硬,但团队计划在比赛结束后由 AI 学社接手进行优化和完善,推出更为用户友好的体验。这一项目为想要制作数字角色的用户提供了一个引人入胜的解决方案。
希望所有尝试 DL-B 项目的用户都能从中获得乐趣!