viXTTS演示 🗣️🔥
快速使用 ✨
👉 访问https://huggingface.co/spaces/thinhlpg/vixtts-demo即可立即使用,无需安装。
简介 👋
viXTTS是一款文本转语音生成工具,可以克隆越南语和其他语言的语音。这个模型是基于XTTS-v2.0.3模型微调的版本,使用了viVoice数据集。本仓库主要用于演示目的。
模型可在以下地址访问:Hugging Face上的viXTTS
在线使用(推荐)
- 您可以在这里试用该模型:https://huggingface.co/spaces/thinhlpg/vixtts-demo
- 如需快速演示,请参考Google Colab上的这个笔记本。 教程(越南语):https://youtu.be/pbwEbpOy0m8?feature=shared
本地使用
此代码专为在Ubuntu或WSL2上运行而设计。不适用于macOS或Windows系统。
硬件建议
- 至少10GB可用磁盘空间
- 至少16GB内存
- Nvidia GPU,最少4GB显存
- 默认情况下,模型将使用GPU。如果没有GPU,它将在CPU上运行,速度会慢很多。
所需软件
- Git
- Python版本 >=3.9 且 <= 3.11。默认版本设置为3.11,但您可以在
run.sh
文件中修改Python版本。
使用方法
git clone https://github.com/thinhlpg/vixtts-demo
cd vixtts-demo
./run.sh
- 运行
run.sh
(首次运行时会自动安装依赖项)。 - 访问Gradio演示链接。
- 加载模型并等待加载完成。
- 推理并享受 🤗
- 结果将保存在
output/
目录中
限制
- 对于越南语中少于10个词的输入句子表现不佳(产生不一致的输出和奇怪的尾音)。
- 此模型仅在越南语上进行了微调。模型在越南语以外的语言上的效果尚未测试,可能会降低质量。
贡献
这个项目目前没有积极维护,由于敏感原因,我不打算发布微调代码,因为它可能被用于不道德的目的。如果您想通过为其他操作系统(如Windows或macOS)创建版本来贡献,请fork仓库,创建一个新分支,在相应的操作系统上进行彻底测试,并提交一个说明您贡献的拉取请求。
致谢
我们要感谢所有在此演示开发中发挥作用的库和资源,特别是:
- Coqui TTS提供XTTS基础模型和推理代码
- Vinorm和Undethesea用于越南语文本规范化
- Deepspeed用于快速推理
- Huggingface Hub用于托管模型
- Gradio用于Web界面
- DeepFilterNet用于噪音去除
引用
@misc{viVoice,
author = {Thinh Le Phuoc Gia, Tuan Pham Minh, Hung Nguyen Quoc, Trung Nguyen Quoc, Vinh Truong Hoang},
title = {viVoice: Enabling Vietnamese Multi-Speaker Speech Synthesis},
url = {https://github.com/thinhlpg/viVoice},
year = {2024}
}
稍后可能会提供一份手稿和友好的开发日志,记录整个过程(包括其他尝试过的工作,但本README文件中未指明过滤过程的细节)。
联系方式 💬
- Facebook:https://fb.com/thinhlpg/(首选;欢迎添加好友并随意给我发消息)
- GitHub:https://github.com/thinhlpg
- 电子邮件:thinhlpg@gmail.com(请尽量不要使用;我更喜欢友好、随意的交谈 💀)