ChatTTS:为日常对话设计的生成式语音模型
ChatTTS 是一个专为对话场景设计的文本转语音模型,特别适用于大型语言模型助手等应用。这个项目由 2noise 团队开发,旨在为研究人员和开发者提供一个强大而灵活的语音合成工具。
主要特点
-
对话式 TTS:ChatTTS 针对对话任务进行了优化,能够生成自然且富有表现力的语音。它支持多说话人,有利于实现交互式对话。
-
精细控制:该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和语气词等。
-
更好的韵律:在韵律方面,ChatTTS 超越了大多数开源 TTS 模型。项目提供了预训练模型,以支持进一步的研究和开发。
支持的语言
目前,ChatTTS 支持英语和中文,未来还将支持更多语言。
数据集和模型
ChatTTS 的主要模型是使用超过 10 万小时的中英文音频数据训练而成。在 HuggingFace 上开源的版本是一个经过 4 万小时预训练的模型,未经过 SFT(Supervised Fine-Tuning)。值得注意的是,发布的模型仅供学术用途。
快速上手
用户可以通过多种方式开始使用 ChatTTS:
-
通过 Web UI 界面:执行
python examples/web/webui.py
启动 Web 界面。 -
通过命令行:运行
python examples/cmd/run.py "Your text 1." "Your text 2."
来生成语音。 -
通过 Python 代码:可以直接在 Python 中导入 ChatTTS 库并使用其功能。
高级用法
ChatTTS 提供了多种高级功能,如:
- 从高斯分布中采样说话人
- 自定义推理参数(如温度、top_P、top_K 等)
- 句子级和词级的手动控制(如笑声、停顿等)
未来规划
ChatTTS 团队计划在未来实现多情感控制,并开发 ChatTTS.cpp 版本。
使用注意事项
尽管 ChatTTS 是一个强大的文本转语音系统,但开发团队强调了负责任和合乎道德地使用这项技术的重要性。为了限制 ChatTTS 的滥用,他们在 4 万小时模型的训练过程中添加了少量高频噪声,并尽可能使用 MP3 格式压缩音频质量,以防止恶意行为者可能将其用于犯罪目的。
结语
ChatTTS 为对话场景中的语音合成提供了一个强大的解决方案。它不仅支持多语言和多说话人,还能实现细粒度的韵律控制。随着项目的不断发展,相信它将为更多的研究和应用提供有力支持。