🗣️ 开放式文本转语音追踪器

这是一个追踪所有开放访问/开源文本转语音模型的一站式平台。欢迎为尚未列出的模型提交合并请求。

本项目旨在提高这些模型的知名度，并使研究人员、开发者和爱好者更容易了解该领域的最新进展。

[!注意]
本仓库仅追踪开源/开放访问的文本转语音模型代码库。这也是为了鼓励更多人开源！🤗 | 名称 | GitHub | 权重 | 许可证 | 微调 | 语言 | 论文 | 演示 | 问题 | |---|---|---|---|---|---|---|---|---| | Amphion | 仓库 | 🤗 Hub | MIT | 否 | 多语言 | 论文 | 🤗 Space | | | AI4Bharat | 仓库 | 🤗 Hub | MIT | 是 | 印度语系 | 论文 | 演示 | | Bark | 仓库 | 🤗 Hub | MIT | 否 | 多语言 | 论文 | 🤗 Space | | | EmotiVoice | 仓库 | GDrive | Apache 2.0 | 是 | 中文 + 英文 | 不可用 | 不可用 | 单独的GUI协议 | | Glow-TTS | 仓库 | GDrive | MIT | 是 | 英语 | 论文 | GH Pages | | | GPT-SoVITS | 仓库 | 🤗 Hub | MIT | 是 | 多语言 | 不可用 | 不可用 | | | HierSpeech++ | 仓库 | GDrive | MIT | 否 | 韩语 + 英语 | 论文 | 🤗 Space | | | IMS-Toucan | 仓库 | GH release | Apache 2.0 | 是 | 多语言 | 论文 | 🤗 Space | | | MahaTTS | 仓库 | 🤗 Hub | Apache 2.0 | 否 | 英语 + 印度语系 | 不可用 | 录音, Colab | | | Matcha-TTS | 仓库 | GDrive | MIT | 是 | 英语 | 论文 | 🤗 Space | GPL许可的音素转换器 | | MetaVoice-1B | 仓库 | 🤗 Hub | Apache 2.0 | 是 | 多语言 | 不可用 | 🤗 Space | | | Neural-HMM TTS | 仓库 | GitHub | MIT | 是 | 英语 | 论文 | GH Pages | | | OpenVoice | 仓库 | 🤗 Hub | CC-BY-NC 4.0 | 否 | 中文 + 英文 | 论文 | 🤗 Space | 非商业用途 | | OverFlow TTS | 仓库 | GitHub | MIT | 是 | 英语 | 论文 | GH Pages | | | Parler TTS | 仓库 | 🤗 Hub | Apache 2.0 | 是 | 英语 | 不可用 | 不可用 | | | pflowTTS | 非官方仓库 | GDrive | MIT | 是 | 英语 | 论文 | 不可用 | GPL许可的音素转换器 | | Piper | 仓库 | 🤗 Hub | MIT | 是 | 多语言 | 不可用 | 不可用 | GPL许可的音素转换器 | | Pheme | 仓库 | 🤗 Hub | CC-BY | 是 | 英语 | 论文 | 🤗 Space | | | RAD-MMM | 仓库 | 谷歌云盘 | MIT | 是 | 多语言 | 论文 | Jupyter Notebook, 网页 | | | RAD-TTS | 仓库 | 谷歌云盘 | MIT | 是 | 英语 | 论文 | GH Pages | | | Silero | 仓库 | GH 链接 | CC BY-NC-SA | 否 | EM + DE + ES + EA | 不可用 | 不可用 | 非商业用途 | | StyleTTS 2 | 仓库 | 🤗 Hub | MIT | 是 | 英语 | 论文 | 🤗 Space | GPL许可的音素转换器 | | Tacotron 2 | 非官方仓库 | 谷歌云盘 | BSD-3 | 是 | 英语 | 论文 | 网页 | | | TorToiSe TTS | 仓库 | 🤗 Hub | Apache 2.0 | 是 | 英语 | 技术报告 | 🤗 Space | | | TTTS | 仓库 | 🤗 Hub | MPL 2.0 | 否 | 中文 | 不可用 | Colab, 🤗 Space | | | VALL-E | 非官方仓库 | 不可用 | MIT | 是 | 不适用 | 论文 | 不可用 | | | VITS/ MMS-TTS | 仓库 | 🤗 Hub / MMS | Apache 2.0 | 是 | 英语 | 论文 | 🤗 Space | GPL许可的音素转换器 | | WhisperSpeech | 仓库 | 🤗 Hub | MIT | 否 | 英语、波兰语 | 不可用 | 🤗 Space, 录音, Colab | | | XTTS | 仓库 | 🤗 Hub | CPML | 是 | 多语言 | 论文 | 🤗 Space | 非商业用途 | | xVASynth | 仓库 | 🤗 Hub | GPL-3.0 | 是 | 多语言 | 论文 | 🤗 Space | 训练中使用了有版权的材料。 |

能力详情

点击此处切换表格可见性

名称	处理器 ⚡	音标字母 🔤	即时克隆 👥	情感控制 🎭	提示 📖	语音控制 🎚	流式支持 🌊	语音到语音支持 🦜	长篇合成
Amphion	CUDA		👥	🎭👥	❌
Bark	CUDA		❌	🎭 标签	❌
EmotiVoice
Glow-TTS
GPT-SoVITS
HierSpeech++		❌	👥	🎭👥	❌	速度 / 稳定性 🎚		🦜
IMS-Toucan	CUDA	❌	❌	❌	❌
MahaTTS
Matcha-TTS		IPA	❌	❌	❌	速度 / 稳定性 🎚
MetaVoice-1B	CUDA		👥	🎭👥	❌	稳定性 / 相似度 🎚			是
Neural-HMM TTS
OpenVoice	CUDA	❌	👥	6种类型 🎭 😡😃😭😯🤫😊	❌
OverFlow TTS
pflowTTS
Piper
Pheme	CUDA	❌	👥	🎭👥	❌	稳定性 🎚
RAD-TTS
Silero
StyleTTS 2	CPU / CUDA	IPA	👥	🎭👥	❌		🌊		是
Tacotron 2
TorToiSe TTS		❌	❌	❌	📖		🌊
TTTS	CPU/CUDA	❌	👥
VALL-E
VITS/ MMS-TTS	CUDA	❌	❌	❌	❌	速度 🎚
WhisperSpeech	CUDA	❌	👥	🎭👥	❌	速度 🎚
XTTS	CUDA	❌	👥	🎭👥	❌	速度 / 稳定性 🎚	🌊	❌
xVASynth	CPU / CUDA	ARPAbet+	❌	4种类型 🎭 😡😃😭😯 每个音素	❌	速度 / 音调 / 能量 / 🎭 🎚 每个音素	❌	🦜