🗣️ 开放式文本转语音追踪器
这是一个追踪所有开放访问/开源文本转语音模型的一站式平台。欢迎为尚未列出的模型提交合并请求。
本项目旨在提高这些模型的知名度,并使研究人员、开发者和爱好者更容易了解该领域的最新进展。
[!注意]
本仓库仅追踪开源/开放访问的文本转语音模型代码库。这也是为了鼓励更多人开源!🤗 | 名称 | GitHub | 权重 | 许可证 | 微调 | 语言 | 论文 | 演示 | 问题 | |---|---|---|---|---|---|---|---|---| | Amphion | 仓库 | 🤗 Hub | MIT | 否 | 多语言 | 论文 | 🤗 Space | | | AI4Bharat | 仓库 | 🤗 Hub | MIT | 是 | 印度语系 | 论文 | 演示 | | Bark | 仓库 | 🤗 Hub | MIT | 否 | 多语言 | 论文 | 🤗 Space | | | EmotiVoice | 仓库 | GDrive | Apache 2.0 | 是 | 中文 + 英文 | 不可用 | 不可用 | 单独的GUI协议 | | Glow-TTS | 仓库 | GDrive | MIT | 是 | 英语 | 论文 | GH Pages | | | GPT-SoVITS | 仓库 | 🤗 Hub | MIT | 是 | 多语言 | 不可用 | 不可用 | | | HierSpeech++ | 仓库 | GDrive | MIT | 否 | 韩语 + 英语 | 论文 | 🤗 Space | | | IMS-Toucan | 仓库 | GH release | Apache 2.0 | 是 | 多语言 | 论文 | 🤗 Space | | | MahaTTS | 仓库 | 🤗 Hub | Apache 2.0 | 否 | 英语 + 印度语系 | 不可用 | 录音, Colab | | | Matcha-TTS | 仓库 | GDrive | MIT | 是 | 英语 | 论文 | 🤗 Space | GPL许可的音素转换器 | | MetaVoice-1B | 仓库 | 🤗 Hub | Apache 2.0 | 是 | 多语言 | 不可用 | 🤗 Space | | | Neural-HMM TTS | 仓库 | GitHub | MIT | 是 | 英语 | 论文 | GH Pages | | | OpenVoice | 仓库 | 🤗 Hub | CC-BY-NC 4.0 | 否 | 中文 + 英文 | 论文 | 🤗 Space | 非商业用途 | | OverFlow TTS | 仓库 | GitHub | MIT | 是 | 英语 | 论文 | GH Pages | | | Parler TTS | 仓库 | 🤗 Hub | Apache 2.0 | 是 | 英语 | 不可用 | 不可用 | | | pflowTTS | 非官方仓库 | GDrive | MIT | 是 | 英语 | 论文 | 不可用 | GPL许可的音素转换器 | | Piper | 仓库 | 🤗 Hub | MIT | 是 | 多语言 | 不可用 | 不可用 | GPL许可的音素转换器 | | Pheme | 仓库 | 🤗 Hub | CC-BY | 是 | 英语 | 论文 | 🤗 Space | | | RAD-MMM | 仓库 | 谷歌云盘 | MIT | 是 | 多语言 | 论文 | Jupyter Notebook, 网页 | | | RAD-TTS | 仓库 | 谷歌云盘 | MIT | 是 | 英语 | 论文 | GH Pages | | | Silero | 仓库 | GH 链接 | CC BY-NC-SA | 否 | EM + DE + ES + EA | 不可用 | 不可用 | 非商业用途 | | StyleTTS 2 | 仓库 | 🤗 Hub | MIT | 是 | 英语 | 论文 | 🤗 Space | GPL许可的音素转换器 | | Tacotron 2 | 非官方仓库 | 谷歌云盘 | BSD-3 | 是 | 英语 | 论文 | 网页 | | | TorToiSe TTS | 仓库 | 🤗 Hub | Apache 2.0 | 是 | 英语 | 技术报告 | 🤗 Space | | | TTTS | 仓库 | 🤗 Hub | MPL 2.0 | 否 | 中文 | 不可用 | Colab, 🤗 Space | | | VALL-E | 非官方仓库 | 不可用 | MIT | 是 | 不适用 | 论文 | 不可用 | | | VITS/ MMS-TTS | 仓库 | 🤗 Hub / MMS | Apache 2.0 | 是 | 英语 | 论文 | 🤗 Space | GPL许可的音素转换器 | | WhisperSpeech | 仓库 | 🤗 Hub | MIT | 否 | 英语、波兰语 | 不可用 | 🤗 Space, 录音, Colab | | | XTTS | 仓库 | 🤗 Hub | CPML | 是 | 多语言 | 论文 | 🤗 Space | 非商业用途 | | xVASynth | 仓库 | 🤗 Hub | GPL-3.0 | 是 | 多语言 | 论文 | 🤗 Space | 训练中使用了有版权的材料。 |
能力详情
点击此处切换表格可见性
名称 | 处理器 ⚡ | 音标字母 🔤 | 即时克隆 👥 | 情感控制 🎭 | 提示 📖 | 语音控制 🎚 | 流式支持 🌊 | 语音到语音支持 🦜 | 长篇合成 |
---|---|---|---|---|---|---|---|---|---|
Amphion | CUDA | 👥 | 🎭👥 | ❌ | |||||
Bark | CUDA | ❌ | 🎭 标签 | ❌ | |||||
EmotiVoice | |||||||||
Glow-TTS | |||||||||
GPT-SoVITS | |||||||||
HierSpeech++ | ❌ | 👥 | 🎭👥 | ❌ | 速度 / 稳定性 🎚 | 🦜 | |||
IMS-Toucan | CUDA | ❌ | ❌ | ❌ | ❌ | ||||
MahaTTS | |||||||||
Matcha-TTS | IPA | ❌ | ❌ | ❌ | 速度 / 稳定性 🎚 | ||||
MetaVoice-1B | CUDA | 👥 | 🎭👥 | ❌ | 稳定性 / 相似度 🎚 | 是 | |||
Neural-HMM TTS | |||||||||
OpenVoice | CUDA | ❌ | 👥 | 6种类型 🎭 😡😃😭😯🤫😊 | ❌ | ||||
OverFlow TTS | |||||||||
pflowTTS | |||||||||
Piper | |||||||||
Pheme | CUDA | ❌ | 👥 | 🎭👥 | ❌ | 稳定性 🎚 | |||
RAD-TTS | |||||||||
Silero | |||||||||
StyleTTS 2 | CPU / CUDA | IPA | 👥 | 🎭👥 | ❌ | 🌊 | 是 | ||
Tacotron 2 | |||||||||
TorToiSe TTS | ❌ | ❌ | ❌ | 📖 | 🌊 | ||||
TTTS | CPU/CUDA | ❌ | 👥 | ||||||
VALL-E | |||||||||
VITS/ MMS-TTS | CUDA | ❌ | ❌ | ❌ | ❌ | 速度 🎚 | |||
WhisperSpeech | CUDA | ❌ | 👥 | 🎭👥 | ❌ | 速度 🎚 | |||
XTTS | CUDA | ❌ | 👥 | 🎭👥 | ❌ | 速度 / 稳定性 🎚 | 🌊 | ❌ | |
xVASynth | CPU / CUDA | ARPAbet+ | ❌ | 4种类型 🎭 😡😃😭😯 每个音素 | ❌ | 速度 / 音调 / 能量 / 🎭 🎚 每个音素 | ❌ | 🦜 |
- 处理器 - CPU/CUDA/ROCm(用于推理的单/多处理器;实时因子应低于2.0才能算作CPU,不过如果支持音频流式处理可以稍微放宽要求)
- 音标字母 - 无/IPA/ARPAbet<其他>(允许在推理过程中控制某些单词发音的音标转写)
- 即时克隆 - 是/否(零样本模型用于快速语音克隆)
- 情感控制 - 是🎭/严格(严格指无法在状态之间过渡,即时克隆切换/🎭👥)
- 提示 - 是/否(基于旁白数据集的副作用,可以影响情感状态,ElevenLabs文档)
- 流式支持 - 是/否(是否可以播放仍在生成的音频)
- 语音控制 - 速度/音调/<其他>(改变生成语音的音调、持续时间、能量和/或情感的能力)
- 语音到语音支持 - 是/否(流式支持意味着实时语音到语音;语音到文本=>文本到语音不计入)
您如何提供帮助?
帮助使这个列表更加完整。在Hugging Face Hub上创建演示并在此处链接 :) 有任何问题吗?在Twitter上给我发私信 @reach_vb。