Logo

#TTS

Logo of TTS
TTS
🐸TTS库提供多达16种语言的高级文本到语音转换模型,支持低于200毫秒的流媒体延迟。它包含丰富的工具用于模型训练和微调,并且拥有超过1100种预训练模型,适用于多语言和多说话人TTS任务。此外,该库还支持高效的语料库分析和管理,为语音合成提供全面支持。
Logo of vits_chinese
vits_chinese
vits_chinese项目引入了BERT和VITS技术,通过隐藏的韵律嵌入和自然语言特性,显著提高了文本到语音合成的音质和自然度。此项目不只适于高质量音频生成,也提供模块化蒸馏加速和在线演示,便利学习和开发人员的应用。
Logo of Comprehensive-Transformer-TTS
Comprehensive-Transformer-TTS
该项目采用非自回归Transformer技术,集成多种最新状态转换模型。Comprehensive-Transformer-TTS不仅提供监督与非监督持续时间建模, 也支持多种数据集和SOTA技术,如Fastformer和Long-Short Transformer,力求在文本到语音转换领域取得领先成果。
Logo of Bert-VITS2
Bert-VITS2
Bert-VITS2项目融合了多语言BERT和先进的自回归TTS模型,提供高品质的语音合成。此项目参考了MassTTS等开源项目,并推荐使用Fish-Speech。详情和演示请参见视频链接和文档,项目强调中文用户需求和法律合规,禁止违规用途。
Logo of TTSynth.com
TTSynth.com
TTSynth.com提供免费的AI驱动在线文本转语音服务,支持多语言和自然音色。用户可快速将文本转换为高质量语音,选择语音并下载MP3文件。界面简洁易用,适用于制作有声书、演讲稿和辅助视障人士等多种场景。采用先进人工智能技术生成流畅自然的语音,为用户带来优质的多语言支持文本转语音体验。
Logo of TTS
TTS
TTS库基于最新研究成果,提供高效的文本到语音生成技术,实现了训练便捷、速度快、质量高的最佳平衡。该库包括预训练模型和数据集质量评估工具,已被广泛应用于20多种语言的产品和研究项目。支持多说话人TTS、快速模型训练、多GPU训练,并兼容PyTorch、TensorFlow和TFLite等多种平台。
Logo of WaveRNN
WaveRNN
WaveRNN通过Pytorch实现了Deepmind的高效神经音频合成技术,并包含Tacotron训练支持, 提供两种预训练模型。项目向研究者和开发者开放,并附有详细使用指南与多样化的自定义功能,以便进行高质量的文本到语音转换。
Logo of Maix-Speech
Maix-Speech
Maix-Speech是一款面向嵌入式设备的AI语音库,涵盖语音识别、对话系统和文本到语音转换等多种功能,目前支持中文。此项目遵循Apache 2.0许可证。
Logo of willow
willow
现在可以自托管Willow Inference Server,快速实现语言推理任务。支持与Willow和其他应用的集成,包括语音转文本(STT)、文本转语音(TTS)、大语言模型(LLM)等功能。访问Github discussions分享体验,访问heywillow.io查看详细文档。
Logo of alltalk_tts
alltalk_tts
AllTalk TTS是一个开源的语音合成框架,支持本地和自定义模型,提供API接口和第三方集成。它具备模型微调、批量生成、低显存模式等功能,可独立运行或与多种AI平台集成。该项目提供便捷安装工具、详细文档和清晰控制台输出,适用于多样化的语音合成应用场景。
Logo of vits
vits
VITS是一种结合变分自编码器和对抗学习的端到端TTS系统,能够提升语音合成的自然度。通过变分推理和正态化流,以及随机时长预测器,VITS实现了多样节奏的语音合成。实验结果表明,该方法在LJ Speech数据集上的表现优于现有的TTS系统,接近真实语音的水平。
Logo of Bert-VITS2-ext
Bert-VITS2-ext
Bert-VITS2-ext 专注于TTS及声音识别的创新应用,实现声音到脸部表情的同步生成。该技术结合VITS,支持多语言,适用于复杂交互场景,为动画与虚拟互动领域开辟新可能。
Logo of willow-inference-server
willow-inference-server
Willow Inference Server (WIS) 是一个高效的开源语言推理服务器,支持自托管并优化了CUDA和低端设备的使用。在减少内存和显存占用的前提下,能够同时加载多种语言模型。WIS 支持语音识别 (ASR)、文本到语音合成 (TTS) 以及大语言模型 (LLM),并通过 REST、WebRTC 和 WebSockets 等多种传输方式,实现实时、低延迟的语音与语言处理,适用于各类助理任务和视障用户。
Logo of ttts
ttts
TTTS_v4是一个开源的多语言语音合成项目,通过创新的'细节'建模方法改进了传统VQ技术。该项目现已支持中文、英文、日语和韩语,并具有扩展性。TTTS_v4整合了tokenizer训练、VQVAE训练和GPT语音合成技术,旨在生成高质量的自然语音。此外,项目还提供模型微调功能,适用于多种语言场景和个性化需求。
Logo of vietTTS
vietTTS
vietTTS是一个开源的越南语文本转语音系统,集成了持续时间模型、声学模型和HiFiGAN声码器。项目提供预训练模型、数据处理工具、训练脚本和合成接口,便于研究和开发。包含详细文档,涵盖安装、数据准备和模型训练,对越南语语音合成技术发展具有参考价值。项目提供在线演示和音频样例,直观展示效果。目前项目已停止更新,新版本已迁移至LightSpeed项目,其中包含新的男声模型。
Logo of metavoice-src
metavoice-src
MetaVoice-1B是一个开源的1.2B参数TTS模型,经过10万小时的语音训练,支持英语情感语音合成和零样本的美式和英式语音克隆(仅需30秒参考音频)。该模型还支持跨语言声音克隆和任意长度文本的语音合成。可通过云端或本地部署使用,并提供Hugging Face和Google Colab的演示。
Logo of MTrans
MTrans
MTrans 提供多源在线翻译及文本转语音服务,支持多种流行语种。通过 HTTP 请求实现与服务器的交互,简化翻译和语音合成流程。项目开源,支持二次开发和个性化定制,适用于多种应用场景。
Logo of DragonianVoice
DragonianVoice
DragonianVoice提供TTS、SVC和SVS的Onnx框架推理库,支持C、Cpp及C#调用。项目与fish-speech联动,使用ggml框架重写。支持多种深度学习模型如Tacotron2、Vits和SoVitsSvc,并解决DmlEP推理错误。用户需遵守使用协议,确保合法合规使用开源项目。
Logo of seed-tts-eval
seed-tts-eval
seed-tts-eval是一个开源项目,提供评估零样本语音生成能力的客观测试集。该测试集包含英语和中文公开语料库样本,并配备计算词错误率和说话人相似度的脚本。这套工具主要用于评估语音合成模型在跨语言和零样本场景下的性能。项目采用Common Voice和DiDiSpeech-2数据集,包含3000个测试样本。评估指标包括使用Whisper和Paraformer模型的词错误率,以及基于WavLM的说话人相似度。这些工具有助于客观评估语音合成技术的进展。
Logo of ComfyUI-GPT_SoVITS
ComfyUI-GPT_SoVITS
ComfyUI-GPT_SoVITS是GPT-SoVITS项目的ComfyUI扩展节点,集成了语音克隆和文本转语音功能。该项目支持SRT字幕文件处理、多说话人微调和推理,可与众多ComfyUI自定义节点协同工作。项目提供Windows一键安装包,适配NVIDIA GPU和CUDA 11.8及以上版本。ComfyUI-GPT_SoVITS为用户提供了在ComfyUI环境中实现AI语音合成和克隆的便捷解决方案。