#文本到语音
EmotiVoice - 开源多声音、情感合成的文本转语音引擎
EmotiVoice文本到语音情感合成开源多声音Github开源项目热门
EmotiVoice是一款功能强大的开源文本转语音(TTS)引擎,支持中英文,并配备超过2000种声音选项。其最显著的特点是情感合成功能,用户可以创建表达各种情绪的语音,如快乐、激动、悲伤和愤怒等。EmotiVoice提供易于使用的Web界面和脚本接口,适用于批量生成结果,同时还支持语音速度调整,提供Mac应用程序和HTTP API,增设免费调用次数。
ElevenLabs - AI语音生成与文本转语音平台
热门AI音频音频生成AI工具ElevenLabs人工智能配音文本到语音语音克隆
ElevenLabs 提供先进的文本到语音和AI语音生成服务,支持多种语言和声音。真实且响应迅速的人声模拟,可广泛应用于内容创作、客户互动等领域,突破语言壁垒,优化数字交互。
StyleTTS - 多样化的文本到语音合成
StyleTTS文本到语音自然语言处理情感语调语音合成Github开源项目
StyleTTS是一款高效的文本到语音合成工具,能够从参考语音中学习并再现其语调与情感,同时确保语音自然和说话者之间的高度相似度。
tacotron - 端到端文本转语音合成模型实现
Tacotron文本到语音TensorFlow训练数据集语音合成Github开源项目
基于TensorFlow的Tacotron模型,是一个全面的端对端文本转语音合成系统。该模型涵盖多种数据集,运用现代深度学习与注意力机制优化文本到语音的高质量转换,适用于学术研究与商业应用。
vits_chinese - 基于BERT和VITS技术的文本到语音合成系统
TTSBERTVITS文本到语音自然语言处理Github开源项目
vits_chinese项目引入了BERT和VITS技术,通过隐藏的韵律嵌入和自然语言特性,显著提高了文本到语音合成的音质和自然度。此项目不只适于高质量音频生成,也提供模块化蒸馏加速和在线演示,便利学习和开发人员的应用。
MsEdgeTTS - 微软Edge朗读API的高效文字转语音模块
MsEdgeTTS文本到语音Microsoft EdgeAzure Speech ServiceSSMLGithub开源项目
MsEdgeTTS是一个基于Azure语音服务的简易模块,通过Microsoft Edge的朗读API实现文字转语音,支持speak、voice、prosody等SSML元素。项目提供多种音频输出格式,并通过详细的API文档和示例,便于用户有效集成及使用。
StyleSpeech - 多说话人自适应文本转语音生成
Meta-StyleSpeech文本到语音自适应预训练模型音质Github开源项目
Meta-StyleSpeech项目结合最新的多说话者适应性文本到语音合成技术,通过样本少量的语音输入即可生成高质量合成语音。该项目运用风格自适应层归一化技术,高效适配不同说话者的声音特征。提供预训练模型和在线演示供实际应用测试。
DiffGAN-TTS - 采用去噪扩散生成对抗网络技术的文本到语音转换技术
DiffGAN-TTS文本到语音PyTorch多说话者TTS训练模型Github开源项目
DiffGAN-TTS采用去噪扩散生成对抗网络技术,通过激活浅层扩散机制,提供了一种高效且高保真的文本到语音转换方案。该技术支持多种发音特征和语种,实现了保持语音自然度的同时,进行灵活的语音控制,包括音调和语速的调整。此技术适用于多语言和多说话人场景,为深度学习语音合成领域提供了新的可能性。
vits2 - 单阶段文本转语音系统的效率与质量提升
VITS2文本到语音单阶段模型自然语言处理SK TelecomGithub开源项目
VITS2项目融合了对抗学习与结构设计,在单阶段文本转语音技术上实现了显著的质量与效率提升。此模型通过结构和训练机制的优化,增强了语音的自然感和多讲者语音特征的匹配度,并提高了训练及推理速度。VITS2的创新技术显著降低了对音素转换的依赖,支持了完整的端到端处理。
voice-builder - 开源文本转语音 (TTS) 工具
Voice Builder文本到语音Google Cloud Platform开源项目合成声音Github
Voice Builder是一个开源的文本到语音转换工具,旨在通过简化用户界面和增强工具灵活性,让用户轻松进行语音合成实验。它使得音声合成更加便捷,特别是支持低资源语言,有效促进技术研究与跨领域协作。
GenerSpeech - 文本转语音模型,可实现 OOD 自定义语音的高保真零样本样式传输
GenerSpeech文本到语音风格转换零样本学习多GPU支持Github开源项目
GenerSpeech: PyTorch实现的NeurIPS 2022文本到语音模型,专注于无监督出域场景下的高保真样式转换。提供多层级样式转换、优化的模型泛化功能,并支持多GPU环境。完整指南及音频样例可在线获取,助您快速实施和部署。
megatts2 - Megatts2 的非官方实现,多语种语音合成训练
Megatts2文本到语音Pytorch-lightning数据集准备VQ-GANGithub开源项目
megatts2为Megatts2的非官方实现,支持中英文混合的深度学习语音合成训练。该项目涵盖数据处理、模型训练及语音推理,使用Pytorch-lightning框架优化训练流程,目标训练1000小时语音数据。
AIUI - AI语音交互平台,兼容桌面和移动浏览器
AIUI语音接口GPT-4GPT-3.5文本到语音Github开源项目
AIUI平台提供与AI模型的无缝双向语音通信,现支持GPT-4和GPT-3.5,兼容桌面和移动浏览器,未来将支持开放模型。在浏览器中打开应用即可开始对话,AIUI会处理语音输入并提供语音回应,实现自然连续的交互。它提供本地运行指南、环境变量配置及一键部署选项,方便快速上手。
Rodel.Agent - 集成多种AI功能的Windows桌面应用程序
Rodel AgentWindowsAI服务桌面应用文本到语音Github开源项目
Rodel Agent 是一款Windows桌面应用程序,涵盖聊天、图像生成、文本转语音和机器翻译功能,支持主流AI服务,提供卓越的桌面AI体验。开发者可使用Visual Studio 2022,依赖.NET 8和Windows App SDK 1.5。只需克隆仓库并初始化子模块即可构建项目,包含桌面UI和控制台模块,用户可自由配置服务。
Amphion - Amphion开源工具集,支持音频、音乐、语音生成及多任务评估
Amphion语音生成音乐生成文本到语音声码器Github开源项目
Amphion是一个开源的音频、音乐和语音生成工具集,旨在支持可重复的研究并帮助研究人员和工程师入门。提供TTS、SVS、VC、SVC、TTA等生成任务,集成高级语音编码器和评估指标,如F0建模、能量建模、语音相似度测评。功能包括模型可视化、数据集建设及文本到音频/音乐的实现,推动音频生成技术应用。
bark.cpp - 改进多语言文本生成的实时音频技术
bark.cpp实时多语言文本到语音模型支持Github开源项目
bark.cpp 是一个用纯 C/C++ 编写的开源项目,实现了 SunoAI 的 bark 模型,用于提供高质量的实时多语言文本到语音转换。该项目无需外部依赖,支持 AVX、AVX2 和 AVX512 指令集,兼容 CPU 和 GPU,并提供 F16/F32 混合精度和多种量化选项。用户可以轻松进行构建、下载模型和转换格式。社区成员可以通过报告问题、提出新功能或提交 pull request 来贡献代码。
hf-seamless-m4t-medium - 多语言翻译与语音识别的统一模型
Hugging FaceGithub开源项目SeamlessM4T模型多语言翻译Huggingface文本到语音语音识别
SeamlessM4T是一款多语言模型,支持101种语言的语音输入、196种语言的文本处理和35种语言的语音输出。它能进行语音到语音、语音到文本、文本到语音及文本到文本的翻译。最新的SeamlessM4T v2在翻译质量和生成速度上均有改善,为需要高效语音处理和文本翻译的场景提供了解决方案。
moshika-pytorch-bf16 - 实时全双工语音对话的AI模型革新
Github模型开源项目语音生成文本到语音对话模型Huggingface实时交互Moshi
Moshi是基于bf16的Pytorch实现的实时全双工语音对话模型,支持流式语音识别与文本到语音转换,拥有低延迟,适合自然语音交互场景。
相关文章
Tacotron: 革命性的端到端语音合成模型
2024年08月30日
VITS中文语音合成系统: 基于BERT和VITS的高质量TTS实践
2024年08月30日
Voice Builder: 开源文本转语音声音构建工具
2024年08月30日
VITS2: 改进单阶段文本转语音的质量和效率
2024年08月30日
StyleTTS 2: 突破性的人类级别文本转语音技术
2024年08月30日
DiffGAN-TTS: 高保真度和高效率的文本转语音新技术
2024年08月30日
GenerSpeech: 突破性的零样本风格迁移文本转语音模型
2024年08月30日
MsEdgeTTS: 简单而强大的微软 Edge 语音合成模块
2024年08月30日
EmotiVoice: 革新语音合成的多音色情感控制引擎
2024年08月30日