vietTTS

开源越南语文本转语音系统

TTS 语音合成 HiFiGAN 越南语预训练模型 Github 开源项目

vietTTS是一个开源的越南语文本转语音系统，集成了持续时间模型、声学模型和HiFiGAN声码器。项目提供预训练模型、数据处理工具、训练脚本和合成接口，便于研究和开发。包含详细文档，涵盖安装、数据准备和模型训练，对越南语语音合成技术发展具有参考价值。项目提供在线演示和音频样例，直观展示效果。目前项目已停止更新，新版本已迁移至LightSpeed项目，其中包含新的男声模型。

访问官网

Github

Huggingface

介绍相关项目

DragonianVoice - 支持多种TTS、SVC和SVS技术的语音处理工具

DiffusionDragonianVoiceGithubOnnxSVCTTS开源项目

DragonianVoice提供TTS、SVC和SVS的Onnx框架推理库，支持C、Cpp及C#调用。项目与fish-speech联动，使用ggml框架重写。支持多种深度学习模型如Tacotron2、Vits和SoVitsSvc，并解决DmlEP推理错误。用户需遵守使用协议，确保合法合规使用开源项目。

DiffGAN-TTS - 采用去噪扩散生成对抗网络技术的文本到语音转换技术

DiffGAN-TTSGithubPyTorch多说话者TTS开源项目文本到语音训练模型

DiffGAN-TTS采用去噪扩散生成对抗网络技术，通过激活浅层扩散机制，提供了一种高效且高保真的文本到语音转换方案。该技术支持多种发音特征和语种，实现了保持语音自然度的同时，进行灵活的语音控制，包括音调和语速的调整。此技术适用于多语言和多说话人场景，为深度学习语音合成领域提供了新的可能性。

Retrieval-based-Voice-Conversion - 基于VITS的开源语音转换框架

AI语音GithubRVCVITS开源框架开源项目语音转换

Retrieval-based-Voice-Conversion是一个基于VITS的开源语音转换框架。该项目提供库、API和命令行接口，支持标准和自定义设置，允许灵活配置模型和环境。它具有详细的音频推理参数设置功能，并支持Docker部署，使语音转换技术更易于使用和实施。

hifi-gan - 基于GAN技术的语音合成技术

GithubHiFi-GAN开源项目效率生成对抗网络语音合成高保真

HiFi-GAN是一个开源项目，基于GAN技术，提供高保真且高效的语音合成解决方案。它不仅提供预训练模型，还能适应多种语音数据集，并支持灵活的配置选项。欢迎访问官方演示网站体验语音样本。

ntts - 神经文本转语音库

AI语音合成GithubNeural Text To Speechntts_dart开源项目无需互联网自然发声

ntts是一个先进的人工智能项目，使用神经网络技术实现无需互联网的语音合成。支持Ubuntu等多种操作系统，使用Dart语言开发，高度可移植。支持英语等多种语言模型，并不断更新优化性能。特别适用于无网络环境，能快速准确地输出语音。

xtts2-ui - 多语言支持的文字转语音克隆工具

GithubXTTS-2-UI声音样本多语言支持开源项目文本语音克隆语音合成

XTTS-2-UI是一个支撑16种语言的文本至语音克隆工具，仅需10秒的音频样本即可复制声音。项目易于安装与操作，适合个人和科研用途。详细安装和使用方法请参见GitHub页面。

GST-Tacotron - PyTorch实现的自动语音合成与风格控制模型

GST-TacotronGithubPyTorch中文支持多说话人数据集开源项目语音合成

GST-Tacotron是一个基于PyTorch的端到端语音合成系统实现，实现无监督风格建模、控制与转移技术。该项目已增加对Blizzard数据集的支持，同时提供了预训练模型，专门针对中文数据集进行训练。支持简单的命令行操作以训练模型和生成.wav格式的语音文件，方便研究人员和开发者在多说话人数据集上进行语音合成实验。

RealtimeTTS - 实时低延迟高质量文本转语音库

GithubRealtimeTTS低延迟多引擎支持多语言支持开源项目高质量音频

RealtimeTTS是一款低延迟、高质量的实时文本转语音库。支持OpenAI、Elevenlabs、Azure、Coqui、gTTS和系统TTS引擎，兼容多语言，适用于专业和关键场景。新增灵活定制安装选项，用户可以选择所需功能模块。通过回退机制确保持续运行，完美兼容大语言模型，实现即时文本流转换和清晰自然的语音输出。

RealtimeSTT_LLM_TTS - 整合语音识别与AI对话的开源项目

GPU支持GithubRealtimeSTT唤醒词实时转录开源项目语音转文字

该项目集成语音识别、AI对话和语音合成,支持GPU加速以实现低延迟交互。具备语音检测、实时转录和唤醒词等功能,可用于开发语音助手和AI对话应用。Web界面支持个性化配置,适合快速构建语音交互系统。

E2-TTS - 非自回归零样本TTS模型简化语音合成

E2 TTSF5-TTSGithubHuggingface开源项目文本转语音模型零样本学习非自回归

E2-TTS是一个开源的文本转语音项目，采用完全非自回归方法实现零样本语音合成。该模型简化了语音生成过程，提供.pt和.safetensors格式的预训练模型。E2-TTS旨在提高语音合成效率，为研究人员和开发者提供便捷工具，推动语音技术发展。项目遵循CC-BY-NC-4.0许可，基于Emilia数据集训练。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号