#语音合成

语通世界,BodyTalk打破语言壁垒

6 天前
Cover of 语通世界,BodyTalk打破语言壁垒

PL-BERT学习资料汇总 - 增强文本转语音韵律的音素级BERT模型

2 个月前
Cover of PL-BERT学习资料汇总 - 增强文本转语音韵律的音素级BERT模型

xtts2-ui学习资料汇总 - 仅需10秒语音即可实现文本语音克隆的用户界面

2 个月前
Cover of xtts2-ui学习资料汇总 - 仅需10秒语音即可实现文本语音克隆的用户界面

One-Shot-Voice-Cloning学习资料汇总 - 基于Unet-TTS的一句话语音克隆框架

2 个月前
Cover of One-Shot-Voice-Cloning学习资料汇总 - 基于Unet-TTS的一句话语音克隆框架

FCH-TTS学习资料汇总 - 快速高质量并行语音合成模型

2 个月前
Cover of FCH-TTS学习资料汇总 - 快速高质量并行语音合成模型

awesome-audio-plaza学习资料汇总 - 音频AI技术论文和资源追踪项目

2 个月前
Cover of awesome-audio-plaza学习资料汇总 - 音频AI技术论文和资源追踪项目

mrcp-plugin-with-freeswitch资源学习总结 - FreeSWITCH与UniMRCP Server集成讯飞语音服务入门指南

2 个月前
Cover of mrcp-plugin-with-freeswitch资源学习总结 - FreeSWITCH与UniMRCP Server集成讯飞语音服务入门指南

google-tts 学习资源汇总 - 一款强大的文本转语音 Node.js 库

2 个月前
Cover of google-tts 学习资源汇总 - 一款强大的文本转语音 Node.js 库

hass-edge-tts学习资料汇总 - 基于Microsoft Edge浏览器的免费TTS服务

2 个月前
Cover of hass-edge-tts学习资料汇总 - 基于Microsoft Edge浏览器的免费TTS服务

Comprehensive-Transformer-TTS学习资料汇总-非自回归Transformer文本转语音项目

2 个月前
Cover of Comprehensive-Transformer-TTS学习资料汇总-非自回归Transformer文本转语音项目
相关项目
Project Cover

ShortGPT

ShortGPT是一款开源工具,利用AI简化视频创建、素材搜集、语音合成和编辑任务。支持多语言配音和视频字幕生成,并能长效保存编辑变量。用户可以选择通过Google Colab快速开始,或本地运行。它集成了Moviepy、OpenAI、ElevenLabs、EdgeTTS、Pexels和Bing Image等技术,提供高效灵活的内容创作体验。

Project Cover

vits

VITS是一种结合变分自编码器和对抗学习的端到端TTS系统,能够提升语音合成的自然度。通过变分推理和正态化流,以及随机时长预测器,VITS实现了多样节奏的语音合成。实验结果表明,该方法在LJ Speech数据集上的表现优于现有的TTS系统,接近真实语音的水平。

Project Cover

StyleTTS2

StyleTTS 2是一种创新的文本到语音模型,通过样式扩散和大规模语音语言模型的对抗训练,实现高质量的语音合成。该模型利用潜在随机变量生成最适合文本的语音风格,无需参考语音,提高了语音的自然度。StyleTTS 2在单说话人和多说话人数据集上的表现超越了现有模型,并在零样本说话人适应方面表现出色。

Project Cover

fish-speech

Fish Speech项目是一个基于最新语音合成模型的平台,提供包括VITS2、Bert-VITS2在内的多种模型。项目代码遵循CC-BY-NC-SA-4.0许可发布,且拥有多种语言文档支持和实用的在线演示。该平台适用于学术研究和开发使用,旨在推动语音合成技术的发展并提供高质量的语音生成服务。

Project Cover

IMS-Toucan

IMS Toucan是由斯图加特大学自然语言处理研究所开发的一套工具集,专注于教学、培训和使用最先进的语音合成模型。该项目基于Python和PyTorch开发,旨在为初学者提供简单、强大的学习工具。此外,IMS Toucan支持多语言和多讲者音频生成,可用于文学研究、语音克隆等多种场景。

Project Cover

so-vits-svc

so-vits-svc是一个专注于虚拟歌声转换(SVC)的项目,不支持文本到语音(TTS)功能。该项目利用SoftVC内容编码器从源音频中提取语音特征,并通过VITS进行处理,保留了原始音频的音调和语调。此外,该项目还支持Whisper-PPG编码器和静态/动态声音融合等新功能。最新版本支持通过浅层扩散模型改善声音质量,为开发者提供了一个稳定的学习和实验平台,但不适用于商业生产环境。

Project Cover

Real-Time-Voice-Cloning

Real-Time Voice Cloning是一个基于深度学习的实时语音克隆工具,能够通过简短语音样本快速创建个性化语音模型。项目实现了从说话人验证到多说话人文本到语音合成的框架(SV2TTS),并配备了实时工作的声码器。适用于需要个性化语音合成的开发者和研究人员,支持多种数据集,提供预训练模型以简化使用和实验过程。

Project Cover

PaddleSpeech

PaddleSpeech是基于PaddlePaddle平台的开源语音处理工具集,覆盖自动语音识别、文本转语音合成、说话人确认及声音分类等多项功能,提供易于使用、高效和灵活的模型,支持各类语音相关任务。工具集包含全流程服务,支持流式识别与合成系统,为研究和工业应用提供强大支持。

Project Cover

TTS

🐸TTS库提供多达16种语言的高级文本到语音转换模型,支持低于200毫秒的流媒体延迟。它包含丰富的工具用于模型训练和微调,并且拥有超过1100种预训练模型,适用于多语言和多说话人TTS任务。此外,该库还支持高效的语料库分析和管理,为语音合成提供全面支持。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号