#语音合成

语通世界，BodyTalk打破语言壁垒

6 天前

BodyTalk 音频翻译语音合成

6 天前

PL-BERT学习资料汇总 - 增强文本转语音韵律的音素级BERT模型

2 个月前

PL-BERT 文本转语音自然语言模型语音合成图标预测 Github 开源项目

2 个月前

xtts2-ui学习资料汇总 - 仅需10秒语音即可实现文本语音克隆的用户界面

2 个月前

XTTS-2-UI 文本语音克隆多语言支持声音样本语音合成 Github 开源项目

2 个月前

One-Shot-Voice-Cloning学习资料汇总 - 基于Unet-TTS的一句话语音克隆框架

2 个月前

Unet-TTS 一键语音克隆风格迁移语音合成模型训练 Github 开源项目

2 个月前

FCH-TTS学习资料汇总 - 快速高质量并行语音合成模型

2 个月前

ParallelTTS 语音合成预训练模型声码器合成样例 Github 开源项目

2 个月前

awesome-audio-plaza学习资料汇总 - 音频AI技术论文和资源追踪项目

2 个月前

音频项目自然语言处理语音合成音乐生成语音识别 Github 开源项目

2 个月前

mrcp-plugin-with-freeswitch资源学习总结 - FreeSWITCH与UniMRCP Server集成讯飞语音服务入门指南

2 个月前

FreeSWITCH UniMRCP 语音识别语音合成讯飞SDK Github 开源项目

2 个月前

google-tts 学习资源汇总 - 一款强大的文本转语音 Node.js 库

2 个月前

google-tts-api Text-To-Speech node.js 音频转换语音合成 Github 开源项目

2 个月前

hass-edge-tts学习资料汇总 - 基于Microsoft Edge浏览器的免费TTS服务

2 个月前

Microsoft Edge TTS Home Assistant 语音合成配置安装 Github 开源项目

2 个月前

Comprehensive-Transformer-TTS学习资料汇总-非自回归Transformer文本转语音项目

2 个月前

TTS 非自回归变换器语音合成持续时间建模 PyTorch Github 开源项目

2 个月前

相关项目

ShortGPT

ShortGPT是一款开源工具，利用AI简化视频创建、素材搜集、语音合成和编辑任务。支持多语言配音和视频字幕生成，并能长效保存编辑变量。用户可以选择通过Google Colab快速开始，或本地运行。它集成了Moviepy、OpenAI、ElevenLabs、EdgeTTS、Pexels和Bing Image等技术，提供高效灵活的内容创作体验。

vits

VITS是一种结合变分自编码器和对抗学习的端到端TTS系统，能够提升语音合成的自然度。通过变分推理和正态化流，以及随机时长预测器，VITS实现了多样节奏的语音合成。实验结果表明，该方法在LJ Speech数据集上的表现优于现有的TTS系统，接近真实语音的水平。

StyleTTS2

StyleTTS 2是一种创新的文本到语音模型，通过样式扩散和大规模语音语言模型的对抗训练，实现高质量的语音合成。该模型利用潜在随机变量生成最适合文本的语音风格，无需参考语音，提高了语音的自然度。StyleTTS 2在单说话人和多说话人数据集上的表现超越了现有模型，并在零样本说话人适应方面表现出色。

fish-speech

Fish Speech项目是一个基于最新语音合成模型的平台，提供包括VITS2、Bert-VITS2在内的多种模型。项目代码遵循CC-BY-NC-SA-4.0许可发布，且拥有多种语言文档支持和实用的在线演示。该平台适用于学术研究和开发使用，旨在推动语音合成技术的发展并提供高质量的语音生成服务。

IMS-Toucan

IMS Toucan是由斯图加特大学自然语言处理研究所开发的一套工具集，专注于教学、培训和使用最先进的语音合成模型。该项目基于Python和PyTorch开发，旨在为初学者提供简单、强大的学习工具。此外，IMS Toucan支持多语言和多讲者音频生成，可用于文学研究、语音克隆等多种场景。

so-vits-svc

so-vits-svc是一个专注于虚拟歌声转换(SVC)的项目，不支持文本到语音(TTS)功能。该项目利用SoftVC内容编码器从源音频中提取语音特征，并通过VITS进行处理，保留了原始音频的音调和语调。此外，该项目还支持Whisper-PPG编码器和静态/动态声音融合等新功能。最新版本支持通过浅层扩散模型改善声音质量，为开发者提供了一个稳定的学习和实验平台，但不适用于商业生产环境。

Real-Time-Voice-Cloning

Real-Time Voice Cloning是一个基于深度学习的实时语音克隆工具，能够通过简短语音样本快速创建个性化语音模型。项目实现了从说话人验证到多说话人文本到语音合成的框架（SV2TTS），并配备了实时工作的声码器。适用于需要个性化语音合成的开发者和研究人员，支持多种数据集，提供预训练模型以简化使用和实验过程。

PaddleSpeech

PaddleSpeech是基于PaddlePaddle平台的开源语音处理工具集，覆盖自动语音识别、文本转语音合成、说话人确认及声音分类等多项功能，提供易于使用、高效和灵活的模型，支持各类语音相关任务。工具集包含全流程服务，支持流式识别与合成系统，为研究和工业应用提供强大支持。

TTS

🐸TTS库提供多达16种语言的高级文本到语音转换模型，支持低于200毫秒的流媒体延迟。它包含丰富的工具用于模型训练和微调，并且拥有超过1100种预训练模型，适用于多语言和多说话人TTS任务。此外，该库还支持高效的语料库分析和管理，为语音合成提供全面支持。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com