#声码器

FCH-TTS学习资料汇总 - 快速高质量并行语音合成模型

3 个月前
Cover of FCH-TTS学习资料汇总 - 快速高质量并行语音合成模型

WaveGrad入门学习资料汇总 - 基于梯度估计的高质量语音合成模型

3 个月前
Cover of WaveGrad入门学习资料汇总 - 基于梯度估计的高质量语音合成模型

UniCATS-CTX-vec2wav: 一个统一的上下文感知文本转语音框架中的声学上下文感知声码器

3 个月前
Cover of UniCATS-CTX-vec2wav: 一个统一的上下文感知文本转语音框架中的声学上下文感知声码器

Amphion: 开源音频、音乐和语音生成工具包

3 个月前
Cover of Amphion: 开源音频、音乐和语音生成工具包

FCH-TTS: 一款快速、多语言的语音合成模型

2024年08月30日
Cover of FCH-TTS: 一款快速、多语言的语音合成模型

WaveGrad: 革命性的神经网络声码器

2024年08月30日
Cover of WaveGrad: 革命性的神经网络声码器
相关项目
Project Cover

WaveGrad

WaveGrad是Google Brain开发的依托去噪扩散概率模型(DDPM)技术的高保真语音合成工具。这一项目特别适用于高迭代推理,并且能在不同硬件上包括单GPU环境进行稳定高效的训练。其主要特点包括高保真声音生成、多迭代支持及分布式训练功能。预训练模型及灵活架构配置加强了其实用性和适应性。

Project Cover

FCH-TTS

FCH-TTS采用先进的并行语音合成技术,快速生成高质量语音。支持多语种及多种声音风格,满足多样化应用需求。项目持续迭代,引入诸如SoftDTW损失函数等新功能和优化,同时集成顶尖的声码器技术。FCH-TTS不仅提供预训练模型和丰富的合成示例,还允许用户自定义训练和合成,适用于教育、娱乐及商业多个领域。

Project Cover

Amphion

Amphion是一个开源的音频、音乐和语音生成工具集,旨在支持可重复的研究并帮助研究人员和工程师入门。提供TTS、SVS、VC、SVC、TTA等生成任务,集成高级语音编码器和评估指标,如F0建模、能量建模、语音相似度测评。功能包括模型可视化、数据集建设及文本到音频/音乐的实现,推动音频生成技术应用。

Project Cover

UniCATS-CTX-vec2wav

UniCATS-CTX-vec2wav是UniCATS框架中的声学上下文感知声码器。该项目利用上下文VQ-Diffusion和声码化技术进行语音合成,提供完整的训练和推理流程。支持多GPU训练,并提供16kHz和24kHz采样率的预训练模型参数。此开源项目为研究人员和开发者提供了探索先进语音合成技术的平台。

Project Cover

alvocat-vocos-22khz

基于Vocos架构的加泰罗尼亚语音频合成器,通过80-bin Mel频谱生成高质量音频,与多种TTS模型兼容,专为从mel频谱到音频波形的转换而设计,训练于三种加泰罗尼亚语数据集,可作为hifi-gan的高效替代方案。

Project Cover

tts-hifigan-ljspeech

此项目提供基于LJSpeech数据集训练的HiFIGAN声码器,可将声谱图转换为波形,适用于语音合成过程中的应用。模型针对单一发声者设计,但在一定程度上支持多发声者。建议使用22050 Hz采样率的输入数据,并参考SpeechBrain教程快速上手。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号