#神经声码器

WaveGrad入门学习资料 - 基于梯度估计的高质量神经网络声码器

2 个月前
Cover of WaveGrad入门学习资料 - 基于梯度估计的高质量神经网络声码器

voicefixer_main - 语音修复框架学习资料汇总 - 基于神经声码器的通用语音修复方法

2 个月前
Cover of voicefixer_main - 语音修复框架学习资料汇总 - 基于神经声码器的通用语音修复方法

DiffWave学习资源汇总 - 快速高质量的神经声码器与波形合成器

2 个月前
Cover of DiffWave学习资源汇总 - 快速高质量的神经声码器与波形合成器

VoiceFixer 入门学习资料 - 通用语音修复工具

2 个月前
Cover of VoiceFixer 入门学习资料 - 通用语音修复工具

PhaseAug:基于相位增强的语音合成差异化增强技术

3 个月前
Cover of PhaseAug:基于相位增强的语音合成差异化增强技术

BigVSAN: 提升GAN神经声码器的新突破

3 个月前
Cover of BigVSAN: 提升GAN神经声码器的新突破

Vocos: 革新神经语音合成的高效率声码器

3 个月前
Cover of Vocos: 革新神经语音合成的高效率声码器

BigVGAN: 一种通用的神经声码器

3 个月前
Cover of BigVGAN: 一种通用的神经声码器

WaveGrad: 一种创新的神经声码器技术

3 个月前
Cover of WaveGrad: 一种创新的神经声码器技术

VoiceFixer: 一个通用的语音修复框架

3 个月前
Cover of VoiceFixer: 一个通用的语音修复框架
相关项目
Project Cover

wavegrad

WaveGrad是由Google Brain团队设计的神经声码器,专业于将对数缩放的Mel频谱图转换为波形。此项目提供稳定训练、合成、混合精度训练以及多GPU支持,且支持命令行和API推理接口,配备预训练模型。易于安装,支持通过pip和GitHub进行安装。其多GPU训练和混合精度训练提升了处理效率,适合需进行高效音频处理的开发者。

Project Cover

voicefixer

Voicefixer,一款基于神经声码器的预训练工具,可处理多种语音退化问题,包括噪音、混响、低分辨率及削波效应。支持44.1kHz的通用神经声码器,适用于各种应用场景,如命令行、桌面客户端及Python脚本。

Project Cover

diffwave

DiffWave是一种基于迭代精细化的神经语音合成器,能从高斯噪声生成语音。支持多GPU和混合精度训练,提供命令行和程序化推理接口,并配有模型和音频样本。

Project Cover

voicefixer_main

VoiceFixer 为一款专业语音修复框架,致力于修复严重退化或历史性语音。集成多种先进算法,适用于去噪音、消除回声、提升语音清晰度等多种场景,提供灵活的配置和广泛的测试支持。

Project Cover

BigVGAN

BigVGAN是一个通过大规模训练实现的通用神经网络声码器。它可高质量合成多语言语音、环境声音和乐器声音等多种音频。项目提供多个预训练模型,支持44kHz采样率和512倍上采样比率。BigVGAN集成自定义CUDA内核,在单个A100 GPU上推理速度提升1.5-3倍。

Project Cover

vocos

Vocos是一款创新的神经声码器,通过生成频谱系数而非时域样本来合成音频波形。它采用GAN训练,支持从梅尔频谱图和EnCodec令牌重建音频,实现了快速高效的音频合成。Vocos的独特设计弥合了时域和傅里叶域神经声码器之间的差距,为音频合成领域提供了新的解决方案。

Project Cover

bigvsan

BigVSAN项目结合GAN神经声码器和切片对抗网络,旨在提高音频生成质量。该项目基于LibriTTS数据集训练,提供预训练模型及完整的代码实现。包括训练、评估和推理功能,并附有详细使用说明。在多项客观评估指标中,BigVSAN展现出优秀性能,为语音合成技术开辟新方向。

Project Cover

phaseaug

PhaseAug是一种新型差分增强技术,通过旋转频率区间相位来模拟语音合成的一对多映射关系。这种方法有效缓解了传统GAN语音合成器的过拟合问题,提高了生成音频质量。PhaseAug无需修改模型架构即可超越基准性能,为语音合成领域提供了新的研究方向,有助于提升合成语音的自然度和多样性。

Project Cover

bigvgan_v2_24khz_100band_256x

该项目通过大规模训练为神经声码器领域带来了新的发展。其自定义的CUDA内核实现了1.5至3倍的推理速度提升,满足高效应用需求。利用多尺度的子频段判别器和梅尔谱损失进行训练,适应多种音频环境,涵盖多语言语音和环境音等。项目还集成至Hugging Face Hub,提供预训练模型和交互式演示,支持最高24 kHz的采样率和多种频段配置,为语音合成领域的研究者和开发者提供便利。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号