#神经声码器

WaveGrad入门学习资料 - 基于梯度估计的高质量神经网络声码器

2 个月前

WaveGrad 神经声码器高质量合成多GPU训练预训练模型 Github 开源项目

2 个月前

voicefixer_main - 语音修复框架学习资料汇总 - 基于神经声码器的通用语音修复方法

2 个月前

VoiceFixer 语音恢复训练评估神经声码器 Github 开源项目

2 个月前

DiffWave学习资源汇总 - 快速高质量的神经声码器与波形合成器

2 个月前

DiffWave 语音合成神经声码器波形合成器预训练模型 Github 开源项目

2 个月前

VoiceFixer 入门学习资料 - 通用语音修复工具

2 个月前

VoiceFixer 语音修复神经声码器语音处理预训练模型 Github 开源项目

2 个月前

PhaseAug:基于相位增强的语音合成差异化增强技术

3 个月前

PhaseAug 语音合成神经声码器相位旋转一对多映射 Github 开源项目

3 个月前

BigVSAN: 提升GAN神经声码器的新突破

3 个月前

BigVSAN 神经声码器 GAN 语音合成深度学习 Github 开源项目

3 个月前

Vocos: 革新神经语音合成的高效率声码器

3 个月前

Vocos 神经声码器音频合成深度学习语音技术 Github 开源项目

3 个月前

BigVGAN: 一种通用的神经声码器

3 个月前

BigVGAN 神经声码器语音合成深度学习音频处理 Github 开源项目

3 个月前

WaveGrad: 一种创新的神经声码器技术

3 个月前

WaveGrad 神经声码器高质量合成多GPU训练预训练模型 Github 开源项目

3 个月前

VoiceFixer: 一个通用的语音修复框架

3 个月前

VoiceFixer 语音恢复训练评估神经声码器 Github 开源项目

3 个月前

相关项目

wavegrad

WaveGrad是由Google Brain团队设计的神经声码器，专业于将对数缩放的Mel频谱图转换为波形。此项目提供稳定训练、合成、混合精度训练以及多GPU支持，且支持命令行和API推理接口，配备预训练模型。易于安装，支持通过pip和GitHub进行安装。其多GPU训练和混合精度训练提升了处理效率，适合需进行高效音频处理的开发者。

voicefixer

Voicefixer，一款基于神经声码器的预训练工具，可处理多种语音退化问题，包括噪音、混响、低分辨率及削波效应。支持44.1kHz的通用神经声码器，适用于各种应用场景，如命令行、桌面客户端及Python脚本。

diffwave

DiffWave是一种基于迭代精细化的神经语音合成器，能从高斯噪声生成语音。支持多GPU和混合精度训练，提供命令行和程序化推理接口，并配有模型和音频样本。

voicefixer_main

VoiceFixer 为一款专业语音修复框架，致力于修复严重退化或历史性语音。集成多种先进算法，适用于去噪音、消除回声、提升语音清晰度等多种场景，提供灵活的配置和广泛的测试支持。

BigVGAN

BigVGAN是一个通过大规模训练实现的通用神经网络声码器。它可高质量合成多语言语音、环境声音和乐器声音等多种音频。项目提供多个预训练模型，支持44kHz采样率和512倍上采样比率。BigVGAN集成自定义CUDA内核，在单个A100 GPU上推理速度提升1.5-3倍。

vocos

Vocos是一款创新的神经声码器，通过生成频谱系数而非时域样本来合成音频波形。它采用GAN训练，支持从梅尔频谱图和EnCodec令牌重建音频，实现了快速高效的音频合成。Vocos的独特设计弥合了时域和傅里叶域神经声码器之间的差距，为音频合成领域提供了新的解决方案。

bigvsan

BigVSAN项目结合GAN神经声码器和切片对抗网络，旨在提高音频生成质量。该项目基于LibriTTS数据集训练，提供预训练模型及完整的代码实现。包括训练、评估和推理功能，并附有详细使用说明。在多项客观评估指标中，BigVSAN展现出优秀性能，为语音合成技术开辟新方向。

phaseaug

PhaseAug是一种新型差分增强技术，通过旋转频率区间相位来模拟语音合成的一对多映射关系。这种方法有效缓解了传统GAN语音合成器的过拟合问题，提高了生成音频质量。PhaseAug无需修改模型架构即可超越基准性能，为语音合成领域提供了新的研究方向，有助于提升合成语音的自然度和多样性。

bigvgan_v2_24khz_100band_256x

该项目通过大规模训练为神经声码器领域带来了新的发展。其自定义的CUDA内核实现了1.5至3倍的推理速度提升，满足高效应用需求。利用多尺度的子频段判别器和梅尔谱损失进行训练，适应多种音频环境，涵盖多语言语音和环境音等。项目还集成至Hugging Face Hub，提供预训练模型和交互式演示，支持最高24 kHz的采样率和多种频段配置，为语音合成领域的研究者和开发者提供便利。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com