#BigVGAN
BigVGAN - 大规模训练的通用神经网络声码器
Github开源项目深度学习语音合成音频处理神经声码器BigVGAN
BigVGAN是一个通过大规模训练实现的通用神经网络声码器。它可高质量合成多语言语音、环境声音和乐器声音等多种音频。项目提供多个预训练模型,支持44kHz采样率和512倍上采样比率。BigVGAN集成自定义CUDA内核,在单个A100 GPU上推理速度提升1.5-3倍。
lora-svc - 开源AI歌声转换系统,结合Whisper和BigVGAN的先进技术
人工智能Github开源项目WhisperSinging Voice ConversionLoRABigVGAN
lora-svc是一个开源的歌声转换系统,集成了OpenAI的Whisper、Nvidia的BigVGAN和Microsoft的Adapter技术。该项目利用多语言语音识别、反混叠语音生成和高效微调等技术,实现高质量的声音转换。lora-svc提供完整的数据处理、模型训练和推理流程,支持自定义训练和灵活推理,适合研究声音转换技术的开发者和研究人员使用。
bigvgan_v2_24khz_100band_256x - 大规模训练的通用神经声码器
Github开源项目PyTorch音频合成模型GradioHuggingface神经声码器BigVGAN
该项目通过大规模训练为神经声码器领域带来了新的发展。其自定义的CUDA内核实现了1.5至3倍的推理速度提升,满足高效应用需求。利用多尺度的子频段判别器和梅尔谱损失进行训练,适应多种音频环境,涵盖多语言语音和环境音等。项目还集成至Hugging Face Hub,提供预训练模型和交互式演示,支持最高24 kHz的采样率和多种频段配置,为语音合成领域的研究者和开发者提供便利。
bigvgan_v2_22khz_80band_256x - 大规模训练的通用神经网络声码器 高性能音频生成模型
Github开源项目预训练模型CUDA加速音频生成模型Huggingface神经声码器BigVGAN
BigVGAN是一个通用神经网络声码器,支持高达44kHz采样率和512倍上采样。其最新版本优化了推理速度,改进了模型结构,并使用大规模多样化数据集训练。该模型在语音合成基准测试中表现出色,为音频生成任务提供了高性能解决方案。
bigvgan_v2_44khz_128band_512x - 神经网络声码器支持多采样率和高倍上采样比音频生成
Github开源项目深度学习语音合成模型Huggingface神经声码器语音生成BigVGAN
BigVGAN-v2是一款神经网络声码器,支持44kHz采样率和512倍上采样比。它使用自定义CUDA内核加速推理,采用多尺度子带CQT判别器和梅尔频谱图损失训练。该模型在多语言语音、环境声音和乐器的大规模数据集上训练,提供多种音频配置的预训练检查点。BigVGAN-v2与Hugging Face Hub集成,提供便捷的使用方式和交互式演示。
bigvgan_base_22khz_80band - 支持多采样率的通用神经声码器音频合成系统
Github开源项目PyTorch语音合成音频生成模型Huggingface神经声码器BigVGAN
BigVGAN是一个基于PyTorch的神经声码器项目,通过大规模数据训练实现音频合成。该模型支持44kHz采样率和512倍上采样,集成CUDA推理加速,可处理语音、环境声音和乐器等音频。项目提供多种预训练模型,覆盖不同采样率和mel频带参数配置,适用于多样化的音频生成需求。