#BigVGAN

BigVGAN - 大规模训练的通用神经网络声码器

Github开源项目深度学习语音合成音频处理神经声码器BigVGAN

BigVGAN是一个通过大规模训练实现的通用神经网络声码器。它可高质量合成多语言语音、环境声音和乐器声音等多种音频。项目提供多个预训练模型，支持44kHz采样率和512倍上采样比率。BigVGAN集成自定义CUDA内核，在单个A100 GPU上推理速度提升1.5-3倍。

lora-svc - 开源AI歌声转换系统，结合Whisper和BigVGAN的先进技术

人工智能Github开源项目WhisperSinging Voice ConversionLoRABigVGAN

lora-svc是一个开源的歌声转换系统，集成了OpenAI的Whisper、Nvidia的BigVGAN和Microsoft的Adapter技术。该项目利用多语言语音识别、反混叠语音生成和高效微调等技术，实现高质量的声音转换。lora-svc提供完整的数据处理、模型训练和推理流程，支持自定义训练和灵活推理，适合研究声音转换技术的开发者和研究人员使用。

bigvgan_v2_24khz_100band_256x - 大规模训练的通用神经声码器

Github开源项目PyTorch音频合成模型GradioHuggingface神经声码器BigVGAN

该项目通过大规模训练为神经声码器领域带来了新的发展。其自定义的CUDA内核实现了1.5至3倍的推理速度提升，满足高效应用需求。利用多尺度的子频段判别器和梅尔谱损失进行训练，适应多种音频环境，涵盖多语言语音和环境音等。项目还集成至Hugging Face Hub，提供预训练模型和交互式演示，支持最高24 kHz的采样率和多种频段配置，为语音合成领域的研究者和开发者提供便利。

bigvgan_v2_22khz_80band_256x - 大规模训练的通用神经网络声码器高性能音频生成模型

Github开源项目预训练模型CUDA加速音频生成模型Huggingface神经声码器BigVGAN

BigVGAN是一个通用神经网络声码器,支持高达44kHz采样率和512倍上采样。其最新版本优化了推理速度,改进了模型结构,并使用大规模多样化数据集训练。该模型在语音合成基准测试中表现出色,为音频生成任务提供了高性能解决方案。

bigvgan_v2_44khz_128band_512x - 神经网络声码器支持多采样率和高倍上采样比音频生成

Github开源项目深度学习语音合成模型Huggingface神经声码器语音生成BigVGAN

BigVGAN-v2是一款神经网络声码器，支持44kHz采样率和512倍上采样比。它使用自定义CUDA内核加速推理，采用多尺度子带CQT判别器和梅尔频谱图损失训练。该模型在多语言语音、环境声音和乐器的大规模数据集上训练，提供多种音频配置的预训练检查点。BigVGAN-v2与Hugging Face Hub集成，提供便捷的使用方式和交互式演示。

bigvgan_base_22khz_80band - 支持多采样率的通用神经声码器音频合成系统

Github开源项目PyTorch语音合成音频生成模型Huggingface神经声码器BigVGAN

BigVGAN是一个基于PyTorch的神经声码器项目，通过大规模数据训练实现音频合成。该模型支持44kHz采样率和512倍上采样，集成CUDA推理加速，可处理语音、环境声音和乐器等音频。项目提供多种预训练模型，覆盖不同采样率和mel频带参数配置，适用于多样化的音频生成需求。

相关文章

Article Cover

BigVGAN: 一种通用的神经声码器

Article Cover

lora-svc: 基于Whisper的新一代歌声转换技术

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号