#BigVGAN

lora-svc: 基于Whisper的新一代歌声转换技术

3 个月前

Singing Voice Conversion Whisper BigVGAN LoRA 人工智能 Github 开源项目

3 个月前

BigVGAN: 一种通用的神经声码器

3 个月前

BigVGAN 神经声码器语音合成深度学习音频处理 Github 开源项目

3 个月前

相关项目

BigVGAN

BigVGAN是一个通过大规模训练实现的通用神经网络声码器。它可高质量合成多语言语音、环境声音和乐器声音等多种音频。项目提供多个预训练模型，支持44kHz采样率和512倍上采样比率。BigVGAN集成自定义CUDA内核，在单个A100 GPU上推理速度提升1.5-3倍。

lora-svc

lora-svc是一个开源的歌声转换系统，集成了OpenAI的Whisper、Nvidia的BigVGAN和Microsoft的Adapter技术。该项目利用多语言语音识别、反混叠语音生成和高效微调等技术，实现高质量的声音转换。lora-svc提供完整的数据处理、模型训练和推理流程，支持自定义训练和灵活推理，适合研究声音转换技术的开发者和研究人员使用。

bigvgan_v2_24khz_100band_256x

该项目通过大规模训练为神经声码器领域带来了新的发展。其自定义的CUDA内核实现了1.5至3倍的推理速度提升，满足高效应用需求。利用多尺度的子频段判别器和梅尔谱损失进行训练，适应多种音频环境，涵盖多语言语音和环境音等。项目还集成至Hugging Face Hub，提供预训练模型和交互式演示，支持最高24 kHz的采样率和多种频段配置，为语音合成领域的研究者和开发者提供便利。

bigvgan_v2_44khz_128band_512x

BigVGAN-v2是一款神经网络声码器，支持44kHz采样率和512倍上采样比。它使用自定义CUDA内核加速推理，采用多尺度子带CQT判别器和梅尔频谱图损失训练。该模型在多语言语音、环境声音和乐器的大规模数据集上训练，提供多种音频配置的预训练检查点。BigVGAN-v2与Hugging Face Hub集成，提供便捷的使用方式和交互式演示。

bigvgan_base_22khz_80band

BigVGAN是一个基于PyTorch的神经声码器项目，通过大规模数据训练实现音频合成。该模型支持44kHz采样率和512倍上采样，集成CUDA推理加速，可处理语音、环境声音和乐器等音频。项目提供多种预训练模型，覆盖不同采样率和mel频带参数配置，适用于多样化的音频生成需求。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com