bigvgan_v2_24khz_100band_256x

大规模训练的通用神经声码器

Gradio PyTorch 开源项目模型 Github 神经声码器 Huggingface BigVGAN 音频合成

该项目通过大规模训练为神经声码器领域带来了新的发展。其自定义的CUDA内核实现了1.5至3倍的推理速度提升，满足高效应用需求。利用多尺度的子频段判别器和梅尔谱损失进行训练，适应多种音频环境，涵盖多语言语音和环境音等。项目还集成至Hugging Face Hub，提供预训练模型和交互式演示，支持最高24 kHz的采样率和多种频段配置，为语音合成领域的研究者和开发者提供便利。

访问官网

Github

Huggingface

介绍相关项目

SpecVQGAN - 使用视觉提示生成高保真声音的方法

GithubSpecVQGANTransformer代码本声谱图开源项目训练模型

SpecVQGAN项目提出了一种利用视觉提示生成声音的方法。通过将训练数据集缩小到一组代表向量（代码本），这些代码本向量可被控地进行采样，从而根据视觉提示生成新声音。项目使用VQGAN的训练方法在频谱图上训练代码本，并通过GPT-2变体的transformer在视觉特征条件下自回归地采样代码本条目。这种方法可以生成长时间、相关且高保真的声音，并支持多种数据类别。

speecht5_hifigan - 用于语音合成和声音转换的开源声码器

GithubHiFi-GANHuggingfaceSpeechT5声音转换开源项目文本转语音模型语音处理

SpeechT5 HiFi-GAN是一个专为SpeechT5文本转语音和声音转换模型开发的开源声码器。该项目采用MIT许可证，提供预训练权重，能够与SpeechT5的语音处理功能无缝集成。它为开发者和研究人员在语音合成和声音转换领域提供了实用工具。SpeechT5采用统一模态的编码器-解码器预训练方法，为口语处理技术开辟了新的研究方向。

hifi-gan - 基于GAN技术的语音合成技术

GithubHiFi-GAN开源项目效率生成对抗网络语音合成高保真

HiFi-GAN是一个开源项目，基于GAN技术，提供高保真且高效的语音合成解决方案。它不仅提供预训练模型，还能适应多种语音数据集，并支持灵活的配置选项。欢迎访问官方演示网站体验语音样本。

wavegrad - 由Google Brain设计的高效神经声码器

GithubWaveGrad多GPU训练开源项目神经声码器预训练模型高质量合成

WaveGrad是由Google Brain团队设计的神经声码器，专业于将对数缩放的Mel频谱图转换为波形。此项目提供稳定训练、合成、混合精度训练以及多GPU支持，且支持命令行和API推理接口，配备预训练模型。易于安装，支持通过pip和GitHub进行安装。其多GPU训练和混合精度训练提升了处理效率，适合需进行高效音频处理的开发者。

melgan - PyTorch实现的语音合成技术

GithubMelGANPyTorch人工智能语音合成开源项目音频处理预训练模型

MelGAN是一个在PyTorch上实现的声码器，用于转换NVIDIA tacotron2的输出成原始音频。项目提供了基于LJSpeech-1.1数据集的预训练模型，用户可通过PyTorch Hub访问和试听。适合音频合成领域的研究与开发。

WaveGrad - 高效实现高保真语音生成的WaveGrad技术

GithubWaveGrad声码器并行训练开源项目混合精度高保真生成

WaveGrad是Google Brain开发的依托去噪扩散概率模型(DDPM)技术的高保真语音合成工具。这一项目特别适用于高迭代推理，并且能在不同硬件上包括单GPU环境进行稳定高效的训练。其主要特点包括高保真声音生成、多迭代支持及分布式训练功能。预训练模型及灵活架构配置加强了其实用性和适应性。

encodec_24khz - Meta AI开发的神经网络音频编解码器

EnCodecGithubHuggingfaceMeta AI实时压缩开源项目模型神经网络音频编解码器高保真音频

EnCodec是Meta AI开发的神经网络音频编解码器，采用流式编码器-解码器架构和量化潜在空间。它使用多尺度频谱图对抗性训练，有效减少伪影，产生高质量音频样本。EnCodec在不同带宽下性能优异，适用于实时音频压缩、解码和各种音频处理应用。

metricgan-plus-voicebank - 基于MetricGAN+的开源语音增强模型实现PESQ 3.15分及STOI 93.0分

GithubHuggingfaceMetricGANPyTorchSpeechBrainVoicebank开源项目模型语音增强

MetricGAN+是一个基于SpeechBrain框架开发的语音增强模型，在Voicebank-DEMAND数据集测试中达到PESQ 3.15分和STOI 93.0分。模型支持16kHz采样率音频处理，提供Python接口实现音频降噪和质量优化。项目开源，可用于语音处理和音频增强等应用场景。

encodec_32khz - 神经网络驱动的实时音频编解码器

EnCodecGithubHuggingfaceMusicGen实时压缩开源项目模型神经网络音频编解码

EnCodec 32kHz是Meta AI研发的实时音频编解码器，采用神经网络和量化潜在空间的流式架构。该模型通过多尺度频谱图对抗机制提升音频质量，支持多种采样率和带宽设置。EnCodec不仅可独立用于音频压缩，还能与MusicGen模型结合进行音乐生成，体现了在音频处理领域的广泛应用潜力。

snac_24khz - 高效低比特率音频压缩的神经编解码器

GithubHuggingfaceSNAC开源项目模型深度学习神经网络编解码器语音合成音频压缩

SNAC是一种先进的多尺度神经音频编解码器，以0.98 kbps的超低比特率压缩24 kHz音频。它采用分层令牌方法，创新地降低了粗糙令牌的采样频率，扩大时间覆盖范围。该模型主要用于语音合成，但也提供适用于音乐和音效的高采样率版本。SNAC支持单声道音频处理，提供多个预训练模型以满足不同需求，是音频压缩和处理领域的重要工具。

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号