#音频生成

bark - 先进的多语言文本转语音和音频生成AI模型

Huggingface模型人工智能Github多语言Bark开源项目音频生成文本转语音

Bark是Suno开发的基于transformer的文本转音频AI模型，能生成逼真的多语言语音、音乐、背景音和简单音效，还可模拟笑声、叹息等非语言交流。该模型提供预训练检查点供研究使用，输出未经审查。研究人员可通过Transformers或原始Bark库在本地运行，灵活易用。Bark代表了文本转语音技术的重要进展，为相关研究和应用提供了新的可能性。

bark-small - 高性能多语言文本转语音模型

模型Github音频生成Bark开源项目Huggingface文本转语音多语言人工智能

bark-small是Suno开发的基于transformer的文本转音频模型。它可生成高度逼真的多语言语音、音乐、背景噪音和简单音效，还能产生笑声、叹息等非语言交流。该模型支持多种语言，主要用于研究目的。用户可通过Hugging Face Transformers库或原始Bark库运行推理，生成24kHz的语音波形。bark-small提供了便捷的使用方法，适合进行文本转语音相关研究和实验。

stable-audio-open-1.0 - 开源文本转音频模型支持44.1kHz立体声和最长47秒音频生成

音乐创作机器学习人工智能Stable Audio Open 1.0GithubHuggingface音频生成开源项目模型

Stable Audio Open 1.0是Stability AI推出的开源音频生成模型，通过自编码器、T5文本嵌入和DiT扩散模型架构，将文本转换为最长47秒的44.1kHz立体声音频。模型基于48万条音频数据训练，在音效和环境音生成方面表现突出，支持stable-audio-tools和diffusers两种调用方式。现阶段仅支持英文提示词输入，不具备人声生成能力。

parler-tts-large-v1 - 开源大规模语音合成模型支持自然语言控制和多人声定制

语音合成人工智能Github自然语言处理Huggingface音频生成开源项目Parler TTS模型

Parler-TTS Large v1是一个基于22亿参数、45K小时音频数据训练的文本转语音模型。通过文本提示可控制语音的性别、噪音、语速等特征，内置34个预设发音人。项目开源了完整训练资源和数据处理代码，采用Apache 2.0许可证发布。

bigvgan_base_22khz_80band - 支持多采样率的通用神经声码器音频合成系统

Github开源项目BigVGAN语音合成PyTorch音频生成神经声码器Huggingface模型

BigVGAN是一个基于PyTorch的神经声码器项目，通过大规模数据训练实现音频合成。该模型支持44kHz采样率和512倍上采样，集成CUDA推理加速，可处理语音、环境声音和乐器等音频。项目提供多种预训练模型，覆盖不同采样率和mel频带参数配置，适用于多样化的音频生成需求。

相关文章

Article Cover

Diffusers: 最先进的扩散模型库

2024年08月30日

Article Cover

TTS Generation WebUI: 一站式文本转语音解决方案

2024年08月30日

Article Cover

MelNet: 一种创新的频域音频生成模型

2024年08月30日

Article Cover

AudioLM-PyTorch: 革命性的音频生成语言模型

2024年09月04日

Article Cover

Bark: 革命性的文本到音频生成模型

2024年09月04日

Article Cover

SoundStorm: 谷歌新一代高效并行音频生成模型

2024年09月04日

Article Cover

深入解析AudioCraft: Meta开源的音频生成AI框架

2024年09月04日

Article Cover

elevenlabslib: 全面的Python Wrapper for ElevenLabs API

2024年09月05日

Article Cover

SoundStorm-PyTorch: 高效并行音频生成的开源实现

2024年09月05日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号