#音频生成
bark - 先进的多语言文本转语音和音频生成AI模型
Huggingface模型人工智能Github多语言Bark开源项目音频生成文本转语音
Bark是Suno开发的基于transformer的文本转音频AI模型,能生成逼真的多语言语音、音乐、背景音和简单音效,还可模拟笑声、叹息等非语言交流。该模型提供预训练检查点供研究使用,输出未经审查。研究人员可通过Transformers或原始Bark库在本地运行,灵活易用。Bark代表了文本转语音技术的重要进展,为相关研究和应用提供了新的可能性。
bark-small - 高性能多语言文本转语音模型
模型Github音频生成Bark开源项目Huggingface文本转语音多语言人工智能
bark-small是Suno开发的基于transformer的文本转音频模型。它可生成高度逼真的多语言语音、音乐、背景噪音和简单音效,还能产生笑声、叹息等非语言交流。该模型支持多种语言,主要用于研究目的。用户可通过Hugging Face Transformers库或原始Bark库运行推理,生成24kHz的语音波形。bark-small提供了便捷的使用方法,适合进行文本转语音相关研究和实验。
stable-audio-open-1.0 - 开源文本转音频模型支持44.1kHz立体声和最长47秒音频生成
音乐创作机器学习人工智能Stable Audio Open 1.0GithubHuggingface音频生成开源项目模型
Stable Audio Open 1.0是Stability AI推出的开源音频生成模型,通过自编码器、T5文本嵌入和DiT扩散模型架构,将文本转换为最长47秒的44.1kHz立体声音频。模型基于48万条音频数据训练,在音效和环境音生成方面表现突出,支持stable-audio-tools和diffusers两种调用方式。现阶段仅支持英文提示词输入,不具备人声生成能力。
parler-tts-large-v1 - 开源大规模语音合成模型支持自然语言控制和多人声定制
语音合成人工智能Github自然语言处理Huggingface音频生成开源项目Parler TTS模型
Parler-TTS Large v1是一个基于22亿参数、45K小时音频数据训练的文本转语音模型。通过文本提示可控制语音的性别、噪音、语速等特征,内置34个预设发音人。项目开源了完整训练资源和数据处理代码,采用Apache 2.0许可证发布。
bigvgan_base_22khz_80band - 支持多采样率的通用神经声码器音频合成系统
Github开源项目BigVGAN语音合成PyTorch音频生成神经声码器Huggingface模型
BigVGAN是一个基于PyTorch的神经声码器项目,通过大规模数据训练实现音频合成。该模型支持44kHz采样率和512倍上采样,集成CUDA推理加速,可处理语音、环境声音和乐器等音频。项目提供多种预训练模型,覆盖不同采样率和mel频带参数配置,适用于多样化的音频生成需求。
相关文章
Diffusers: 最先进的扩散模型库
2024年08月30日
TTS Generation WebUI: 一站式文本转语音解决方案
2024年08月30日
MelNet: 一种创新的频域音频生成模型
2024年08月30日
AudioLM-PyTorch: 革命性的音频生成语言模型
2024年09月04日
Bark: 革命性的文本到音频生成模型
2024年09月04日
SoundStorm: 谷歌新一代高效并行音频生成模型
2024年09月04日
深入解析AudioCraft: Meta开源的音频生成AI框架
2024年09月04日
elevenlabslib: 全面的Python Wrapper for ElevenLabs API
2024年09月05日
SoundStorm-PyTorch: 高效并行音频生成的开源实现
2024年09月05日