#语音合成

bigvgan_base_22khz_80band - 支持多采样率的通用神经声码器音频合成系统
Github开源项目BigVGAN语音合成PyTorch音频生成神经声码器Huggingface模型
BigVGAN是一个基于PyTorch的神经声码器项目,通过大规模数据训练实现音频合成。该模型支持44kHz采样率和512倍上采样,集成CUDA推理加速,可处理语音、环境声音和乐器等音频。项目提供多种预训练模型,覆盖不同采样率和mel频带参数配置,适用于多样化的音频生成需求。
MeloTTS-Spanish - 基于CPU实时推理的多语言文本转语音系统
语音合成文字转语音开源项目模型人工智能Huggingface多语言支持MeloTTSGithub
MeloTTS是一个开源的多语言文本转语音框架,支持英语(含美式、英式、印度、澳洲变体)、西班牙语、法语、中文、日语和韩语等语言转换。系统可在CPU环境下实现实时推理,其中中文模型支持中英混合输入。该框架提供Hugging Face在线体验和本地部署方案,采用MIT许可证发布。
呱呱有声制作平台 - 提升效率的整合式语音制作平台
AI工具呱呱有声制作平台语音合成虚拟录音棚AI主播全链条数据
呱呱有声制作平台为用户提供高效的语音制作工具,整合人机结合全流程、语音合成和虚拟录音棚等功能。支持多种音色选择和中英文混读,解决创作瓶颈,使无专业基础的用户也能轻松转化文本为作品。平台管理功能透明,简化操作,实现大规模快速制作有声内容。
xphonebert-base - 基于BERT的多语言语音合成音素表示预训练模型
语音合成开源项目预训练模型XPhoneBERTGithub模型Huggingface多语言模型音素表示
XPhoneBERT是一个面向文本转语音的多语言音素表示预训练模型。它基于BERT-base架构,利用RoBERTa预训练方法在近100种语言的3.3亿音素级句子上进行训练。实验结果显示,将XPhoneBERT作为输入音素编码器能够显著提高神经网络TTS模型的自然度和韵律表现。此外,该模型还能在有限的训练数据条件下生成高质量语音。XPhoneBERT支持多语言文本到音素序列的转换,为跨语言语音合成提供了有力支持。
Rubii AI - 深入体验二次元世界的角色创作与互动
AI工具Rubii AIAI创作二次元角色语音合成图像生成
Rubii AI平台支持个性化二次元角色的创作和互动,拥有先进的模型、长期记忆功能、卓越语音合成及图像生成技术。平台提供探索、瞬间捕捉、角色创作及记忆管理功能,让用户畅享丰富的社区体验。
matxa-tts-cat-multiaccent - 提供首个多说话人、多方言加泰罗尼亚TTS模型
语音合成开源项目模型Github非自回归模型Huggingface声学建模多方言Matxa-TTS
Matxa-TTS提供用于多说话人和多方言加泰罗尼亚语音合成的开源TTS模型,适用于生成高质量的巴利阿里、中部、北西部和瓦伦西亚方言语音。模型采用了U-Net为骨干的编码器-解码器架构,并使用开放数据进行训练,仅允许非商业用途。通过最优传输条件流匹配技术,实现了高效合成。