#语音合成

Tacotron 入门学习资料 - 端到端语音合成模型简介

2 个月前
Cover of Tacotron 入门学习资料 - 端到端语音合成模型简介

Transformer-TTS入门指南 - 基于Transformer的神经网络语音合成实现

2 个月前
Cover of Transformer-TTS入门指南 - 基于Transformer的神经网络语音合成实现

DiffWave学习资源汇总 - 快速高质量的神经声码器与波形合成器

2 个月前
Cover of DiffWave学习资源汇总 - 快速高质量的神经声码器与波形合成器

Athena入门学习资料 - 开源端到端语音处理引擎

2 个月前
Cover of Athena入门学习资料 - 开源端到端语音处理引擎

Multilingual_Text_to_Speech学习资料汇总 - 支持多语言实验的Tacotron 2实现

2 个月前
Cover of Multilingual_Text_to_Speech学习资料汇总 - 支持多语言实验的Tacotron 2实现

TTSKit 入门学习资料 - 一款强大的文本转语音工具包

2 个月前
Cover of TTSKit 入门学习资料 - 一款强大的文本转语音工具包

edge-TTS-record入门指南 - 录制Microsoft Edge TTS语音的Windows工具

2 个月前
Cover of edge-TTS-record入门指南 - 录制Microsoft Edge TTS语音的Windows工具

ekho学习资料汇总 - 中文语音合成引擎

2 个月前
Cover of ekho学习资料汇总 - 中文语音合成引擎

awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦

2 个月前
Cover of awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦

RHVoice学习资料汇总 - 免费开源的多语言语音合成器

2 个月前
Cover of RHVoice学习资料汇总 - 免费开源的多语言语音合成器
相关项目
Project Cover

matxa-tts-cat-multiaccent

Matxa-TTS提供用于多说话人和多方言加泰罗尼亚语音合成的开源TTS模型,适用于生成高质量的巴利阿里、中部、北西部和瓦伦西亚方言语音。模型采用了U-Net为骨干的编码器-解码器架构,并使用开放数据进行训练,仅允许非商业用途。通过最优传输条件流匹配技术,实现了高效合成。

Project Cover

Rubii AI

Rubii AI平台支持个性化二次元角色的创作和互动,拥有先进的模型、长期记忆功能、卓越语音合成及图像生成技术。平台提供探索、瞬间捕捉、角色创作及记忆管理功能,让用户畅享丰富的社区体验。

Project Cover

xphonebert-base

XPhoneBERT是一个面向文本转语音的多语言音素表示预训练模型。它基于BERT-base架构,利用RoBERTa预训练方法在近100种语言的3.3亿音素级句子上进行训练。实验结果显示,将XPhoneBERT作为输入音素编码器能够显著提高神经网络TTS模型的自然度和韵律表现。此外,该模型还能在有限的训练数据条件下生成高质量语音。XPhoneBERT支持多语言文本到音素序列的转换,为跨语言语音合成提供了有力支持。

Project Cover

呱呱有声制作平台

呱呱有声制作平台为用户提供高效的语音制作工具,整合人机结合全流程、语音合成和虚拟录音棚等功能。支持多种音色选择和中英文混读,解决创作瓶颈,使无专业基础的用户也能轻松转化文本为作品。平台管理功能透明,简化操作,实现大规模快速制作有声内容。

Project Cover

MeloTTS-Spanish

MeloTTS是一个开源的多语言文本转语音框架,支持英语(含美式、英式、印度、澳洲变体)、西班牙语、法语、中文、日语和韩语等语言转换。系统可在CPU环境下实现实时推理,其中中文模型支持中英混合输入。该框架提供Hugging Face在线体验和本地部署方案,采用MIT许可证发布。

Project Cover

bigvgan_base_22khz_80band

BigVGAN是一个基于PyTorch的神经声码器项目,通过大规模数据训练实现音频合成。该模型支持44kHz采样率和512倍上采样,集成CUDA推理加速,可处理语音、环境声音和乐器等音频。项目提供多种预训练模型,覆盖不同采样率和mel频带参数配置,适用于多样化的音频生成需求。

Project Cover

tts-hifigan-ljspeech

此项目提供基于LJSpeech数据集训练的HiFIGAN声码器,可将声谱图转换为波形,适用于语音合成过程中的应用。模型针对单一发声者设计,但在一定程度上支持多发声者。建议使用22050 Hz采样率的输入数据,并参考SpeechBrain教程快速上手。

Project Cover

parler-tts-large-v1

Parler-TTS Large v1是一个基于22亿参数、45K小时音频数据训练的文本转语音模型。通过文本提示可控制语音的性别、噪音、语速等特征,内置34个预设发音人。项目开源了完整训练资源和数据处理代码,采用Apache 2.0许可证发布。

Project Cover

MeloTTS-French

MeloTTS是一款多语言文本转语音库,支持包括英语(美式、英式、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语在内的多种语言和口音。该库具备中英混合语音合成功能,并支持CPU实时推理。开发者可通过简洁的Python代码接口使用MeloTTS,实现多样化的语音合成应用。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号