#语音合成

Tacotron 入门学习资料 - 端到端语音合成模型简介

2 个月前

Tacotron 语音合成 Google Sound Understanding Brain teams Github 开源项目

2 个月前

Transformer-TTS入门指南 - 基于Transformer的神经网络语音合成实现

2 个月前

Transformer-TTS 语音合成神经网络 PyTorch Tacotron Github 开源项目

2 个月前

DiffWave学习资源汇总 - 快速高质量的神经声码器与波形合成器

2 个月前

DiffWave 语音合成神经声码器波形合成器预训练模型 Github 开源项目

2 个月前

Athena入门学习资料 - 开源端到端语音处理引擎

2 个月前

Athena 语音处理自动语音识别语音合成端到端模型 Github 开源项目

2 个月前

Multilingual_Text_to_Speech学习资料汇总 - 支持多语言实验的Tacotron 2实现

2 个月前

多语言文本转语音 Tacotron 2 语音合成神经网络模型 Meta-learning Github 开源项目

2 个月前

TTSKit 入门学习资料 - 一款强大的文本转语音工具包

2 个月前

ttskit 语音合成命令行接口 WEB接口 SDK接口 Github 开源项目

2 个月前

edge-TTS-record入门指南 - 录制Microsoft Edge TTS语音的Windows工具

2 个月前

edge-TTS-record Microsoft Edge 语音合成在线音频录制 Github 开源项目

2 个月前

ekho学习资料汇总 - 中文语音合成引擎

2 个月前

Ekho 语音合成 eGuideDog 中文TTS 声音文件 Github 开源项目

2 个月前

awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦

2 个月前

语音识别语音合成深度学习神经网络自动语音识别 Github 开源项目

2 个月前

RHVoice学习资料汇总 - 免费开源的多语言语音合成器

2 个月前

RHVoice 语音合成开源多语言支持跨平台 Github 开源项目

2 个月前

相关项目

matxa-tts-cat-multiaccent

Matxa-TTS提供用于多说话人和多方言加泰罗尼亚语音合成的开源TTS模型，适用于生成高质量的巴利阿里、中部、北西部和瓦伦西亚方言语音。模型采用了U-Net为骨干的编码器-解码器架构，并使用开放数据进行训练，仅允许非商业用途。通过最优传输条件流匹配技术，实现了高效合成。

Rubii AI

Rubii AI平台支持个性化二次元角色的创作和互动，拥有先进的模型、长期记忆功能、卓越语音合成及图像生成技术。平台提供探索、瞬间捕捉、角色创作及记忆管理功能，让用户畅享丰富的社区体验。

xphonebert-base

XPhoneBERT是一个面向文本转语音的多语言音素表示预训练模型。它基于BERT-base架构，利用RoBERTa预训练方法在近100种语言的3.3亿音素级句子上进行训练。实验结果显示，将XPhoneBERT作为输入音素编码器能够显著提高神经网络TTS模型的自然度和韵律表现。此外，该模型还能在有限的训练数据条件下生成高质量语音。XPhoneBERT支持多语言文本到音素序列的转换，为跨语言语音合成提供了有力支持。

呱呱有声制作平台

呱呱有声制作平台为用户提供高效的语音制作工具，整合人机结合全流程、语音合成和虚拟录音棚等功能。支持多种音色选择和中英文混读，解决创作瓶颈，使无专业基础的用户也能轻松转化文本为作品。平台管理功能透明，简化操作，实现大规模快速制作有声内容。

MeloTTS-Spanish

MeloTTS是一个开源的多语言文本转语音框架，支持英语(含美式、英式、印度、澳洲变体)、西班牙语、法语、中文、日语和韩语等语言转换。系统可在CPU环境下实现实时推理，其中中文模型支持中英混合输入。该框架提供Hugging Face在线体验和本地部署方案，采用MIT许可证发布。

bigvgan_base_22khz_80band

BigVGAN是一个基于PyTorch的神经声码器项目，通过大规模数据训练实现音频合成。该模型支持44kHz采样率和512倍上采样，集成CUDA推理加速，可处理语音、环境声音和乐器等音频。项目提供多种预训练模型，覆盖不同采样率和mel频带参数配置，适用于多样化的音频生成需求。

tts-hifigan-ljspeech

此项目提供基于LJSpeech数据集训练的HiFIGAN声码器，可将声谱图转换为波形，适用于语音合成过程中的应用。模型针对单一发声者设计，但在一定程度上支持多发声者。建议使用22050 Hz采样率的输入数据，并参考SpeechBrain教程快速上手。

parler-tts-large-v1

Parler-TTS Large v1是一个基于22亿参数、45K小时音频数据训练的文本转语音模型。通过文本提示可控制语音的性别、噪音、语速等特征，内置34个预设发音人。项目开源了完整训练资源和数据处理代码，采用Apache 2.0许可证发布。

MeloTTS-French

MeloTTS是一款多语言文本转语音库，支持包括英语（美式、英式、印度、澳大利亚）、西班牙语、法语、中文、日语和韩语在内的多种语言和口音。该库具备中英混合语音合成功能，并支持CPU实时推理。开发者可通过简洁的Python代码接口使用MeloTTS，实现多样化的语音合成应用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com