项目介绍:Matxa-TTS(Matcha-TTS)加泰罗尼亚多口音模型
概述
Matxa-TTS项目是一个加泰罗尼亚语多发音神经文本到语音(TTS)模型,其特色在于能够生成高质量、富有表现力的语音,并支持四种加泰罗尼亚语的不同方言:巴利阿里方言、中央方言、北西部方言以及瓦伦西亚方言。这个模型与alVoCat声码器模型协同工作,可用于非商业目的的免费使用,但商业用途需通过与语言艺术家的授权获得许可。
模型描述
Matxa-TTS基于Matcha-TTS架构,通过一个编码器-解码器架构实现快速声学建模。编码器部分包括文本编码器和音素持续时间预测,负责生成语音的声学特征。解码器采用了U-Net骨架,灵感来自于Transformer架构,通过使用1D卷积神经网络取代2D卷积,大幅减少内存消耗并实现快速合成。Matxa-TTS采用非自回归模型,利用最优传输条件流匹配进行训练,其优势在于能够在更少的合成步骤中生成高质量的输出。
预期用途与限制
此模型专为加泰罗尼亚语多发音TTS系统服务。经过加泰罗尼亚音素化器的微调,如果用于其他语言,并不能生成清晰的语音样本。样本质量可能因演讲者而异,这与模型在学习特定频率时的敏感度以及样本质量有关。模型仅限于非商业使用,商业用途需联系语音艺术家获取授权。
如何开始使用模型
安装步骤
-
创建虚拟环境:
python -m venv /path/to/venv source /path/to/venv/bin/activate
-
下载并编译espeak-ng:
git clone https://github.com/espeak-ng/espeak-ng export PYTHON=/path/to/env/<env_name>/bin/python cd /path/to/espeak-ng ./autogen.sh ./configure --prefix=/path/to/espeak-ng make make install
-
克隆Matxa-TTS库并安装:
git clone -b dev-cat https://github.com/langtech-bsc/Matcha-TTS.git cd Matcha-TTS pip install -e .
进行推断
使用Catalan Matxa-TTS进行语音推断。首先设置环境变量以包含已安装的espeak-ng版本:
export PYTHON=/path/to/your/venv/bin/python
export ESPEAK_DATA_PATH=/path/to/espeak-ng/espeak-ng-data
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/espeak-ng/lib
export PATH="/path/to/espeak-ng/bin:$PATH"
然后运行推断脚本:
cd Matcha-TTS
python3 matcha_vocos_inference.py --output_path=/output/path --text_input="Bon dia Manel, avui anem a la muntanya."
可以根据需要修改语音速率和生成样本的温度,或者选择不同的发音ID。
模型训练
Matxa多音加泰罗尼亚语模型在一个多音加泰罗尼亚语语音数据集上进行了训练。训练过程中微调自加泰罗尼亚Matxa-base模型,该模型又从一个英文多发音基准模型微调而来,使用了加泰罗尼亚CommonVoice v.16数据库中的100小时子集。
评价与分析
模型的验证结果于epoch 2399取得,通过分析来自四种方言的推断结果,展示了加泰罗尼亚语中不同地域的发音特点。
引用
如果此代码对您的研究有帮助,请引用如下:
@misc{mehta2024matchatts,
title={Matcha-TTS: A fast TTS architecture with conditional flow matching},
author={Shivam Mehta and Ruibo Tu and Jonas Beskow and Éva Székely and Gustav Eje Henter},
year={2024},
eprint={2309.03199},
archivePrefix={arXiv},
primaryClass={eess.AS}
}
附加信息
此模型由巴塞罗那超级计算中心的语言技术团队开发。有关详细信息,请发送邮件至langtech@bsc.es。模型采用Creative Commons Attribution Non-commercial 4.0许可协议,仅限于非商业和研究用途使用。