NISQA简介
NISQA (Non-Intrusive Speech Quality Assessment)是一个用于语音质量和自然度评估的深度学习模型框架。它主要有以下几个功能:
-
语音质量预测:可以预测经过通信系统传输后的语音样本质量,包括总体质量、噪声、音色、不连续性和响度等维度。
-
TTS自然度预测:可以预测语音合成或声音转换系统生成的合成语音的自然度。
-
模型训练/微调:支持训练新的语音质量预测模型,或在已有模型基础上进行微调。
-
大规模语音质量数据集:提供了包含14000多个语音样本的NISQA语料库,用于模型训练和评估。
安装与使用
- 安装依赖:
conda env create -f env.yml
- 预测语音质量:
python run_predict.py --mode predict_file --pretrained_model weights/nisqa.tar --deg /path/to/wav/file.wav
- 训练/微调模型:
python run_train.py --yaml config/finetune_nisqa.yaml
- 评估模型:
python run_evaluate.py
详细的安装和使用说明可以参考NISQA GitHub主页。
数据集
NISQA Corpus是一个包含14000多个语音样本的大规模数据集,用于训练和评估语音质量预测模型。它包含:
- 模拟失真样本(编解码器、丢包、背景噪声等)
- 真实场景样本(手机通话、Zoom、Skype、WhatsApp等)
- 每个样本都标注了总体质量、噪声、音色、不连续性和响度等维度的主观评分
数据集下载和详细说明请参考NISQA Corpus Wiki。
相关论文
如果您在研究中使用了NISQA,请引用以下相关论文:
-
NISQA-TTS模型: Deep Learning Based Assessment of Synthetic Speech Naturalness
-
双端NISQA模型: Full-reference speech quality estimation with attentional Siamese neural networks
许可证
- NISQA代码采用MIT许可证
- 模型权重采用CC BY-NC-SA 4.0许可证
- NISQA Corpus数据集遵循原始语音和噪声样本的使用条款
更多资源
NISQA为语音质量评估领域提供了强大的深度学习解决方案。希望本文汇总的学习资料能够帮助您更好地了解和使用NISQA。如果您对NISQA有任何问题,欢迎在GitHub上提issue讨论。