seed-tts-eval
:boom: 本仓库包含我们项目seed-TTS中提出的客观测试集,以及计算指标的脚本。出于AI安全考虑,我们不会发布seed-TTS的源代码和模型权重。我们邀请您体验字节跳动产品中的语音生成功能。:boom:
为评估我们模型的零样本语音生成能力,我们提出了一个领域外的客观评估测试集。该测试集由英语(EN)和中文(ZH)公共语料库中提取的样本组成,用于衡量模型在各种客观指标上的表现。具体来说,我们使用了Common Voice数据集的1,000个样本和DiDiSpeech-2数据集的2,000个样本。
依赖项
要安装所有依赖项,请运行
pip3 install -r requirements.txt
指标
采用词错率(WER)和说话人相似度(SIM)指标进行客观评估。
- 对于WER,我们分别使用Whisper-large-v3和Paraformer-zh作为英语和中文的自动语音识别(ASR)引擎。
- 对于SIM,我们使用在说话人验证任务上微调的WavLM-large(模型链接)来获取说话人嵌入,用于计算每个测试语音与参考音频片段的余弦相似度。
数据集
您可以从此链接下载所有任务的测试集。 测试集主要使用元文件方法组织。元文件中每行的含义:文件名 | 提示文本 | 提示音频 | 待合成文本 | 待合成文本对应的真实音频(如果存在)。对于不同的任务,我们采用不同的元文件:
- 零样本文本转语音(TTS):
- 英语:en/meta.lst
- 中文:zh/meta.lst
- 中文(困难案例):zh/hardcase.lst
- 零样本声音转换(VC):
- 英语:en/non_para_reconstruct_meta.lst
- 中文:zh/non_para_reconstruct_meta.lst
代码
我们还发布了两个指标的评估代码:
# WER
bash cal_wer.sh {元文件路径} {合成音频目录} {语言:zh或en}
# SIM
bash cal_sim.sh {元文件路径} {合成音频目录} {path/wavlm_large_finetune.pth}