LibriTTS-P:一个带有说话风格和说话人身份提示的文本转语音和风格描述语料库
我们介绍了LibriTTS-P,这是一个基于LibriTTS-R的新语料库,包含了句级别的说话风格描述(即提示)和说话人级别的说话人特征提示。我们采用混合方法构建提示注释:(1)捕捉人类对说话人特征感知的人工注释和(2)关于说话风格的合成注释。与现有的英语提示数据集相比,我们的语料库为LibriTTS-R的所有说话人提供了更多样化的提示注释。基于提示的可控TTS实验结果表明,使用LibriTTS-P训练的TTS模型比使用传统数据集的模型实现了更高的自然度。此外,风格描述任务的结果显示,利用LibriTTS-P的模型生成的准确词数是使用传统数据集的模型的2.5倍。
文件详情
data
目录下有与LibriTTS-P相关的文件。
各文件的详细信息如下:
df1_en.csv
、df2_en.csv
、df3_en.csv
- 分别为注释者1、注释者2和注释者3的说话人提示数据。
excluded_spk_list.txt
- 我们发现在LibriTTS-R中,有些具有相同spk_id的语音样本明显性别不同。这是一个列出这些spk_id的文本文件。我们建议在使用我们的数据集时排除这些。
unannotated_spk_list.txt
- "libritts_r_failed_speech_restoration_examples.tar.gz"(参见LibriTTS-R引用)中列出的音频文件在说话人提示注释过程中被排除。结果导致三位说话人没有合适的音频文件可供注释。因此,我们在这个文本文件中记录了这些spk_id。我们建议在使用说话人提示时排除这些说话人。
style_prompt_candidates_v230922.csv
- 此文件包含style_prompt_key(例如,M_p-low_s-slow_e-low)和相应的风格提示选项,用分号分隔。
- style_prompt_key由四个风格因素组成:
- 性别:M/F
- 音高:低/正常/高
- 说话速度:慢/正常/快
- 音量:低/正常/高
- 例如,"M_p-low_s-slow_e-low"表示以下含义:
M:男性 p-low:音高低 s-slow:说话速度慢 e-low:音量低
metadata_w_style_prompt_tags_v230922.csv
- 此文件包含每个音频文件的元数据。例如,通过使用此文件和style_prompt_candidates_v230922.csv,可以参考每个音频的style_prompt。
- 此CSV文件的列详情如下:
名称 描述 item_name 音频文件名 spk_id 说话人ID gender 说话人性别 pitch 音频的音高水平 speaking_speed 说话速度水平 energy 音频的能量水平 content_prompt 与音频对应的内容提示 style_prompt_key style_prompt_candidates_v230922.csv
的键,表示与音频相关的风格提示。raw_f0_mean 音频有声部分的平均F0 raw_f0_scale F0的标准差 raw_lf0_mean 有声部分的log-F0平均值 raw_lf0_scale log-F0的对数标准差 raw_speaking_rate 每秒音节数 raw_loudness_lufs 相对于全刻度的响度单位 raw_loudness_mean 按帧计算的音频文件平均响度,提供了随时间变化的平均响度度量。 raw_loudness_scale 帧响度值的标准差,表示音频帧之间响度的变化。 invalid 标志表示该话语是否因缺少F0、无效的说话速率(如speaking_rate < 0)或其他处理错误而被标记为无效。 1
表示无效,0
表示有效。
(有关每个项目的详细计算方法,请参阅LibriTTS-P论文。)
您可以使用来自LibriTTS-R的音频。
引用
@inproceedings{librittsp,
authors={Masaya Kawamura, Ryuichi Yamamoto, Yuma Shirahata, Takuya Hasumi, Kentaro Tachibana},
title={LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning},
booktitle={Proc. Interspeech 2024},
month=sep,
year=2024
}