EARS数据集
我们发布了表达性无回声语音录音(EARS)数据集。
如果您使用该数据集或其任何衍生品,请引用我们的论文
@inproceedings{richter2024ears,
title={{EARS}: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation},
author={Richter, Julius and Wu, Yi-Chiao and Krenn, Steven and Welker, Simon and Lay, Bunlong and Watanabe, Shinjii and Richard, Alexander and Gerkmann, Timo},
booktitle={Interspeech},
year={2024}
}
如需音频样本或生成语音增强基准的脚本,请访问项目页面。
亮点
- 来自107位说话者的100小时语音数据
- 在无回声室内以48 kHz采样率进行的高质量录音
- 高度多样化的说话者,包括不同种族和18至75岁年龄范围的说话者
- 人类语音的全动态范围,从耳语到大喊
- 每位说话者18分钟的自由形式独白
- 以7种不同阅读风格进行的句子朗读(正常、大声、耳语、高音调、低音调、快速、缓慢)
- 情感阅读和自由形式任务,涵盖每位说话者的22种不同情绪
下载EARS数据集
使用bash
for X in $(seq -w 001 107); do
curl -L https://github.com/facebookresearch/ears_dataset/releases/download/dataset/p${X}.zip -o p${X}.zip
unzip p${X}.zip
rm p${X}.zip
done
使用python
运行EARS下载脚本
python download_ears.py
下载带有噪声语音的盲测试集
使用bash
curl -L https://github.com/facebookresearch/ears_dataset/releases/download/blind_testset/blind_testset.zip -o blind_testset.zip
mkdir blind_testset
unzip blind_testset.zip -d blind_testset
rm blind_testset.zip
使用python
运行盲测试集下载脚本
python download_blind_testset.py
统计数据和转录文本
107位说话者的统计数据(年龄、种族、性别、体重、身高、母语)收集在speaker_statistics.json中。
数据集阅读部分的转录文本可在transcripts.json中找到。
许可证
代码和数据集根据CC-NC 4.0国际许可证发布。