speech_dataset

speech_dataset 项目介绍

概述

speech_dataset 项目集合了多种语言的语音识别、合成、识别等相关数据集。这些数据集主要用于支持和推动语音技术的发展。项目包括中文、英文、以及多种其他语言的数据集，并涵盖了语音识别、语音合成、说话者识别等多种应用场景。

语音识别数据集

中文部分

中文语音识别数据集中包含了多个不同的数据集，数据量从短时间到非常长不等。例如，THCHS-30 数据集仅有30小时的语音，而 WenetSpeech 数据集包含了多达10000小时的语音数据。部分数据集用于普通话识别，而其它则可能包含带有明显地方口音的语音，甚至有些是对话式语音数据，例如 MagicData-RAMC。

英文部分

英文语音识别数据集同样非常丰富，Common Voice 数据集是其中之一，拥有2015小时的语音数据。LibriSpeech 和 TED-LIUM Release 3 等数据集也非常流行，分别提供960小时和430小时的语音数据。

其他语言

除了中文和英文，该项目还囊括了日语、韩语、俄语、法语、西班牙语、土耳其语、阿拉伯语等语言的数据集。每种语言的数据量不尽相同，并且有些数据集是多语言的，支持更广泛的语言处理研究。

语音合成数据集

语音合成部分主要包括中文和英文数据集，例如 Aishell3 和 Hi-Fi Multi-Speaker English TTS Dataset。Aishell3 是一个面向普通话语音合成的开放数据集，而 Hi-Fi Multi-Speaker English TTS Dataset 则专注于高保真度的多语者英语合成。