#语音数据集

Thorsten-Voice - 开源德语TTS项目提供高质量免费离线语音数据集和模型
Thorsten-Voice语音数据集德语TTS开源语音技术Github开源项目
Thorsten-Voice项目由Thorsten Müller与Dominik Kreutz联合开发,提供多种开源德语文本到语音(TTS)数据集。这些数据集从中性到情感表达具备多样性,配合AI技术开发出多种TTS模型,适用于教育、研究和开源软件。该项目积极支持开源语音技术的进步,并在Thorsten-Voice YouTube频道提供相关教程,推广这些技术的应用。
dataspeech - 简化语音数据集标注与处理的实用工具
Data-Speech数据标注语音数据集音频转换语音AIGithub开源项目
Data-Speech是一套用于语音数据集标注的实用脚本工具。它提供简洁代码库,支持音频转换和注释,有助于语音AI模型开发。该工具能重现研究论文中的注释方法,使用自然语言描述标注说话者特征。Data-Speech可处理LibriTTS-R和MLS等数据集,并为Parler-TTS库提供支持。它提供从数据集注释、特征映射到自然语言描述生成的完整工作流程。
sound_dataset_tools2 - 多功能语音数据集制作工具
sound_dataset_tools2语音数据集音频处理GUI界面VITSGithub开源项目
sound_dataset_tools2是一款语音数据集制作工具。它具有GUI界面,支持音频+字幕和纯音频自动切割两种数据导入方式。该工具优化音频切割效果,减少断音问题,可导出符合VITS等项目要求的数据集格式。它还包含语音评测功能,有助于从大量数据中筛选出高质量数据集。此工具适用于需要创建语音数据集的研究人员和爱好者。
LibriTTS-P - 为语音合成和风格分析提供丰富注释的语料库
LibriTTS-P语音合成说话风格语音数据集语音控制Github开源项目
LibriTTS-P是一个基于LibriTTS-R的语音语料库,为文本转语音和风格描述任务提供语音风格和说话者特征提示。该语料库结合人工和合成标注方法,为LibriTTS-R的所有说话者提供多样化的提示注释。研究表明,使用LibriTTS-P训练的TTS模型在自然度方面表现更佳,在风格描述任务中的准确词数是传统数据集的2.5倍。这一资源可能会促进语音合成和风格分析领域的研究进展。
ears_dataset - 全频带语音资源推动语音处理技术进步
EARS Dataset语音数据集语音增强去混响高质量录音Github开源项目
EARS数据集提供100小时48kHz全频带语音数据,涵盖107位不同背景发言人。数据包括无回声室录音、全动态范围语音和多种情绪朗读样本。此外,还附有说话人统计和文本转录,为语音增强和去混响研究提供全面资源。
whisper-large-v3-ru-podlodka - 基于Whisper Large V3的俄语优化语音识别模型
语音识别Github开源项目语音数据集俄语Whisper Large V3Huggingface神经网络模型
该模型是基于Whisper Large V3架构,专为俄语语音识别优化。在Podlodka.io数据集上,含标点和大写的字错误率(WER)为20.91%,不含标点的WER为10.987%。在Russian Librispeech数据集上,不含标点的WER达到9.795%。模型经过taiga_speech_v2、podlodka_speech和rulibrispeech等多个俄语数据集训练,适用于各种俄语语音识别场景。
filipino-wav2vec2-l-xls-r-300m-official - 基于XLS-R的菲律宾语语音识别模型
模型训练开源项目模型Github机器学习Huggingfacewav2vec2语音识别语音数据集
这是一个针对菲律宾语的语音识别模型,通过在filipino_voice数据集上微调wav2vec2-xls-r-300m实现。经过30轮训练后,模型在测试集上达到了0.2922的词错误率,可用于菲律宾语音频识别任务。