#语音数据集

Thorsten-Voice学习资料汇总 - 免费高质量德语TTS语音合成项目

2 个月前
Cover of Thorsten-Voice学习资料汇总 - 免费高质量德语TTS语音合成项目

EARS数据集:革新性的高质量无回声室语音数据集

3 个月前
Cover of EARS数据集:革新性的高质量无回声室语音数据集

LibriTTS-P: 突破性语音合成数据集助力个性化TTS

3 个月前
Cover of LibriTTS-P: 突破性语音合成数据集助力个性化TTS

Data-Speech: 为语音数据集添加自然语言标注的实用工具套件

3 个月前
Cover of Data-Speech: 为语音数据集添加自然语言标注的实用工具套件

Sound Dataset Tools 2: 一个强大的语音数据集制作工具

3 个月前
Cover of Sound Dataset Tools 2: 一个强大的语音数据集制作工具

Thorsten-Voice: 开源德语语音合成的革新之路

3 个月前
Cover of Thorsten-Voice: 开源德语语音合成的革新之路
相关项目
Project Cover

Thorsten-Voice

Thorsten-Voice项目由Thorsten Müller与Dominik Kreutz联合开发,提供多种开源德语文本到语音(TTS)数据集。这些数据集从中性到情感表达具备多样性,配合AI技术开发出多种TTS模型,适用于教育、研究和开源软件。该项目积极支持开源语音技术的进步,并在Thorsten-Voice YouTube频道提供相关教程,推广这些技术的应用。

Project Cover

dataspeech

Data-Speech是一套用于语音数据集标注的实用脚本工具。它提供简洁代码库,支持音频转换和注释,有助于语音AI模型开发。该工具能重现研究论文中的注释方法,使用自然语言描述标注说话者特征。Data-Speech可处理LibriTTS-R和MLS等数据集,并为Parler-TTS库提供支持。它提供从数据集注释、特征映射到自然语言描述生成的完整工作流程。

Project Cover

sound_dataset_tools2

sound_dataset_tools2是一款语音数据集制作工具。它具有GUI界面,支持音频+字幕和纯音频自动切割两种数据导入方式。该工具优化音频切割效果,减少断音问题,可导出符合VITS等项目要求的数据集格式。它还包含语音评测功能,有助于从大量数据中筛选出高质量数据集。此工具适用于需要创建语音数据集的研究人员和爱好者。

Project Cover

LibriTTS-P

LibriTTS-P是一个基于LibriTTS-R的语音语料库,为文本转语音和风格描述任务提供语音风格和说话者特征提示。该语料库结合人工和合成标注方法,为LibriTTS-R的所有说话者提供多样化的提示注释。研究表明,使用LibriTTS-P训练的TTS模型在自然度方面表现更佳,在风格描述任务中的准确词数是传统数据集的2.5倍。这一资源可能会促进语音合成和风格分析领域的研究进展。

Project Cover

ears_dataset

EARS数据集提供100小时48kHz全频带语音数据,涵盖107位不同背景发言人。数据包括无回声室录音、全动态范围语音和多种情绪朗读样本。此外,还附有说话人统计和文本转录,为语音增强和去混响研究提供全面资源。

Project Cover

whisper-large-v3-ru-podlodka

该模型是基于Whisper Large V3架构,专为俄语语音识别优化。在Podlodka.io数据集上,含标点和大写的字错误率(WER)为20.91%,不含标点的WER为10.987%。在Russian Librispeech数据集上,不含标点的WER达到9.795%。模型经过taiga_speech_v2、podlodka_speech和rulibrispeech等多个俄语数据集训练,适用于各种俄语语音识别场景。

Project Cover

filipino-wav2vec2-l-xls-r-300m-official

这是一个针对菲律宾语的语音识别模型,通过在filipino_voice数据集上微调wav2vec2-xls-r-300m实现。经过30轮训练后,模型在测试集上达到了0.2922的词错误率,可用于菲律宾语音频识别任务。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号