#语音数据集

Thorsten-Voice学习资料汇总 - 免费高质量德语TTS语音合成项目

2 个月前

Thorsten-Voice 语音数据集德语TTS 开源语音技术 Github 开源项目

2 个月前

EARS数据集:革新性的高质量无回声室语音数据集

3 个月前

EARS Dataset 语音数据集语音增强去混响高质量录音 Github 开源项目

3 个月前

LibriTTS-P: 突破性语音合成数据集助力个性化TTS

3 个月前

LibriTTS-P 语音合成说话风格语音数据集语音控制 Github 开源项目

3 个月前

Data-Speech: 为语音数据集添加自然语言标注的实用工具套件

3 个月前

Data-Speech 数据标注语音数据集音频转换语音AI Github 开源项目

3 个月前

Sound Dataset Tools 2: 一个强大的语音数据集制作工具

3 个月前

sound_dataset_tools2 语音数据集音频处理 GUI界面 VITS Github 开源项目

3 个月前

Thorsten-Voice: 开源德语语音合成的革新之路

3 个月前

Thorsten-Voice 语音数据集德语TTS 开源语音技术 Github 开源项目

3 个月前

相关项目

Thorsten-Voice

Thorsten-Voice项目由Thorsten Müller与Dominik Kreutz联合开发，提供多种开源德语文本到语音（TTS）数据集。这些数据集从中性到情感表达具备多样性，配合AI技术开发出多种TTS模型，适用于教育、研究和开源软件。该项目积极支持开源语音技术的进步，并在Thorsten-Voice YouTube频道提供相关教程，推广这些技术的应用。

dataspeech

Data-Speech是一套用于语音数据集标注的实用脚本工具。它提供简洁代码库，支持音频转换和注释，有助于语音AI模型开发。该工具能重现研究论文中的注释方法，使用自然语言描述标注说话者特征。Data-Speech可处理LibriTTS-R和MLS等数据集，并为Parler-TTS库提供支持。它提供从数据集注释、特征映射到自然语言描述生成的完整工作流程。

sound_dataset_tools2

sound_dataset_tools2是一款语音数据集制作工具。它具有GUI界面，支持音频+字幕和纯音频自动切割两种数据导入方式。该工具优化音频切割效果，减少断音问题，可导出符合VITS等项目要求的数据集格式。它还包含语音评测功能，有助于从大量数据中筛选出高质量数据集。此工具适用于需要创建语音数据集的研究人员和爱好者。

LibriTTS-P

LibriTTS-P是一个基于LibriTTS-R的语音语料库，为文本转语音和风格描述任务提供语音风格和说话者特征提示。该语料库结合人工和合成标注方法，为LibriTTS-R的所有说话者提供多样化的提示注释。研究表明，使用LibriTTS-P训练的TTS模型在自然度方面表现更佳，在风格描述任务中的准确词数是传统数据集的2.5倍。这一资源可能会促进语音合成和风格分析领域的研究进展。

ears_dataset

EARS数据集提供100小时48kHz全频带语音数据，涵盖107位不同背景发言人。数据包括无回声室录音、全动态范围语音和多种情绪朗读样本。此外，还附有说话人统计和文本转录，为语音增强和去混响研究提供全面资源。

whisper-large-v3-ru-podlodka

该模型是基于Whisper Large V3架构，专为俄语语音识别优化。在Podlodka.io数据集上，含标点和大写的字错误率(WER)为20.91%，不含标点的WER为10.987%。在Russian Librispeech数据集上，不含标点的WER达到9.795%。模型经过taiga_speech_v2、podlodka_speech和rulibrispeech等多个俄语数据集训练，适用于各种俄语语音识别场景。

filipino-wav2vec2-l-xls-r-300m-official

这是一个针对菲律宾语的语音识别模型，通过在filipino_voice数据集上微调wav2vec2-xls-r-300m实现。经过30轮训练后，模型在测试集上达到了0.2922的词错误率，可用于菲律宾语音频识别任务。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com