项目简介:Ukrainian 语音识别与合成
概述
Speech Recognition & Synthesis for Ukrainian 项目致力于收集与乌克兰语音识别与合成相关的模型、数据集和工具链接。项目的目标是推动乌克兰语言技术的发展,为社会提供更好的语音到文本(Speech-to-Text)和文本到语音(Text-to-Speech)解决方案。
项目社区
- 加入项目 Discord 群组以参与讨论和交流:Discord
- 参与语音识别相关讨论:Telegram 语音识别频道
- 参与语音合成相关讨论:Telegram 语音合成频道
语音到文本(Speech-to-Text)
项目包含了多个不同模型的实现,每个模型都有不同的参数和适用场景:
主要模型实现
- Wav2vec2-BERT:使用约 600M 参数的模型进行语义识别,具备优秀的听觉模型转换能力。
- Wav2vec2:提供多种参数选择的模型,支持不同数据源的语言模型,包括新闻文本和 Wikipedia 文本。
- FastConformer:专注于文本标点和大写处理,具有优越的文本准确识别能力。
- Squeezeformer 和 Flashlight:支持高效语音识别并提供不同复杂度的模型以供选择。
每种模型的详细实现及演示可以在相关的 GitHub 链接 中查看。
语音识别基准测试
项目使用 Common Voice 10 的测试数据进行基准测试,计算结果包括识别错误率(WER)、字符错误率(CER)及准确率百分比,以帮助开发者选择和评估模型。
开发指南
- 提供使用 Kaldi 训练自定义模型的指南。
- 可使用 KenLM 模型对乌克兰 Wikipedia 数据进行训练。
- 提供将 wav2vec2 模型导出为 JIT 版本的教程。
数据集
项目从多种开放来源、公司及社区收集了约 1200 小时/188.31GB 的已编译数据集,另一重要数据集为 Voice of America,共 398 小时。此外,还收集了如 Mozilla Common Voice 和 YODAS2 等其他有用数据资源。
文本到语音(Text-to-Speech)
项目通过多个实现为文本到语音转换提供多种选择:
主要实现
- StyleTTS2 和 P-Flow TTS:提供优化的发音质量和定制选项的实现。
- RAD-TTS:支持多种声音的变化(如 Lada, Tetiana 和 Mykyta),实现个性化语音生成。
- Coqui TTS 和 Neon TTS:提供强大的文本到语音解决方案,同时具备良好的细节处理能力。
数据集
项目公开了一系列开放语音数据集,包括多个性别的样本声音(例如 LADA、TETIANA 和 MYKYTA 等),有助于开发者创建更丰富的 TTS 系统。
相关工作的支持
项目还涉及乌克兰语调和重音模型,工具用于高质量文本到语音语料库的生成,支持多种文本规范化处理。
通过 Speech Recognition & Synthesis for Ukrainian 项目,开发者和研究人员可以更深入地探索和推进乌克兰语言技术的边界,以期为更多领域提供突破性的技术解决方案。