speech-recognition-uk项目简介
speech-recognition-uk是一个专注于乌克兰语语音识别和语音合成的开源项目。该项目由GitHub用户egorsmkv创建和维护,旨在收集和开发用于乌克兰语语音技术的各种资源,包括模型、数据集和工具等。
语音识别(Speech-to-Text)资源
主要模型实现
-
wav2vec2-bert
- 600M参数模型: w2v-bert-2.0-uk-v2
-
wav2vec2
- 1B参数模型: wav2vec2-xls-r-1b-uk-with-lm
- 300M参数模型: wav2vec2-xls-r-300m-uk-with-lm
-
Citrinet
- NVIDIA Streaming Citrinet 1024: stt_uk_citrinet_1024_gamma_0_25
-
whisper
- 官方whisper: openai/whisper
- 针对乌克兰语微调的whisper: whisper-ukrainian
基准测试
项目提供了对Common Voice 10测试集的基准测试结果,涵盖了wav2vec2-bert、wav2vec2、Citrinet等多个模型的性能对比。
数据集
-
综合数据集(~1200小时): 下载链接
-
Common Voice乌克兰语数据集: Mozilla Common Voice
-
M-AILABS乌克兰语语料库: 下载链接
语音合成(Text-to-Speech)资源
主要模型实现
-
P-Flow TTS: 演示链接
-
RAD-TTS: ukrainian-radtts
-
Coqui TTS: ukrainian-tts
-
NVIDIA FastPitch: tts_uk_fastpitch
数据集
开放的乌克兰语TTS语音数据集: opentts-uk
相关工具与资源
-
乌克兰语重音工具:
-
语言模型:
- 乌克兰语KenLM模型: kenlm-ukrainian
-
文本增强:
- 标点和大小写模型: punctuation_uk_bert
参与社区
- Discord: 加入链接
- Telegram:
- 语音识别: @speech_recognition_uk
- 语音合成: @speech_synthesis_uk
speech-recognition-uk项目为乌克兰语语音技术的研究与应用提供了丰富的资源。无论您是研究人员、开发者还是对乌克兰语语音处理感兴趣的爱好者,都可以在这里找到有价值的工具和数据。欢迎访问项目GitHub页面了解更多详情,并考虑为这个开源项目做出贡献!