相关项目
ReazonSpeech
ReazonSpeech是一个开源语音识别项目,整合了多种高性能模型。它提供基于NeMo的FastConformer-RNNT模型、基于Kaldi的K2模型和基于ESPnet的Conformer-Transducer模型。此外,该项目还包含专用于日语电视节目分析的工具,有助于构建日语音频语料库。ReazonSpeech支持多个深度学习框架,为开发者提供了多样化的选择。
japanese-hubert-base
rinna Co., Ltd.发布的日语HuBERT Base模型,采用与原始HuBERT相同的12层变换器结构,通过ReazonSpeech语料库的19000小时语音数据进行训练,支持自监督语音表示学习。模型提供详尽的训练配置和论文参考,便于研究和应用。使用Transformers库可方便地实现日语语音处理。