#CTC模型

mms-300m-1130-forced-aligner - 多语言音频文本强制对齐Python工具包

强制对齐CTC模型Huggingface模型语音识别Github开源项目音频处理Hugging Face

这是一个基于Hugging Face预训练模型的Python包，用于实现音频和文本的强制对齐。该工具采用了优化的实现方式，相比TorchAudio的强制对齐API，能显著降低内存使用。它支持超过100种语言，提供简便的安装和使用方法。该包可以生成精确的词级时间戳，适用于语音识别、字幕生成、语音合成等多种应用场景。此外，它还支持音频批处理和自定义设备选择，提高了处理效率。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号