#标点符号
libriheavy
Libriheavy是基于Librilight的大规模标注语音数据集,总时长达50,000小时。该数据集包含标点、大小写和上下文信息,适用于多种语音任务研究。Libriheavy提供完整版和ASR训练专用版本,支持多种数据格式。此外,项目还提供基线模型和性能排行榜,展示了在不同规模子集上的识别效果。研究人员可以通过简单步骤获取并使用这一丰富的语音识别资源。
autocorrect
AutoCorrect 是一个开源的文案纠正工具,使用 Rust 语言开发。它主要致力于改进中英文混排格式,包括自动添加空格、纠正标点符号和拼写检查等功能。该工具支持多种编程语言和文件格式,可以集成到持续集成环境、代码编辑器和其他应用中。AutoCorrect 旨在帮助开发者和内容创作者提升文案的规范性和专业性。
wav2vec2-large-robust-ft-libritts-voxpopuli
Wav2Vec2-large-robust-ft-libritts-voxpopuli是一款经过优化的语音转录模型,专门生成带标点符号的高质量文本。该模型基于LibriTTS和VoxPopuli数据集训练,在Librispeech验证集上达到4.45%的词错误率。它尤其适用于TTS模型转录,准确的标点有助于提升语音韵律。虽主要针对清晰音频优化,但对噪声音频如CommonVoice也有良好表现。
xlm-roberta_punctuation_fullstop_truecase
该模型基于XLM-RoBERTa架构,能够在47种语言中自动恢复标点符号、调整大小写和检测句子边界。通过创新的神经网络设计,无需语言特定路径即可处理多种语言文本。模型支持批量处理,可通过punctuators包或直接使用ONNX和SentencePiece模型进行部署,为多语言文本处理提供了灵活高效的解决方案。
sbert_punc_case_ru
这款工具利用神经网络,专为俄语文本自动恢复标点符号和大小写设计,基于sbert_large_nlu_ru模型。它能自动添加句号、逗号和问号,识别正确的单词大小写,特别适用于语音识别后的文本处理,提升文本可读性。通过安装`git-lfs`和简单命令,即可快速部署,简化大规模文本处理。