#标点符号

libriheavy - 大规模语音识别数据集,50,000小时带标点和上下文
Libriheavy语音识别数据集标点符号上下文Github开源项目
Libriheavy是基于Librilight的大规模标注语音数据集,总时长达50,000小时。该数据集包含标点、大小写和上下文信息,适用于多种语音任务研究。Libriheavy提供完整版和ASR训练专用版本,支持多种数据格式。此外,项目还提供基线模型和性能排行榜,展示了在不同规模子集上的识别效果。研究人员可以通过简单步骤获取并使用这一丰富的语音识别资源。
autocorrect - 跨平台中英文混排格式自动纠正工具
AutoCorrect文案纠正中英文混排标点符号代码检查Github开源项目
AutoCorrect 是一个开源的文案纠正工具,使用 Rust 语言开发。它主要致力于改进中英文混排格式,包括自动添加空格、纠正标点符号和拼写检查等功能。该工具支持多种编程语言和文件格式,可以集成到持续集成环境、代码编辑器和其他应用中。AutoCorrect 旨在帮助开发者和内容创作者提升文案的规范性和专业性。
sbert_punc_case_ru - 为俄语文本提供标点符号与大小写自动恢复的工具
使用注册SbertPuncCaseHuggingface模型开源项目Github标点符号
这款工具利用神经网络,专为俄语文本自动恢复标点符号和大小写设计,基于sbert_large_nlu_ru模型。它能自动添加句号、逗号和问号,识别正确的单词大小写,特别适用于语音识别后的文本处理,提升文本可读性。通过安装`git-lfs`和简单命令,即可快速部署,简化大规模文本处理。