#标点符号

libriheavy - 大规模语音识别数据集，50,000小时带标点和上下文

Libriheavy语音识别数据集标点符号上下文Github开源项目

Libriheavy是基于Librilight的大规模标注语音数据集，总时长达50,000小时。该数据集包含标点、大小写和上下文信息，适用于多种语音任务研究。Libriheavy提供完整版和ASR训练专用版本，支持多种数据格式。此外，项目还提供基线模型和性能排行榜，展示了在不同规模子集上的识别效果。研究人员可以通过简单步骤获取并使用这一丰富的语音识别资源。

autocorrect - 跨平台中英文混排格式自动纠正工具

AutoCorrect文案纠正中英文混排标点符号代码检查Github开源项目

AutoCorrect 是一个开源的文案纠正工具，使用 Rust 语言开发。它主要致力于改进中英文混排格式，包括自动添加空格、纠正标点符号和拼写检查等功能。该工具支持多种编程语言和文件格式，可以集成到持续集成环境、代码编辑器和其他应用中。AutoCorrect 旨在帮助开发者和内容创作者提升文案的规范性和专业性。

sbert_punc_case_ru - 为俄语文本提供标点符号与大小写自动恢复的工具

使用注册SbertPuncCaseHuggingface模型开源项目Github标点符号

这款工具利用神经网络，专为俄语文本自动恢复标点符号和大小写设计，基于sbert_large_nlu_ru模型。它能自动添加句号、逗号和问号，识别正确的单词大小写，特别适用于语音识别后的文本处理，提升文本可读性。通过安装`git-lfs`和简单命令，即可快速部署，简化大规模文本处理。

相关文章

Article Cover

LibriHeavy: 50,000小时的开源自动语音识别语料库

Article Cover

AutoCorrect: 自动纠正中英文混排文本的利器

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号