#场景文字识别
dict-guided - 词典指导场景文字识别方法及VinText数据集
场景文字识别VinText数据集字典引导深度学习计算机视觉Github开源项目
dict-guided项目提出了一种词典指导的场景文字识别方法,旨在改进现有模型性能。项目同时发布了越南语场景文字识别数据集VinText。该方法结合传统和创新策略,提高了文字识别准确率。项目开源了代码、预训练模型,并提供了数据集构建、模型架构和实验结果等详细信息,便于研究人员进行深入研究。
AdvancedLiterateMachinery - 赋予机器高级智能的先进读写系统
ALMOCR文档理解场景文字识别视觉语言预训练Github开源项目
AdvancedLiterateMachinery是一个致力于构建高级智能系统的开源项目,旨在赋予机器阅读、思考和创造能力。项目由阿里巴巴集团同义实验室的读光OCR团队维护,涵盖文本识别、文档理解和信息提取等领域。目前,项目专注于开发从图像和文档中读取信息的技术,包含OmniParser、GEM和DocXChain等创新模型,推动人工智能技术的发展。
mgp-str-base - 多粒度预测的场景文本识别开源模型
计算机视觉Huggingface多粒度预测模型光学字符识别MGP-STRGithub场景文字识别开源项目
MGP-STR base-sized model是一个基于ViT和A^3模块的场景文本识别开源模型。它采用多粒度预测方法,包括字符、子词和单词级别,以提高识别精度。该模型在MJSynth和SynthText数据集上训练,适用于复杂场景的OCR任务,并可方便地集成到PyTorch项目中。