#文档理解

mPLUG-DocOwl - 多模态大语言模型实现无OCR文档理解的新突破
DocOwl多模态大语言模型文档理解AI图表分析OCR-freeGithub开源项目
mPLUG-DocOwl是阿里巴巴集团开发的多模态大语言模型家族,致力于无OCR文档理解。该项目包含DocOwl1.5、TinyChart和PaperOwl等子项目,覆盖文档分析、图表理解和科学图表分析领域。mPLUG-DocOwl在多项基准测试中展现出卓越性能,推动文档智能处理技术进步。
DAVAR-Lab-OCR - 多模态文档理解开源工具箱
DAVAR-OCR文字识别文档理解开源代码库算法实现Github开源项目
DAVAR-Lab-OCR是海康威视研究院DAVAR实验室开发的开源OCR仓库,实现了多项最新学术成果。该工具箱涵盖文本检测、识别和端到端识别等基础OCR任务,同时包含信息提取、表格识别和版面分析等文档理解功能。基于mmdetection和mmcv框架构建,具有良好的兼容性和扩展性,为OCR领域的研究和应用提供了综合解决方案。
Idefics3-8B-Llama3 - 提升视觉文本处理能力的多模态模型
Huggingface模型优化多模态开源项目Idefics3模型文档理解视觉文本处理Github
Idefics3-8B是由Hugging Face开发的开放性多模态模型,支持处理任意图像和文本序列进行文本生成。该模型在OCR、文档理解和视觉推理方面有显著增强,适用于图像描述和视觉问答任务。Idefics3-8B主要通过监督微调进行训练,可能需要多次提示以获得完整回答。与Idefics2相比,Idefics3在文档理解能力上表现更为出色,并增加了视觉标记编码的多项改进和丰富的数据集支持。
lilt-roberta-en-base - 多语言文档理解的语言无关布局变换器
Github模型集成RoBERTa开源项目HuggingfaceLiLT文档理解布局转换器模型
LiLT-RoBERTa将预训练的RoBERTa模型与轻量级的布局变换器结合,适用于处理多语言的文档图像分类、解析及问答任务,适合在结构化文档理解中应用。用户可在模型库中寻找适合特定任务的微调版本。
donut-base-finetuned-docvqa - 基于Donut架构的无OCR文档理解与问答模型
文档理解Donut开源项目模型Huggingface文本生成图像识别Github视觉编码
基于Swin Transformer和BART架构开发的文档理解模型,通过DocVQA数据集微调。模型集成了视觉编码器和文本解码器,无需OCR技术即可直接处理文档图像并回答问题。支持发票号码识别、合同金额提取等文档问答功能,可用于多种商业文档的自动化处理。