#文档理解

mPLUG-DocOwl - 多模态大语言模型实现无OCR文档理解的新突破

DocOwl多模态大语言模型文档理解AI图表分析OCR-freeGithub开源项目

mPLUG-DocOwl是阿里巴巴集团开发的多模态大语言模型家族，致力于无OCR文档理解。该项目包含DocOwl1.5、TinyChart和PaperOwl等子项目，覆盖文档分析、图表理解和科学图表分析领域。mPLUG-DocOwl在多项基准测试中展现出卓越性能，推动文档智能处理技术进步。

DAVAR-Lab-OCR - 多模态文档理解开源工具箱

DAVAR-OCR文字识别文档理解开源代码库算法实现Github开源项目

DAVAR-Lab-OCR是海康威视研究院DAVAR实验室开发的开源OCR仓库，实现了多项最新学术成果。该工具箱涵盖文本检测、识别和端到端识别等基础OCR任务，同时包含信息提取、表格识别和版面分析等文档理解功能。基于mmdetection和mmcv框架构建，具有良好的兼容性和扩展性，为OCR领域的研究和应用提供了综合解决方案。

Idefics3-8B-Llama3 - 提升视觉文本处理能力的多模态模型

Huggingface模型优化多模态开源项目Idefics3模型文档理解视觉文本处理Github

Idefics3-8B是由Hugging Face开发的开放性多模态模型，支持处理任意图像和文本序列进行文本生成。该模型在OCR、文档理解和视觉推理方面有显著增强，适用于图像描述和视觉问答任务。Idefics3-8B主要通过监督微调进行训练，可能需要多次提示以获得完整回答。与Idefics2相比，Idefics3在文档理解能力上表现更为出色，并增加了视觉标记编码的多项改进和丰富的数据集支持。

lilt-roberta-en-base - 多语言文档理解的语言无关布局变换器

Github模型集成RoBERTa开源项目HuggingfaceLiLT文档理解布局转换器模型

LiLT-RoBERTa将预训练的RoBERTa模型与轻量级的布局变换器结合，适用于处理多语言的文档图像分类、解析及问答任务，适合在结构化文档理解中应用。用户可在模型库中寻找适合特定任务的微调版本。

donut-base-finetuned-docvqa - 基于Donut架构的无OCR文档理解与问答模型

文档理解Donut开源项目模型Huggingface文本生成图像识别Github视觉编码

基于Swin Transformer和BART架构开发的文档理解模型，通过DocVQA数据集微调。模型集成了视觉编码器和文本解码器，无需OCR技术即可直接处理文档图像并回答问题。支持发票号码识别、合同金额提取等文档问答功能，可用于多种商业文档的自动化处理。

相关文章

Article Cover

mPLUG-DocOwl: 突破性的OCR-free文档理解多模态大语言模型

Article Cover

DAVAR-Lab-OCR: 海康威视研究院开源的OCR工具箱

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号