#文档理解

DAVAR-Lab-OCR: 海康威视研究院开源的OCR工具箱

3 个月前

DAVAR-OCR 文字识别文档理解开源代码库算法实现 Github 开源项目

3 个月前

mPLUG-DocOwl: 突破性的OCR-free文档理解多模态大语言模型

3 个月前

DocOwl 多模态大语言模型文档理解 AI图表分析 OCR-free Github 开源项目

3 个月前

相关项目

mPLUG-DocOwl

mPLUG-DocOwl是阿里巴巴集团开发的多模态大语言模型家族，致力于无OCR文档理解。该项目包含DocOwl1.5、TinyChart和PaperOwl等子项目，覆盖文档分析、图表理解和科学图表分析领域。mPLUG-DocOwl在多项基准测试中展现出卓越性能，推动文档智能处理技术进步。

DAVAR-Lab-OCR

DAVAR-Lab-OCR是海康威视研究院DAVAR实验室开发的开源OCR仓库，实现了多项最新学术成果。该工具箱涵盖文本检测、识别和端到端识别等基础OCR任务，同时包含信息提取、表格识别和版面分析等文档理解功能。基于mmdetection和mmcv框架构建，具有良好的兼容性和扩展性，为OCR领域的研究和应用提供了综合解决方案。

Idefics3-8B-Llama3

Idefics3-8B是由Hugging Face开发的开放性多模态模型，支持处理任意图像和文本序列进行文本生成。该模型在OCR、文档理解和视觉推理方面有显著增强，适用于图像描述和视觉问答任务。Idefics3-8B主要通过监督微调进行训练，可能需要多次提示以获得完整回答。与Idefics2相比，Idefics3在文档理解能力上表现更为出色，并增加了视觉标记编码的多项改进和丰富的数据集支持。

lilt-roberta-en-base

LiLT-RoBERTa将预训练的RoBERTa模型与轻量级的布局变换器结合，适用于处理多语言的文档图像分类、解析及问答任务，适合在结构化文档理解中应用。用户可在模型库中寻找适合特定任务的微调版本。

layoutlm-large-uncased

LayoutLM-large-uncased是微软开发的大型多模态文档理解预训练模型。该模型融合文本、版面布局和图像信息，在表单和收据理解等文档AI任务中表现出色。模型架构包括24层、1024隐藏单元、16个注意力头，总计3.43亿参数。经过1100万份文档的2轮预训练，LayoutLM为文档图像理解和信息提取任务提供了高效解决方案。

donut-base

Donut是一种创新的文档理解模型，无需OCR即可直接从图像生成文本。它结合了Swin Transformer视觉编码器和BART文本解码器，高效处理多种文档图像。这个预训练基础模型可针对文档分类、信息提取等任务进行微调，在文档智能处理领域应用广泛。作为开源项目，Donut为AI研究和开发提供了强大的文档处理工具。

donut-base-finetuned-docvqa

基于Swin Transformer和BART架构开发的文档理解模型，通过DocVQA数据集微调。模型集成了视觉编码器和文本解码器，无需OCR技术即可直接处理文档图像并回答问题。支持发票号码识别、合同金额提取等文档问答功能，可用于多种商业文档的自动化处理。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com