layout-parser

文档图像分析的深度学习工具包

Layout Parser 深度学习文档图像分析 OCR 模型检测 Github 开源项目

LayoutParser提供多种深度学习模型和统一API，简化文档图像分析任务。支持布局检测、OCR、数据可视化等功能，并允许共享模型和分析流程。安装简便，可根据需求选择依赖项，是文档图像处理的理想工具。

文档

layoutxlm-base - 跨语言文档智能分析的多模态预训练技术

GithubHuggingfaceLayoutXLM多模态预训练开源项目文档AI模型视觉文档理解跨语言理解

LayoutXLM作为LayoutLMv2的语言扩展版本，整合文本、布局和图像信息，实现文档智能处理。这个预训练模型专注于解决视觉文档理解中的语言障碍，经XFUND数据集测试，在跨语言文档处理任务中展现出优异性能。

eynollah - 结合深度学习和启发式算法的文档布局分析工具

EynollahGithub启发式算法图像处理开源项目文档布局分析深度学习

Eynollah是一款文档布局分析工具，支持多达10种分割类别，包括文本区域、页眉和图像等。它具有图像优化、文本行分割和阅读顺序检测等功能，结合了深度学习和启发式算法。Eynollah输出符合PAGE-XML标准，可作为OCR-D处理器使用。该项目主要面向历史文献分析，适用于需要精确文档布局分析的研究和应用场景。

unstructured-inference - 非结构化数据布局解析工具支持多种检测模型

AI模型Githubunstructured布局解析开源工具开源项目文档处理

unstructured-inference 是一个专注于文档布局分析的开源项目。它能够从各种文件中提取文档结构和文本内容，适用于需要高效文档处理的场景。该项目提供多种检测模型，如 Detectron2 和 YOLOX，可通过 API 与 unstructured 包集成。它支持自定义模型，为开发者提供了灵活的布局解析解决方案。

deformable-detr-DocLayNet - Deformable DETR模型实现文档布局分析基于DocLayNet数据集

Deformable DETRDocLayNetGithubHuggingface图像处理对象检测开源项目文档布局分析模型

这是一个基于Deformable DETR架构的文档布局分析模型，在DocLayNet数据集上训练。该模型可检测和分类11种文档布局元素，在DocLayNet测试集上实现57.1 mAP。它采用transformer编码器-解码器结构，结合CNN主干网络，使用双向匹配损失训练。此模型可用于文档布局分析任务，也可集成到Aryn分区服务等应用中。

SceneGraphParser - Python工具包，用于解析自然语言句子生成场景图

GithubSceneGraphParserspaCy依赖解析图像表示开源项目自然语言处理

SceneGraphParser基于依存解析，通过纯Python实现，将自然语言句子解析为场景图。图中的节点为名词（包含修饰词如限定词或形容词），边为名词之间的关系。与斯坦福场景图解析器不同，SceneGraphParser具有易用的用户界面和易配置的设计。目前仅支持spaCy作为后台。工具提供了简单的`parse`函数调用和表格式结果展示，便于集成到任何基于Python的项目中。项目正在开发中，所有API可能会有变动，欢迎提交问题或提供帮助。

parseq - 创新的场景文本识别统一模型

ECCVGithubPARSeq场景文本识别开源项目深度学习计算机视觉

PARSeq是一种创新的场景文本识别模型，采用置换自回归序列方法，实现了上下文无关和上下文感知推理及迭代预测细化。该模型统一了现有STR解码方法，无需独立语言模型，在多个基准数据集上展现出优异性能，同时保持较低计算成本。PARSeq支持灵活的字符集训练和多种评估配置，为OCR应用提供了高效而强大的解决方案。

Airparser - 智能文档数据提取和自动化处理平台

AI工具AirparserGPT解析器数据提取文档处理自动化

Airparser是一款基于GPT技术的智能数据提取平台，能从邮件、PDF和各类文档中自动提取结构化数据。支持多种文档格式，包括手写文本，设置简便快速。集成OCR引擎，提供API和webhook，支持60多种语言识别。可将提取数据实时导出至Google Sheets、HubSpot、QuickBooks等多种应用和平台。Airparser为企业提供高效、安全的数据处理方案，简化文档管理和数据分析流程。

OmniParser - 将界面截图转化为易于理解元素的智能工具

GPT-4VGithubOmniParser交互区域检测图标功能描述开源项目界面解析

本项目将用户界面截图解析为结构化元素，提升GPT-4V的操作准确性。近期发布的交互区域检测和图标功能描述模型，在Windows Agent Arena中表现卓越。项目易于安装并支持在Gradio中演示使用案例。如需更多详情，请参见项目主页。

docling-models - 将PDF文档中的版式与表格结构自动识别的开源模型

DoclingGithubHuggingfacePDF文档转换TableFormer布局分析开源项目模型表结构识别

docling模型支持PDF文档的布局与表格结构分析。布局模型使用RT-DETR技术识别版式元素，如标题、脚注与图片，性能接近人类标准。TableFormer模型则在表格结构识别上表现优异，准确识别复杂表格。该项目可应用于多种需要文档处理的场景。

surya_layout3 - Surya项目的文档布局分析模型

GithubHuggingfaceLayoutsuryatransformers开源项目模型

surya_layout3是Surya项目的文档布局分析模型，基于transformers库开发。该模型旨在识别和分析文档的结构和布局元素，如段落、标题和表格。作为一个开源工具，surya_layout3为研究人员和开发者提供了进行文档分析和处理的基础。模型采用CC-BY-NC-SA-4.0许可证发布，可用于非商业用途。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com