Logo

#文档处理

ExtractThinker入门指南 - 基于LLM的灵活文档智能处理库

1 个月前
Cover of ExtractThinker入门指南 - 基于LLM的灵活文档智能处理库

Local Llama: 本地运行大型语言模型的创新解决方案

2 个月前
Cover of Local Llama: 本地运行大型语言模型的创新解决方案

HDLTex:层次化深度学习文本分类模型

2 个月前
Cover of HDLTex:层次化深度学习文本分类模型

Question Extractor: 自动生成问答训练数据的革新工具

2 个月前
Cover of Question Extractor: 自动生成问答训练数据的革新工具

PaperMage: 一个统一的科学文献处理、表示和操作工具包

2 个月前
Cover of PaperMage: 一个统一的科学文献处理、表示和操作工具包

Super-RAG 学习资料汇总 - 超高性能的RAG管道工具

1 个月前
Cover of Super-RAG 学习资料汇总 - 超高性能的RAG管道工具

ThePipe:强大的多模态数据提取工具

2 个月前
Cover of ThePipe:强大的多模态数据提取工具

PyMuPDF-Utilities: 强大的PDF处理工具箱

2 个月前
Cover of PyMuPDF-Utilities: 强大的PDF处理工具箱

textract: 提取任何文档中的文本,简单易用的开源工具

2 个月前
Cover of textract: 提取任何文档中的文本,简单易用的开源工具

unstructured-inference: 开源非结构化数据处理工具

2 个月前
Cover of unstructured-inference: 开源非结构化数据处理工具

相关项目

Project Cover
super-rag
Super-Rag为AI应用提供了支持多种文档格式与向量数据库的高效RAG流水线。包含生产就绪REST API,支持自定义数据分割,多种编码模式,及代码解释器模式,适于解决计算性问题与答疑,并通过唯一ID高效进行会话管理。
Project Cover
ExtractThinker
ExtractThinker提供智能文件数据提取,支持Tesseract OCR、Azure Form Recognizer和AWS TextExtract等多种文档加载器。适用于异步处理、多种格式和ORM风格操作的模块化架构,并与LangChain生态系统兼容。专注于智能文档处理,大幅提升数据提取准确率,适用于发票、驾照等多场景。
Project Cover
Parsr
Parsr是一款轻量级的文档清理、解析和提取工具,支持图像、PDF、DOCX和EML格式。能够生成JSON、Markdown、CSV/Pandas DF或TXT格式的数据,为分析师、数据科学家和开发者提供结构化的标签信息集,可用于数据录入和文档分析自动化等应用。功能包括文档清理、层次结构重建、标题检测、表格、列表、目录、页码、页眉页脚和链接检测等。通过Docker镜像可以快速安装和运行,并提供GUI工具以可视化结果。
Project Cover
gotenberg
Gotenberg是一个基于Docker的文档转换API,支持将HTML、Markdown、Word、Excel等格式转换为PDF。它利用Chromium和LibreOffice等工具,提供简单易用的接口。无状态设计使其易于部署和扩展,API文档完善,适合需要高效文档处理的开发者使用。
Project Cover
zerox
Zerox OCR是一款基于视觉模型的文档处理工具,通过将PDF转换为图像并使用GPT模型生成Markdown文本,有效处理复杂布局、表格和图表。与传统OCR服务相比,Zerox在准确度和表格处理方面表现出色,同时保持价格竞争力。该工具支持多种输入方式,提供灵活配置,为文档数字化提供了简单高效的解决方案。
Project Cover
surya
Surya是一个开源文档OCR工具包,支持90多种语言的文本识别,性能可与云服务媲美。它提供行级文本检测、布局分析和阅读顺序检测等功能,适用于多种文档类型。Surya不仅识别文本,还能分析文档结构,为文档解析提供全面解决方案。该工具适合研究和个人使用,商业使用需注意相关许可条件。
Project Cover
create_llama_projects
create_llama_projects是一系列基于create-llama命令构建的开源AI项目。项目涵盖嵌入式表格分析、多文档比较、多模态聊天、文档问答等应用。通过整合语言模型和索引技术,这些项目展示了AI在数据分析和智能交互领域的实际应用潜力。
Project Cover
unstructured-inference
unstructured-inference 是一个专注于文档布局分析的开源项目。它能够从各种文件中提取文档结构和文本内容,适用于需要高效文档处理的场景。该项目提供多种检测模型,如 Detectron2 和 YOLOX,可通过 API 与 unstructured 包集成。它支持自定义模型,为开发者提供了灵活的布局解析解决方案。
Project Cover
司马阅
司马阅是一个领先的基于人工智能的文档阅读分析工具,让用户快速提取复杂文档中的关键信息。支持多种文档格式,适用于学习、工作多场景,使市场调研和合同管理更高效。提高工作效率,确保数据安全隐私,全面满足日常办公和学习的需求。同时支持跨文档内容分析,为用户提供全面的信息处理解决方案。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号