#文档处理

ExtractThinker入门指南 - 基于LLM的灵活文档智能处理库

2024年09月10日
Cover of ExtractThinker入门指南 - 基于LLM的灵活文档智能处理库

Super-RAG 学习资料汇总 - 超高性能的RAG管道工具

2024年09月10日
Cover of Super-RAG 学习资料汇总 - 超高性能的RAG管道工具

Local Llama: 本地运行大型语言模型的创新解决方案

2024年09月05日
Cover of Local Llama: 本地运行大型语言模型的创新解决方案

ThePipe:强大的多模态数据提取工具

2024年09月05日
Cover of ThePipe:强大的多模态数据提取工具

HDLTex:层次化深度学习文本分类模型

2024年09月05日
Cover of HDLTex:层次化深度学习文本分类模型

PyMuPDF-Utilities: 强大的PDF处理工具箱

2024年09月05日
Cover of PyMuPDF-Utilities: 强大的PDF处理工具箱

Question Extractor: 自动生成问答训练数据的革新工具

2024年09月05日
Cover of Question Extractor: 自动生成问答训练数据的革新工具

textract: 提取任何文档中的文本,简单易用的开源工具

2024年09月05日
Cover of textract: 提取任何文档中的文本,简单易用的开源工具

PaperMage: 一个统一的科学文献处理、表示和操作工具包

2024年09月05日
Cover of PaperMage: 一个统一的科学文献处理、表示和操作工具包

unstructured-inference: 开源非结构化数据处理工具

2024年09月05日
Cover of unstructured-inference: 开源非结构化数据处理工具
相关项目
Project Cover

super-rag

Super-Rag为AI应用提供了支持多种文档格式与向量数据库的高效RAG流水线。包含生产就绪REST API,支持自定义数据分割,多种编码模式,及代码解释器模式,适于解决计算性问题与答疑,并通过唯一ID高效进行会话管理。

Project Cover

ExtractThinker

ExtractThinker提供智能文件数据提取,支持Tesseract OCR、Azure Form Recognizer和AWS TextExtract等多种文档加载器。适用于异步处理、多种格式和ORM风格操作的模块化架构,并与LangChain生态系统兼容。专注于智能文档处理,大幅提升数据提取准确率,适用于发票、驾照等多场景。

Project Cover

Parsr

Parsr是一款轻量级的文档清理、解析和提取工具,支持图像、PDF、DOCX和EML格式。能够生成JSON、Markdown、CSV/Pandas DF或TXT格式的数据,为分析师、数据科学家和开发者提供结构化的标签信息集,可用于数据录入和文档分析自动化等应用。功能包括文档清理、层次结构重建、标题检测、表格、列表、目录、页码、页眉页脚和链接检测等。通过Docker镜像可以快速安装和运行,并提供GUI工具以可视化结果。

Project Cover

gotenberg

Gotenberg是一个基于Docker的文档转换API,支持将HTML、Markdown、Word、Excel等格式转换为PDF。它利用Chromium和LibreOffice等工具,提供简单易用的接口。无状态设计使其易于部署和扩展,API文档完善,适合需要高效文档处理的开发者使用。

Project Cover

zerox

Zerox OCR是一款基于视觉模型的文档处理工具,通过将PDF转换为图像并使用GPT模型生成Markdown文本,有效处理复杂布局、表格和图表。与传统OCR服务相比,Zerox在准确度和表格处理方面表现出色,同时保持价格竞争力。该工具支持多种输入方式,提供灵活配置,为文档数字化提供了简单高效的解决方案。

Project Cover

surya

Surya是一个开源文档OCR工具包,支持90多种语言的文本识别,性能可与云服务媲美。它提供行级文本检测、布局分析和阅读顺序检测等功能,适用于多种文档类型。Surya不仅识别文本,还能分析文档结构,为文档解析提供全面解决方案。该工具适合研究和个人使用,商业使用需注意相关许可条件。

Project Cover

create_llama_projects

create_llama_projects是一系列基于create-llama命令构建的开源AI项目。项目涵盖嵌入式表格分析、多文档比较、多模态聊天、文档问答等应用。通过整合语言模型和索引技术,这些项目展示了AI在数据分析和智能交互领域的实际应用潜力。

Project Cover

fpdf2

fpdf2是一个成熟且积极维护的Python PDF创建库,支持Python 3.7+版本。该库完全用Python编写,依赖极少,具有Unicode支持、图像嵌入、SVG导入等多种功能。fpdf2可以轻松创建包含文本、图像、链接、表格等内容的PDF文档,速度快、易于学习和扩展,适用于各种PDF生成需求。

Project Cover

司马阅

司马阅是一个领先的基于人工智能的文档阅读分析工具,让用户快速提取复杂文档中的关键信息。支持多种文档格式,适用于学习、工作多场景,使市场调研和合同管理更高效。提高工作效率,确保数据安全隐私,全面满足日常办公和学习的需求。同时支持跨文档内容分析,为用户提供全面的信息处理解决方案。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号