#文档处理
Question Extractor: 自动生成问答训练数据的革新工具
super-rag
Super-Rag为AI应用提供了支持多种文档格式与向量数据库的高效RAG流水线。包含生产就绪REST API,支持自定义数据分割,多种编码模式,及代码解释器模式,适于解决计算性问题与答疑,并通过唯一ID高效进行会话管理。
ExtractThinker
ExtractThinker提供智能文件数据提取,支持Tesseract OCR、Azure Form Recognizer和AWS TextExtract等多种文档加载器。适用于异步处理、多种格式和ORM风格操作的模块化架构,并与LangChain生态系统兼容。专注于智能文档处理,大幅提升数据提取准确率,适用于发票、驾照等多场景。
Parsr
Parsr是一款轻量级的文档清理、解析和提取工具,支持图像、PDF、DOCX和EML格式。能够生成JSON、Markdown、CSV/Pandas DF或TXT格式的数据,为分析师、数据科学家和开发者提供结构化的标签信息集,可用于数据录入和文档分析自动化等应用。功能包括文档清理、层次结构重建、标题检测、表格、列表、目录、页码、页眉页脚和链接检测等。通过Docker镜像可以快速安装和运行,并提供GUI工具以可视化结果。
gotenberg
Gotenberg是一个基于Docker的文档转换API,支持将HTML、Markdown、Word、Excel等格式转换为PDF。它利用Chromium和LibreOffice等工具,提供简单易用的接口。无状态设计使其易于部署和扩展,API文档完善,适合需要高效文档处理的开发者使用。
zerox
Zerox OCR是一款基于视觉模型的文档处理工具,通过将PDF转换为图像并使用GPT模型生成Markdown文本,有效处理复杂布局、表格和图表。与传统OCR服务相比,Zerox在准确度和表格处理方面表现出色,同时保持价格竞争力。该工具支持多种输入方式,提供灵活配置,为文档数字化提供了简单高效的解决方案。
surya
Surya是一个开源文档OCR工具包,支持90多种语言的文本识别,性能可与云服务媲美。它提供行级文本检测、布局分析和阅读顺序检测等功能,适用于多种文档类型。Surya不仅识别文本,还能分析文档结构,为文档解析提供全面解决方案。该工具适合研究和个人使用,商业使用需注意相关许可条件。
create_llama_projects
create_llama_projects是一系列基于create-llama命令构建的开源AI项目。项目涵盖嵌入式表格分析、多文档比较、多模态聊天、文档问答等应用。通过整合语言模型和索引技术,这些项目展示了AI在数据分析和智能交互领域的实际应用潜力。
fpdf2
fpdf2是一个成熟且积极维护的Python PDF创建库,支持Python 3.7+版本。该库完全用Python编写,依赖极少,具有Unicode支持、图像嵌入、SVG导入等多种功能。fpdf2可以轻松创建包含文本、图像、链接、表格等内容的PDF文档,速度快、易于学习和扩展,适用于各种PDF生成需求。
司马阅
司马阅是一个领先的基于人工智能的文档阅读分析工具,让用户快速提取复杂文档中的关键信息。支持多种文档格式,适用于学习、工作多场景,使市场调研和合同管理更高效。提高工作效率,确保数据安全隐私,全面满足日常办公和学习的需求。同时支持跨文档内容分析,为用户提供全面的信息处理解决方案。