naps2

跨平台文档扫描应用支持多种格式输出

NAPS2 文档扫描 PDF OCR 跨平台 Github 开源项目

NAPS2是一款开源文档扫描应用，支持Windows、Mac和Linux系统。它可从多种类型扫描仪获取文档，支持PDF、TIFF、JPEG和PNG格式输出。软件集成了Tesseract OCR引擎，提供光学字符识别功能。NAPS2支持多语言界面，并为开发者提供SDK，是一个功能完整的跨平台扫描解决方案。

访问官网

Github

介绍相关项目

tesserocr - Python封装的OCR引擎简化技术集成

GithubOCRPythonTesseract APItesserocr图像识别开源项目

tesserocr是基于Tesseract OCR引擎的Python封装库，通过Cython集成Tesseract C++ API。它提供简洁的Pythonic接口，支持多线程并发，可与Pillow库配合。tesserocr简化了OCR集成，便于开发者在Python项目中实现高效文字识别。该库支持多种图像格式，提供丰富的API功能，包括文本识别、布局分析和方向检测等。tesserocr支持多种语言识别、图像预处理、文本布局分析等高级功能。它还提供了简单的命令行接口，方便快速测试和使用。该库适用于各种OCR应用场景，如文档数字化、图像文本提取和自动化数据录入等。

PyMuPDF - 多功能文档处理的Python库

GithubPDF处理PyMuPDFPython库开源项目数据提取文档分析

PyMuPDF是一个高性能的Python库，用于处理PDF及其他文档格式。它支持数据提取、分析、转换和操作，兼容Python 3.8及以上版本。该库提供简洁的API，可高效处理文档页面和提取文本。PyMuPDF还支持字体子集创建和OCR等可选功能，适用于各种文档处理任务。无需额外依赖，安装便捷，是文档处理领域的实用工具。

zerox - 基于视觉模型的创新文档数字化工具

AIGPTGithubMarkdownZerox OCR开源项目文档处理

Zerox OCR是一款基于视觉模型的文档处理工具，通过将PDF转换为图像并使用GPT模型生成Markdown文本，有效处理复杂布局、表格和图表。与传统OCR服务相比，Zerox在准确度和表格处理方面表现出色，同时保持价格竞争力。该工具支持多种输入方式，提供灵活配置，为文档数字化提供了简单高效的解决方案。

sparrow - 用于从各种文档和图像中高效提取和处理数据的开源工具

GithubLLMOCRRAG管道Sparrow开源项目数据提取

Sparrow是一个开源解决方案，专注于高效从各类文档和图像中提取与处理数据。它通过模块化架构提供独立的服务和优化的流程，支持表格、发票、收据等非结构化数据源。Sparrow的API支持本地语言模型数据提取，可与自定义工作流程集成。

PDF Translator and Editor - 全能智能文档翻译与编辑工具

AI工具AI翻译PDF转换多语言支持文件翻译格式保持

这款文档翻译和编辑工具支持PDF、Word、Excel、PowerPoint和图片等多种格式的文件翻译，可将文档翻译成136种语言，并保持原有格式和布局。工具提供PDF转换和编辑功能，包括PDF与图片互转、文本编辑和PDF拆分等。采用谷歌和微软的神经机器翻译模型，支持自动语言检测和多语言文档翻译。已获得来自200多个国家和地区的25万用户使用，无文件大小和页数限制，可通过分享扩展在任何应用中使用翻译功能。

ddddocr - 多功能验证码识别库支持OCR与目标检测

DdddOcrGithubOCR开源项目滑块检测目标检测验证码识别

ddddocr是一个开源的验证码识别库，支持基础OCR、目标检测和滑块识别等多种功能。该项目采用深度学习技术，无需针对特定验证码训练，具有通用性强的特点。ddddocr支持Windows、Linux和MacOS等主流操作系统，提供Python接口便于集成。项目设计注重简化配置和使用流程，为开发者提供了一个高效的验证码识别工具。

llm_aided_ocr - 提升OCR文本质量和一致性的系统

FAISSGithubLLM-Aided OCROCROpenAI APITesseract开源项目

该系统利用自然语言处理、机器学习和智能文本处理技术，将OCR输出的文本转换为高精度、格式化良好的易读文档。它解决了字符识别错误、段落结构不正确、虚构内容和格式不一致等常见OCR问题。支持从PDF到图像的转换，使用Tesseract进行OCR，并提供通过本地或API接口进行高级错误校正、智能文本分块处理和Markdown格式化等功能。此外，还采用FAISS和嵌入相似性检查进行内容过滤，确保输出文本的质量和一致性。

BetterOCR - 多个OCR引擎与LLM结合实现高精度文本检测

BetterOCRGithubLLMOCR引擎多语言支持开源项目文本检测

BetterOCR通过结合EasyOCR、Tesseract和Pororo等OCR引擎，并使用LLM技术，解决多语言文本检测难题。支持自定义上下文以提高文本识别的精度，即使是罕见或非传统词汇也能保证高准确性。支持异步操作和改进的界面，并持续快速开发中。欢迎贡献与参与，共同提升OCR技术。

RapidStructure - 全面文档图像处理与结构化解析工具集

GithubRapidStructure开源项目文档分析版面分析版面还原表格识别

RapidStructure是一个开源的文档图像处理工具集,提供文档方向分类、版面分析和表格识别等功能。该项目实现了从文档图像到结构化数据的完整处理流程,包括新增的版面还原功能。RapidStructure可与RapidOCR配合使用,支持Linux、Windows和Mac平台,兼容Python 3.6及以上版本。

nlm-ingestor - 多格式文档解析器助力RAG优化

Apache TikaGithubHTML解析PDF解析RAGnlm-ingestor开源项目

nlm-ingestor是一个开源的文档解析工具，专门针对RAG(检索增强生成)进行了优化。它支持PDF、HTML和文本等多种格式，提供章节划分、段落链接和表格识别等精确的内容结构化功能。该项目整合了改进版Apache Tika和OCR技术，能够高效处理大型文档。nlm-ingestor不依赖特殊硬件，为开发者提供了强大的基础设施，有助于提高LLM项目的检索和生成性能。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号