#OCR

EasyOCR - 支持80多种语言文字识别工具

Github开源项目OCRPytorchEasyOCRCRNNDBnet

EasyOCR是一款支持80多种语言和主要书写系统（如拉丁文、中文、阿拉伯文等）的光学字符识别（OCR）工具。它提供简单的安装和使用指南，帮助快速实现文本检测与识别，适用于多种场景。最新版本增加了Apple Silicon支持并修复了兼容性问题。未来版本将支持手写文本识别，进一步增强其功能。

layout-parser - 文档图像分析的深度学习工具包

Github开源项目深度学习OCRLayout Parser文档图像分析模型检测

LayoutParser提供多种深度学习模型和统一API，简化文档图像分析任务。支持布局检测、OCR、数据可视化等功能，并允许共享模型和分析流程。安装简便，可根据需求选择依赖项，是文档图像处理的理想工具。

PaddleOCR - 领先的OCR工具库，支持多语言和多硬件平台

Github开源项目模型训练PaddleOCROCR文本识别表格识别热门

PaddleOCR旨在为开发者提供一套丰富、领先且实用的OCR工具库，帮助开发者快速训练并部署OCR模型。它不仅支持中英文识别，还支持多语言和多硬件平台，包括最新的PP-OCRv4模型，有效提高了中英文场景下的识别精确度。适用于移动端和服务器端，适配多种开发需求。

LARS - 开源大型语言模型本地运行与检索增强引用工具

Github开源项目OCRLLMLARSNvidia CUDA文档引用

LARS是一个开源应用，允许在本地设备运行大型语言模型（LLM），支持上传个人文件，以及通过检索增强生成（RAG）技术增强对话准确度和减少生成误差。特点包括精确文献引用、多种文件格式支持、全历史聊天记录和GPU加速。用户可以自定义LLM设置，优化使用体验。

sparrow - 用于从各种文档和图像中高效提取和处理数据的开源工具

Github开源项目OCRLLM数据提取SparrowRAG管道

Sparrow是一个开源解决方案，专注于高效从各类文档和图像中提取与处理数据。它通过模块化架构提供独立的服务和优化的流程，支持表格、发票、收据等非结构化数据源。Sparrow的API支持本地语言模型数据提取，可与自定义工作流程集成。

Bob - 在Mac平台上的全功能翻译和OCR工具

Github开源项目OCR翻译macOSBob截图识别

Bob为macOS用户提供全方位的翻译与OCR解决方案，支持文本、截图、输入及OCR翻译等多样化功能。整合了主流翻译引擎，如Google翻译和腾讯翻译君，确保准确快速地完成翻译任务。其高效的OCR技术，适用于多种应用场景，简化了文本识别过程。Bob的简洁界面和强大功能，使其成为提升Mac用户工作效率的优选工具。

Easydict - macOS查词与翻译工具

Github开源项目多语言支持OCR翻译macOSEasydict

Easydict是专为macOS开发的词典翻译工具，提供词汇查找、全文翻译和OCR识别功能。整合了多种翻译平台，包括有道、苹果系统词典和Google。涵盖48种语言，并配备自动语种识别与智能查询，实现便捷高效的翻译体验。

llm_aided_ocr - 提升OCR文本质量和一致性的系统

Github开源项目OpenAI APIOCRLLM-Aided OCRTesseractFAISS

该系统利用自然语言处理、机器学习和智能文本处理技术，将OCR输出的文本转换为高精度、格式化良好的易读文档。它解决了字符识别错误、段落结构不正确、虚构内容和格式不一致等常见OCR问题。支持从PDF到图像的转换，使用Tesseract进行OCR，并提供通过本地或API接口进行高级错误校正、智能文本分块处理和Markdown格式化等功能。此外，还采用FAISS和嵌入相似性检查进行内容过滤，确保输出文本的质量和一致性。

AutoNode - 自动化网页交互和数据提取的智能引擎

Github开源项目OCR自动化SuperAGIYOLOAutoNode

AutoNode 是一种自操作计算机系统，专注于实现网页交互和数据提取的自动化。它使用光学字符识别（OCR）和 YOLO 模型进行对象检测，结合自定义站点图来程序化地导航和操作网页。只需安装 Python 和 Docker，配置站点图并使用 API，即可轻松完成高效的网页自动化任务。AutoNode 还支持远程托管 YOLO 和 OCR 模块，适合本地资源有限的环境。

STranslate - 多功能翻译和OCR工具，基于WPF开发

Github开源项目OCR翻译工具STranslateWPF

STranslate是一款多功能的翻译和OCR工具，基于WPF开发，满足各种翻译和文字识别需求。用户可以下载最新版本并参阅使用文档获取帮助。项目提供讨论社区，向所有贡献者和灵感来源致谢，并欢迎通过微信或支付宝进行捐赠支持。

receipt-scanner - 利用AI技术为Laravel应用从多种格式中提取结构化收据和发票数据

Github开源项目OpenAIOCRLaravelcomposerTextract

receipt-scanner使用OpenAI技术，支持从图像、PDF和电子邮件中提取结构化的收据数据。此工具适用于Laravel应用，具备OCR功能并支持多种输入格式，如纯文本、Word文档和网页内容。用户通过简单配置，可将复杂的收据数据转换为可操作的信息，从而提高数据处理效率。

Octopii - 个人信息泄露检测工具，自动识别和提取敏感数据

Github开源项目OCRNLPOctopiiPIIRedHunt Labs

Octopii是一款基于OCR和NLP技术的工具，能够高效扫描图像、PDF和文件中的政府ID、地址和电邮等敏感信息。支持多种扫描方式，包括本地文件系统、S3 URLs及Apache公开目录，帮助用户检测和防止个人信息泄露，增强数据安全性。

deepdoctection - 文档AI：基于深度学习的提取与布局分析工具包

Github开源项目深度学习OCR模型deepdoctection文档AI

deepdoctection是一个Python库，通过深度学习模型实现文档提取和布局分析，支持对象检测、OCR和文本挖掘。此集成框架结合Tensorflow或PyTorch等库，适用于PDF或扫描图片文档处理，支持文档布局分析、表格识别和文本分类等任务，致力于解决实际应用问题，是文档处理领域开发者的理想选择。

tr - 高效的离线OCR文本识别与文档理解SDK

Github开源项目OCRTransformerCRNN多模态大模型tr

tr是一款离线OCR文本识别SDK，核心采用C++开发并提供Python接口，支持多行文本识别和多模态大模型集成。tr结合CRNN与TransformerEncoder，提供高效且资源占用低的OCR解决方案，适用于如弯曲文本和图表等复杂场景。最新版本优化了C++接口、支持Python2、多线程功能，并去除了对opencv-python和Pillow的依赖。提供简洁的下载与安装指引，及详细的示例代码便于快速部署和测试。

doctr - 由深度学习提供支持的无缝、高性能和可访问的库，用于 OCR 相关任务

Github开源项目PyTorchTensorFlowOCR文本识别docTR

docTR提供高效、准确的OCR解决方案，支持PDF和图像文件，基于TensorFlow 2和PyTorch。能快速检测识别文档文字，并提供多种处理旋转文档选项。用户可使用预训练模型快速上手或自定义架构。解析结果可视化且支持导出为JSON格式，方便后续处理和分析。

Pix2Text - 开源Python工具，支持高精度数学公式检测和80多种语言的文本识别

Github开源项目开源OCR表格识别Pix2Text数学公式检测

Pix2Text是一款免费开源的Python工具，主要功能与Mathpix类似，能够将复杂布局的图像、表格、文本和数学公式转换为Markdown格式。它支持超过80种语言的文本识别，包括简体中文、繁体中文、英语和越南语。最新的V1.1.1版本引入了新的数学公式检测模型，大幅提升了识别准确性。用户也可以通过在线服务和演示来体验其强大功能。

attention-ocr - 基于注意力机制的视觉OCR模型，实现与导出工具

人工智能Github开源项目OCR图像识别TensorflowAttention-OCR

该项目提供了基于注意力机制的OCR模型，结合了CNN与LSTM，用于图像识别，并能够导出为SavedModel或frozen graph格式。用户可以通过生成TFRecords数据集、训练、测试及可视化等步骤完整运行该OCR系统。项目还支持通过Tensorflow Serving提供REST API服务，并可以在Google Cloud ML Engine上进行模型训练。目前该项目依赖Tensorflow 1.x，未来计划升级到Tensorflow 2。

AIAS - 专为图像识别和自然语言处理设计的高效SDK集合，提升开发效率

Github开源项目自然语言处理OCR机器学习图像识别AIAS

AIAS提供多种图像识别和自然语言处理SDK，包括OCR工具、动物分类、单目深度估计等图像处理功能，以及词向量、机器翻译、情感分析等自然语言处理应用。该项目旨在提升开发效率，满足多种业务需求。

ddddocr - 多功能验证码识别库支持OCR与目标检测

Github开源项目OCR目标检测DdddOcr验证码识别滑块检测

ddddocr是一个开源的验证码识别库，支持基础OCR、目标检测和滑块识别等多种功能。该项目采用深度学习技术，无需针对特定验证码训练，具有通用性强的特点。ddddocr支持Windows、Linux和MacOS等主流操作系统，提供Python接口便于集成。项目设计注重简化配置和使用流程，为开发者提供了一个高效的验证码识别工具。

tessdata - Tesseract.js OCR语言数据集综合指南

Github开源项目OCR语言模型Tesseract.js训练数据NPM包

tessdata项目是Tesseract.js的多语言OCR数据集仓库。它提供了LSTM和传统OCR引擎的训练文件，包括默认和替代版本。项目详细说明了各数据集特点、NPM包发布状态，并介绍了通过CDN或本地方式集成到Tesseract.js的方法。这一资源为开发者提供了全面的OCR语言数据集使用指南。

tesseract.js-core - Tesseract OCR引擎的JavaScript WebAssembly实现

Github开源项目OCR图像识别WebAssemblyTesseract.js

tesseract.js-core是tesseract.js的核心组件，将Tesseract OCR引擎从C语言编译为JavaScript WebAssembly。该项目提供跨平台的文字识别功能，适用于浏览器和Node.js环境。它包含构建脚本、JavaScript封装和第三方依赖，并对Tesseract进行了优化，增加了页面角度检测和图像旋转等功能。开发者可使用Docker构建，或运行最小示例测试其功能。

marker - 高效准确的PDF转Markdown转换器支持多语言和多类文档

Github开源项目深度学习OCRMarkdownGPU加速PDF转换

Marker是一款高效的PDF转Markdown转换工具，支持多语言和多类文档，特别适合处理书籍和科学论文。该工具能自动清理页眉页脚，格式化表格和代码，提取图像，并将方程转为LaTeX。Marker可在GPU、CPU或MPS上运行，具有优异的性能和准确度。其独特的深度学习模型流程确保了转换的速度和质量。

surya - 开源多语言文档识别与分析工具

Github开源项目OCR文档处理Surya布局分析多语言识别

Surya是一个开源文档OCR工具包，支持90多种语言的文本识别，性能可与云服务媲美。它提供行级文本检测、布局分析和阅读顺序检测等功能，适用于多种文档类型。Surya不仅识别文本，还能分析文档结构，为文档解析提供全面解决方案。该工具适合研究和个人使用，商业使用需注意相关许可条件。

tarsier - 网页交互感知系统赋能AI代理执行网络任务

Github开源项目OCR自动化LLMTarsier网页交互

Tarsier是一个为网络交互AI代理开发的视觉工具包。它利用智能标记和OCR技术将网页内容转化为结构化文本，使AI能够理解网页布局。该工具支持多种OCR引擎，提供易用的API，帮助开发者为AI代理增添网页感知能力，提高自动化网络任务的效率。

ocrs - 基于Rust的开源OCR引擎和命令行工具

Github开源项目OCR机器学习RustONNX图像文字提取

ocrs是一个基于Rust的开源光学字符识别(OCR)库和命令行工具，利用机器学习技术从各类图像中提取文本。它旨在提供一个现代化的OCR引擎，能够处理多种图像类型，并大幅减少预处理工作。ocrs具有跨平台兼容性，支持WebAssembly，使用开放许可数据集训练。目前项目处于早期阶段，支持拉丁字母识别，并计划未来扩展更多语言支持。

marker-api - 高效精准的PDF到Markdown转换工具

Github开源项目OCR文档转换API部署PDF转MarkdownMarker API

Marker API是一款性能卓越的PDF转Markdown工具，支持多语言和多种文档类型。该工具能精准提取文本、表格、代码块和图片，通过深度学习模型实现高速转换，尤其适用于学术论文、技术文档等复杂PDF的转换。与同类产品相比，转换速度提升4倍。Marker API部署简便，适用于GPU和CPU环境，为PDF文档处理提供灵活选择。

large-ocr-model.github.io - OCR 技术提升多模态大模型视觉问答性能研究

Github开源项目OCR多模态视觉问答大型模型缩放法则

本项目研究 OCR 技术对多模态大模型性能的影响。实验表明，OCR 能显著提高模型在视觉问答任务中的表现。研究者构建了 REBU-Syn 数据集，验证了 OCR 领域的缩放法则，并开发了高精度 OCR 模型。这项工作为多模态大模型的应用开辟了新方向，揭示了 OCR 在增强模型能力方面的重要价值。

texify - 高效OCR模型，图像数学公式到Markdown和LaTeX的转换工具

Github开源项目图像转换OCR机器学习LaTeXTexify

Texify是一个开源OCR模型，可将含数学公式的图像或PDF转换为Markdown和LaTeX格式。支持块级和内联公式，兼容CPU、GPU和MPS。基于多样化数据集训练，相较其他开源工具准确度更高。提供GUI、命令行和Python API，适用于多种场景。

TexTeller - 端到端公式识别模型支持多种输入格式

Github开源项目OCR机器学习图像处理公式识别TexTeller

TexTeller是一个基于TrOCR的公式识别模型，可将图像转换为LaTeX公式。该模型使用8000万对图像-公式数据训练，具备优秀的泛化能力和准确度。TexTeller支持多种输入格式，包括扫描图像、手写公式和中英文混合公式，还提供中英文印刷体OCR功能。此外，项目集成了公式检测、段落识别和Web演示界面，便于与其他项目整合。

tessdoc - 多语言支持的开源文字识别引擎

Github开源项目OCR机器学习开源软件文字识别Tesseract

Tesseract是一款功能强大的开源OCR引擎，支持100多种语言和35种以上的文字。它提供命令行和API接口，可从图像中精确提取文本。Tesseract采用LSTM神经网络技术，具有高度可定制性，并配备完善的训练测试工具。该引擎可跨平台使用，包括移动设备，为开发者提供了灵活的文字识别解决方案。

macosrec - macOS命令行窗口截图录屏工具支持OCR识别

Github开源项目OCR命令行工具截图macosrec录屏

macosrec是一款面向macOS系统的命令行工具，提供窗口截图、视频录制和OCR文字识别功能。用户可通过命令列出可操作窗口，选择目标窗口进行截图或录制，并支持PNG、GIF和MOV格式输出。该工具还能识别屏幕区域或图像中的文字，适用于开发者和普通用户。

LightPDF - AI多功能PDF在线工具集

OCRAI工具文档转换PDF编辑器LightPDF

LightPDF是一个功能全面的在线PDF处理平台,集成AI技术提供编辑、转换、OCR、签名、注释等服务。支持跨平台使用,包括桌面、移动和网页版。平台提供云存储功能,便于随时访问文件。同时为开发者提供PDF API和SDK解决方案。LightPDF适用于个人和企业用户,能满足各种PDF处理需求,有效提升工作效率。

Procys - 智能文档处理与数据提取解决方案

AIOCRAI工具文档处理数据提取Procys

Procys专注于智能文档处理,利用OCR技术和机器学习算法自动提取处理各类文档数据。支持多种文件格式,可与260多个应用集成,助力企业实现流程自动化。平台符合ISO 27001、SOC 2和GDPR标准,提供安全可靠的文档处理方案,适用于发票、收据、身份证等多种场景。

GoPDF - 多功能PDF编辑管理平台集成AI对话功能

OCRAI工具文档管理电子签名文件转换PDF编辑

GoPDF是综合性在线PDF平台，提供编辑、转换、合并等多种功能。支持文本图像编辑、表单填签、OCR识别，特色AI文档对话功能。还可HTML转PDF、添加页眉页脚。界面直观、服务安全可靠，全天候支持，为用户带来便捷PDF管理体验。

Keep It Shot - Mac平台智能截图管理与快速搜索应用

OCRAI工具Mac应用文件搜索Keep It ShotAI自动重命名

Keep It Shot是一款Mac平台应用，通过AI技术为截图自动生成描述性名称。该应用创建离线且私密的搜索索引，支持关键词快速定位截图。功能包括批量重命名、自动重命名、OCR识别和快速搜索，有助于高效管理媒体文件。Keep It Shot提供智能、可搜索的文件管理方案，适用于需要组织大量截图的用户。

GetSearchablePDF - OCR技术将PDF文档转换为可搜索文本

OCRAI工具搜索PDF转换信用点数

GetSearchablePDF提供PDF文档OCR转换服务，将扫描或图像PDF转为可搜索文本。用户通过拖放操作即可在短时间内完成转换。网站提供免费试用和多种付费方案，满足不同需求。处理后文件自动删除，保障数据安全。这是一个高效、便捷的PDF文档数字化解决方案。

相关文章

Article Cover

LARS: 本地LLM与高级引用解决方案

Article Cover

Sparrow：创新的数据处理解决方案 - 结合机器学习和大语言模型的开源项目

Article Cover

Bob: macOS 平台强大的翻译和 OCR 软件

Article Cover

STranslate: 一款即开即用的翻译和OCR工具

Article Cover

docTR: 一个高性能、易用的文档文本识别库

Article Cover

Pix2Text: 开源的图像文字识别和公式转换工具

Article Cover

Attention-OCR: 基于视觉注意力机制的图像文本识别模型

Article Cover

AIAS: 一套强大的人工智能加速器套件

Article Cover

EasyOCR: 一款功能强大的多语言OCR工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号