#OCR
EasyOCR - 支持80多种语言文字识别工具
Github开源项目OCRPytorchEasyOCRCRNNDBnet
EasyOCR是一款支持80多种语言和主要书写系统(如拉丁文、中文、阿拉伯文等)的光学字符识别(OCR)工具。它提供简单的安装和使用指南,帮助快速实现文本检测与识别,适用于多种场景。最新版本增加了Apple Silicon支持并修复了兼容性问题。未来版本将支持手写文本识别,进一步增强其功能。
layout-parser - 文档图像分析的深度学习工具包
Github开源项目深度学习OCRLayout Parser文档图像分析模型检测
LayoutParser提供多种深度学习模型和统一API,简化文档图像分析任务。支持布局检测、OCR、数据可视化等功能,并允许共享模型和分析流程。安装简便,可根据需求选择依赖项,是文档图像处理的理想工具。
PaddleOCR - 领先的OCR工具库,支持多语言和多硬件平台
Github开源项目模型训练PaddleOCROCR文本识别表格识别热门
PaddleOCR旨在为开发者提供一套丰富、领先且实用的OCR工具库,帮助开发者快速训练并部署OCR模型。它不仅支持中英文识别,还支持多语言和多硬件平台,包括最新的PP-OCRv4模型,有效提高了中英文场景下的识别精确度。适用于移动端和服务器端,适配多种开发需求。
LARS - 开源大型语言模型本地运行与检索增强引用工具
Github开源项目OCRLLMLARSNvidia CUDA文档引用
LARS是一个开源应用,允许在本地设备运行大型语言模型(LLM),支持上传个人文件,以及通过检索增强生成(RAG)技术增强对话准确度和减少生成误差。特点包括精确文献引用、多种文件格式支持、全历史聊天记录和GPU加速。用户可以自定义LLM设置,优化使用体验。
sparrow - 用于从各种文档和图像中高效提取和处理数据的开源工具
Github开源项目OCRLLM数据提取SparrowRAG管道
Sparrow是一个开源解决方案,专注于高效从各类文档和图像中提取与处理数据。它通过模块化架构提供独立的服务和优化的流程,支持表格、发票、收据等非结构化数据源。Sparrow的API支持本地语言模型数据提取,可与自定义工作流程集成。
Bob - 在Mac平台上的全功能翻译和OCR工具
Github开源项目OCR翻译macOSBob截图识别
Bob为macOS用户提供全方位的翻译与OCR解决方案,支持文本、截图、输入及OCR翻译等多样化功能。整合了主流翻译引擎,如Google翻译和腾讯翻译君,确保准确快速地完成翻译任务。其高效的OCR技术,适用于多种应用场景,简化了文本识别过程。Bob的简洁界面和强大功能,使其成为提升Mac用户工作效率的优选工具。
Easydict - macOS查词与翻译工具
Github开源项目多语言支持OCR翻译macOSEasydict
Easydict是专为macOS开发的词典翻译工具,提供词汇查找、全文翻译和OCR识别功能。整合了多种翻译平台,包括有道、苹果系统词典和Google。涵盖48种语言,并配备自动语种识别与智能查询,实现便捷高效的翻译体验。
llm_aided_ocr - 提升OCR文本质量和一致性的系统
Github开源项目OpenAI APIOCRLLM-Aided OCRTesseractFAISS
该系统利用自然语言处理、机器学习和智能文本处理技术,将OCR输出的文本转换为高精度、格式化良好的易读文档。它解决了字符识别错误、段落结构不正确、虚构内容和格式不一致等常见OCR问题。支持从PDF到图像的转换,使用Tesseract进行OCR,并提供通过本地或API接口进行高级错误校正、智能文本分块处理和Markdown格式化等功能。此外,还采用FAISS和嵌入相似性检查进行内容过滤,确保输出文本的质量和一致性。
AutoNode - 自动化网页交互和数据提取的智能引擎
Github开源项目OCR自动化SuperAGIYOLOAutoNode
AutoNode 是一种自操作计算机系统,专注于实现网页交互和数据提取的自动化。它使用光学字符识别(OCR)和 YOLO 模型进行对象检测,结合自定义站点图来程序化地导航和操作网页。只需安装 Python 和 Docker,配置站点图并使用 API,即可轻松完成高效的网页自动化任务。AutoNode 还支持远程托管 YOLO 和 OCR 模块,适合本地资源有限的环境。
STranslate - 多功能翻译和OCR工具,基于WPF开发
Github开源项目OCR翻译工具STranslateWPF
STranslate是一款多功能的翻译和OCR工具,基于WPF开发,满足各种翻译和文字识别需求。用户可以下载最新版本并参阅使用文档获取帮助。项目提供讨论社区,向所有贡献者和灵感来源致谢,并欢迎通过微信或支付宝进行捐赠支持。
receipt-scanner - 利用AI技术为Laravel应用从多种格式中提取结构化收据和发票数据
Github开源项目OpenAIOCRLaravelcomposerTextract
receipt-scanner使用OpenAI技术,支持从图像、PDF和电子邮件中提取结构化的收据数据。此工具适用于Laravel应用,具备OCR功能并支持多种输入格式,如纯文本、Word文档和网页内容。用户通过简单配置,可将复杂的收据数据转换为可操作的信息,从而提高数据处理效率。
Octopii - 个人信息泄露检测工具,自动识别和提取敏感数据
Github开源项目OCRNLPOctopiiPIIRedHunt Labs
Octopii是一款基于OCR和NLP技术的工具,能够高效扫描图像、PDF和文件中的政府ID、地址和电邮等敏感信息。支持多种扫描方式,包括本地文件系统、S3 URLs及Apache公开目录,帮助用户检测和防止个人信息泄露,增强数据安全性。
deepdoctection - 文档AI:基于深度学习的提取与布局分析工具包
Github开源项目深度学习OCR模型deepdoctection文档AI
deepdoctection是一个Python库,通过深度学习模型实现文档提取和布局分析,支持对象检测、OCR和文本挖掘。此集成框架结合Tensorflow或PyTorch等库,适用于PDF或扫描图片文档处理,支持文档布局分析、表格识别和文本分类等任务,致力于解决实际应用问题,是文档处理领域开发者的理想选择。
tr - 高效的离线OCR文本识别与文档理解SDK
Github开源项目OCRTransformerCRNN多模态大模型tr
tr是一款离线OCR文本识别SDK,核心采用C++开发并提供Python接口,支持多行文本识别和多模态大模型集成。tr结合CRNN与TransformerEncoder,提供高效且资源占用低的OCR解决方案,适用于如弯曲文本和图表等复杂场景。最新版本优化了C++接口、支持Python2、多线程功能,并去除了对opencv-python和Pillow的依赖。提供简洁的下载与安装指引,及详细的示例代码便于快速部署和测试。
doctr - 由深度学习提供支持的无缝、高性能和可访问的库,用于 OCR 相关任务
Github开源项目PyTorchTensorFlowOCR文本识别docTR
docTR提供高效、准确的OCR解决方案,支持PDF和图像文件,基于TensorFlow 2和PyTorch。能快速检测识别文档文字,并提供多种处理旋转文档选项。用户可使用预训练模型快速上手或自定义架构。解析结果可视化且支持导出为JSON格式,方便后续处理和分析。
Pix2Text - 开源Python工具,支持高精度数学公式检测和80多种语言的文本识别
Github开源项目开源OCR表格识别Pix2Text数学公式检测
Pix2Text是一款免费开源的Python工具,主要功能与Mathpix类似,能够将复杂布局的图像、表格、文本和数学公式转换为Markdown格式。它支持超过80种语言的文本识别,包括简体中文、繁体中文、英语和越南语。最新的V1.1.1版本引入了新的数学公式检测模型,大幅提升了识别准确性。用户也可以通过在线服务和演示来体验其强大功能。
attention-ocr - 基于注意力机制的视觉OCR模型,实现与导出工具
人工智能Github开源项目OCR图像识别TensorflowAttention-OCR
该项目提供了基于注意力机制的OCR模型,结合了CNN与LSTM,用于图像识别,并能够导出为SavedModel或frozen graph格式。用户可以通过生成TFRecords数据集、训练、测试及可视化等步骤完整运行该OCR系统。项目还支持通过Tensorflow Serving提供REST API服务,并可以在Google Cloud ML Engine上进行模型训练。目前该项目依赖Tensorflow 1.x,未来计划升级到Tensorflow 2。
AIAS - 专为图像识别和自然语言处理设计的高效SDK集合,提升开发效率
Github开源项目自然语言处理OCR机器学习图像识别AIAS
AIAS提供多种图像识别和自然语言处理SDK,包括OCR工具、动物分类、单目深度估计等图像处理功能,以及词向量、机器翻译、情感分析等自然语言处理应用。该项目旨在提升开发效率,满足多种业务需求。
ddddocr - 多功能验证码识别库 支持OCR与目标检测
Github开源项目OCR目标检测DdddOcr验证码识别滑块检测
ddddocr是一个开源的验证码识别库,支持基础OCR、目标检测和滑块识别等多种功能。该项目采用深度学习技术,无需针对特定验证码训练,具有通用性强的特点。ddddocr支持Windows、Linux和MacOS等主流操作系统,提供Python接口便于集成。项目设计注重简化配置和使用流程,为开发者提供了一个高效的验证码识别工具。
tessdata - Tesseract.js OCR语言数据集综合指南
Github开源项目OCR语言模型Tesseract.js训练数据NPM包
tessdata项目是Tesseract.js的多语言OCR数据集仓库。它提供了LSTM和传统OCR引擎的训练文件,包括默认和替代版本。项目详细说明了各数据集特点、NPM包发布状态,并介绍了通过CDN或本地方式集成到Tesseract.js的方法。这一资源为开发者提供了全面的OCR语言数据集使用指南。
tesseract.js-core - Tesseract OCR引擎的JavaScript WebAssembly实现
Github开源项目OCR图像识别WebAssemblyTesseract.js
tesseract.js-core是tesseract.js的核心组件,将Tesseract OCR引擎从C语言编译为JavaScript WebAssembly。该项目提供跨平台的文字识别功能,适用于浏览器和Node.js环境。它包含构建脚本、JavaScript封装和第三方依赖,并对Tesseract进行了优化,增加了页面角度检测和图像旋转等功能。开发者可使用Docker构建,或运行最小示例测试其功能。
marker - 高效准确的PDF转Markdown转换器 支持多语言和多类文档
Github开源项目深度学习OCRMarkdownGPU加速PDF转换
Marker是一款高效的PDF转Markdown转换工具,支持多语言和多类文档,特别适合处理书籍和科学论文。该工具能自动清理页眉页脚,格式化表格和代码,提取图像,并将方程转为LaTeX。Marker可在GPU、CPU或MPS上运行,具有优异的性能和准确度。其独特的深度学习模型流程确保了转换的速度和质量。
surya - 开源多语言文档识别与分析工具
Github开源项目OCR文档处理Surya布局分析多语言识别
Surya是一个开源文档OCR工具包,支持90多种语言的文本识别,性能可与云服务媲美。它提供行级文本检测、布局分析和阅读顺序检测等功能,适用于多种文档类型。Surya不仅识别文本,还能分析文档结构,为文档解析提供全面解决方案。该工具适合研究和个人使用,商业使用需注意相关许可条件。
tarsier - 网页交互感知系统赋能AI代理执行网络任务
Github开源项目OCR自动化LLMTarsier网页交互
Tarsier是一个为网络交互AI代理开发的视觉工具包。它利用智能标记和OCR技术将网页内容转化为结构化文本,使AI能够理解网页布局。该工具支持多种OCR引擎,提供易用的API,帮助开发者为AI代理增添网页感知能力,提高自动化网络任务的效率。
ocrs - 基于Rust的开源OCR引擎和命令行工具
Github开源项目OCR机器学习RustONNX图像文字提取
ocrs是一个基于Rust的开源光学字符识别(OCR)库和命令行工具,利用机器学习技术从各类图像中提取文本。它旨在提供一个现代化的OCR引擎,能够处理多种图像类型,并大幅减少预处理工作。ocrs具有跨平台兼容性,支持WebAssembly,使用开放许可数据集训练。目前项目处于早期阶段,支持拉丁字母识别,并计划未来扩展更多语言支持。
marker-api - 高效精准的PDF到Markdown转换工具
Github开源项目OCR文档转换API部署PDF转MarkdownMarker API
Marker API是一款性能卓越的PDF转Markdown工具,支持多语言和多种文档类型。该工具能精准提取文本、表格、代码块和图片,通过深度学习模型实现高速转换,尤其适用于学术论文、技术文档等复杂PDF的转换。与同类产品相比,转换速度提升4倍。Marker API部署简便,适用于GPU和CPU环境,为PDF文档处理提供灵活选择。
large-ocr-model.github.io - OCR 技术提升多模态大模型视觉问答性能研究
Github开源项目OCR多模态视觉问答大型模型缩放法则
本项目研究 OCR 技术对多模态大模型性能的影响。实验表明,OCR 能显著提高模型在视觉问答任务中的表现。研究者构建了 REBU-Syn 数据集,验证了 OCR 领域的缩放法则,并开发了高精度 OCR 模型。这项工作为多模态大模型的应用开辟了新方向,揭示了 OCR 在增强模型能力方面的重要价值。
texify - 高效OCR模型,图像数学公式到Markdown和LaTeX的转换工具
Github开源项目图像转换OCR机器学习LaTeXTexify
Texify是一个开源OCR模型,可将含数学公式的图像或PDF转换为Markdown和LaTeX格式。支持块级和内联公式,兼容CPU、GPU和MPS。基于多样化数据集训练,相较其他开源工具准确度更高。提供GUI、命令行和Python API,适用于多种场景。
TexTeller - 端到端公式识别模型 支持多种输入格式
Github开源项目OCR机器学习图像处理公式识别TexTeller
TexTeller是一个基于TrOCR的公式识别模型,可将图像转换为LaTeX公式。该模型使用8000万对图像-公式数据训练,具备优秀的泛化能力和准确度。TexTeller支持多种输入格式,包括扫描图像、手写公式和中英文混合公式,还提供中英文印刷体OCR功能。此外,项目集成了公式检测、段落识别和Web演示界面,便于与其他项目整合。
tessdoc - 多语言支持的开源文字识别引擎
Github开源项目OCR机器学习开源软件文字识别Tesseract
Tesseract是一款功能强大的开源OCR引擎,支持100多种语言和35种以上的文字。它提供命令行和API接口,可从图像中精确提取文本。Tesseract采用LSTM神经网络技术,具有高度可定制性,并配备完善的训练测试工具。该引擎可跨平台使用,包括移动设备,为开发者提供了灵活的文字识别解决方案。
macosrec - macOS命令行窗口截图录屏工具 支持OCR识别
Github开源项目OCR命令行工具截图macosrec录屏
macosrec是一款面向macOS系统的命令行工具,提供窗口截图、视频录制和OCR文字识别功能。用户可通过命令列出可操作窗口,选择目标窗口进行截图或录制,并支持PNG、GIF和MOV格式输出。该工具还能识别屏幕区域或图像中的文字,适用于开发者和普通用户。
LightPDF - AI多功能PDF在线工具集
OCRAI工具文档转换PDF编辑器LightPDF
LightPDF是一个功能全面的在线PDF处理平台,集成AI技术提供编辑、转换、OCR、签名、注释等服务。支持跨平台使用,包括桌面、移动和网页版。平台提供云存储功能,便于随时访问文件。同时为开发者提供PDF API和SDK解决方案。LightPDF适用于个人和企业用户,能满足各种PDF处理需求,有效提升工作效率。
Procys - 智能文档处理与数据提取解决方案
AIOCRAI工具文档处理数据提取Procys
Procys专注于智能文档处理,利用OCR技术和机器学习算法自动提取处理各类文档数据。支持多种文件格式,可与260多个应用集成,助力企业实现流程自动化。平台符合ISO 27001、SOC 2和GDPR标准,提供安全可靠的文档处理方案,适用于发票、收据、身份证等多种场景。
GoPDF - 多功能PDF编辑管理平台 集成AI对话功能
OCRAI工具文档管理电子签名文件转换PDF编辑
GoPDF是综合性在线PDF平台,提供编辑、转换、合并等多种功能。支持文本图像编辑、表单填签、OCR识别,特色AI文档对话功能。还可HTML转PDF、添加页眉页脚。界面直观、服务安全可靠,全天候支持,为用户带来便捷PDF管理体验。
Keep It Shot - Mac平台智能截图管理与快速搜索应用
OCRAI工具Mac应用文件搜索Keep It ShotAI自动重命名
Keep It Shot是一款Mac平台应用,通过AI技术为截图自动生成描述性名称。该应用创建离线且私密的搜索索引,支持关键词快速定位截图。功能包括批量重命名、自动重命名、OCR识别和快速搜索,有助于高效管理媒体文件。Keep It Shot提供智能、可搜索的文件管理方案,适用于需要组织大量截图的用户。
GetSearchablePDF - OCR技术将PDF文档转换为可搜索文本
OCRAI工具搜索PDF转换信用点数
GetSearchablePDF提供PDF文档OCR转换服务,将扫描或图像PDF转为可搜索文本。用户通过拖放操作即可在短时间内完成转换。网站提供免费试用和多种付费方案,满足不同需求。处理后文件自动删除,保障数据安全。这是一个高效、便捷的PDF文档数字化解决方案。
相关文章