#OCR

InvoiceOCR - 发票OCR和AI解决方案综合对比平台
AI工具AI发票处理数据提取OCR自动化
InvoiceOCR网站全面收录并对比各类发票OCR和AI解决方案。汇集了领先的发票处理和数据提取软件,涵盖高级AI处理、智能数据提取、多语言支持等功能。网站提供详细比较,帮助企业选择最适合的发票自动化工具,提升处理效率和准确度。
OLOCR - 在线多语言OCR文字识别平台 支持批量和PDF处理
AI工具OCR图像识别在线服务多语言支持PDF处理
OLOCR是一个免费且无限制的在线OCR文字识别服务平台。支持英文OCR和多种语言的图像转文字及PDF文档识别,提供批量处理功能。可轻松上传图片或PDF文件,实现快速、准确的文本提取。适用于需要大规模文字识别的个人和企业,为文档数字化和信息提取提供便捷解决方案。
NoteButler - 为Notion提供PDF智能搜索和自动摘要功能
AI工具NoteButlerNotionPDFOCRAI摘要
NoteButler是一款Notion插件,通过OCR技术和AI摘要功能,使PDF文档在Notion中变得可搜索。该工具还支持网站、YouTube视频和播客内容的摘要生成,大大提升了Notion的文档管理效率。NoteButler不存储用户数据,确保了信息安全。它为Notion用户提供了一种简单有效的方式,使原本难以检索的内容变得易于查找和访问,从而增强了Notion的整体功能。
StructiFi - 智能文档数据提取与结构化平台
AI工具StructiFiOCR数据提取AI文档结构化
StructiFi是一个基于AI技术的文档数据提取平台,利用OCR和智能算法从图片、PDF和Word文档中精确提取结构化信息。平台支持将数据转换为JSON、表格等格式,适用于手写表单、收据、发票和展会目录等多种场景。StructiFi通过AI驱动的数据处理流程,为企业和个人用户提供高效的数据数字化、提取和分析解决方案,简化日常工作流程。
comic-translate - 多语言漫画自动翻译开源项目
Comic TranslateOCR翻译语言模型人工智能Github开源项目
Comic Translate是一个开源的多语言漫画翻译项目,支持英语、韩语、日语、法语、中文等语言之间的互译。该项目利用GPT-4等大型语言模型进行翻译,并整合了文本检测、OCR识别和图像修复等技术。Comic Translate适用于全球各类漫画的翻译,不局限于日本漫画。项目特点包括高质量翻译输出、多语言支持和全面的技术集成。
naps2 - 跨平台文档扫描应用 支持多种格式输出
NAPS2文档扫描PDFOCR跨平台Github开源项目
NAPS2是一款开源文档扫描应用,支持Windows、Mac和Linux系统。它可从多种类型扫描仪获取文档,支持PDF、TIFF、JPEG和PNG格式输出。软件集成了Tesseract OCR引擎,提供光学字符识别功能。NAPS2支持多语言界面,并为开发者提供SDK,是一个功能完整的跨平台扫描解决方案。
Text-Grab - 多功能OCR工具实现屏幕文本快速提取与编辑
文本提取OCRWindows应用文本编辑快速查找Github开源项目
Text Grab是一款Windows平台的OCR工具,可从屏幕、图像和视频中提取文本。它提供全屏抓取、框选抓取、文本编辑和快速查找等功能,支持本地OCR识别,无需后台运行。该工具还具备文本处理、正则提取和批量图像OCR等功能,适用于提高文字工作效率。
TextRecognitionDataGenerator - 多语言文本识别数据生成工具
TextRecognitionDataGeneratorOCR图像生成文本识别合成数据Github开源项目
TextRecognitionDataGenerator是一款开源的文本识别数据生成工具。支持多种语言如拉丁文、中文和日文等,可自定义字体、背景、文本扭曲和模糊效果。工具提供命令行界面和Python模块,便于集成到训练流程中。适用于OCR和文本识别模型的数据集制作,支持手写体文本生成功能。
normcap - 跨平台OCR截图工具 智能提取文本信息
NormCapOCR截图工具跨平台开源Github开源项目
NormCap是一款基于OCR技术的屏幕截图工具,适用于Linux、macOS和Windows系统。这款开源软件不仅可以捕获图像,还能智能识别并提取图像中的文本信息。NormCap支持多语言识别,界面简洁易用。无论是日常办公还是学术研究,NormCap都能协助快速获取所需的文字内容,提高工作效率。
PanelCleaner - 基于机器学习的漫画文本清理工具
Panel Cleaner机器学习文本检测图像处理OCRGithub开源项目
PanelCleaner 是一款开源的漫画文本清理工具,采用机器学习技术精确识别文本区域并生成高质量遮罩。该工具能自动清理简单对话气泡,支持批量处理和自定义清理参数,并提供OCR文本提取功能。通过直观的图形界面,PanelCleaner 可大幅提高漫画翻译效率,减少重复性工作,同时避免误删非文本内容。
gosseract - Go语言OCR解决方案 利用Tesseract C++库
gosseractOCRTesseractGo语言图像识别Github开源项目
gosseract是一个Go语言OCR包,利用Tesseract C++库实现光学字符识别。它支持多种图像格式,提供简单API和丰富配置选项。项目包含一个可快速部署的OCR服务器应用,适用于文档数字化、图像文本提取等场景。gosseract支持多语言识别,可轻松集成到各类Go项目中。
papermerge - 开源文档管理系统 高效数字归档全文搜索
Papermerge DMS文档管理系统OCR全文搜索开源软件Github开源项目
Papermerge开源文档管理系统专注于扫描文档处理和长期存储。系统集成OCR文本提取、全文搜索、现代化文件浏览等核心功能。支持多种文档格式,提供REST API和版本控制。作为基于Web的解决方案,Papermerge适用于需要高效数字文档管理的各类场景。
TRex - 高效屏幕文本识别与提取工具
TRexOCR文本提取菜单栏应用macOSGithub开源项目
TRex是一款功能强大的OCR工具,可从屏幕上的任何内容中提取文字。支持PDF、截图和视频等多种格式,无需网络连接即可使用。该工具提供菜单栏快捷访问、全局快捷键和自定义词库等功能,并支持自动化操作和URL scheme集成。TRex适用于各种工作和学习场景,能够快速、准确地获取文本信息。
awesome-ocr - 综合OCR工具和技术资源库
OCR文本检测文档分析图像处理深度学习Github开源项目
该项目整合了OCR领域的多种前沿工具和技术,涵盖图像校正、文本检测、表格识别和手写识别等方面。它提供了从预处理到后处理的完整OCR解决方案,包含大量开源实现和相关研究论文链接。这个资源库对从事文档分析和文本提取的开发者及研究人员具有重要参考价值。
PyMuPDF-Utilities - 全面的PDF和电子文档处理开发工具集
PyMuPDFPDF处理文本提取OCR文档处理Github开源项目
PyMuPDF-Utilities是一个开源项目,提供多种工具和示例,用于PDF、XPS、电子书和纯文本文件处理。项目包含OCR支持、目录处理、字体替换、文本标记和提取等功能。此外,还提供Jupyter笔记本、表格分析工具和布局保留的文本提取脚本。该项目旨在为开发者提供资源,以便于处理各种电子文档格式。
tessdata - Tesseract OCR多语言数据文件库支持传统和LSTM引擎
TesseractOCR语言数据LSTM模型tessdataGithub开源项目
tessdata是Tesseract 4.0.0及更高版本的语言数据文件库。它包含传统引擎和LSTM神经网络引擎的模型,支持多语言识别。项目提供整数化处理的LSTM模型,平衡了速度和精度。tessdata还有多个版本可选,适应不同性能需求。所有数据采用Apache-2.0许可证,为OCR技术发展贡献资源。
MORT - 多语言屏幕实时OCR和翻译工具
MORTOCR实时翻译机器翻译多语言支持Github开源项目
MORT是一款开源的屏幕实时OCR和翻译工具,支持从屏幕提取文本并进行实时翻译。它集成了多种OCR引擎如TesseractOCR、Windows OCR等,以及Papago、Google等翻译服务。MORT具备多区域OCR、图像调整和自定义API等功能,可应用于游戏、视频等场景的实时翻译。该工具支持英语和日语的默认提取与翻译,并可通过剪贴板功能与钩子程序联动。
tesstrain - Tesseract 5训练流程自动化工具
TesseractOCR模型训练机器学习图像处理Github开源项目
tesstrain是一个基于Makefile的Tesseract 5训练工作流工具。它提供完整的OCR模型训练流程,包括数据准备、训练、评估和可视化。支持自定义模型、微调和从头训练,具有灵活的配置选项。tesstrain能生成traineddata文件和错误率图表,适用于高效开发和优化Tesseract模型。
TextSnatcher - Linux平台高效图像文字识别工具
TextSnatcherOCR图像文字识别Linux应用开源软件Github开源项目
TextSnatcher是一款为Linux平台开发的开源OCR工具,基于Tesseract OCR 4.x引擎。它支持多语言识别,能快速从图像中提取文字。用户通过简单拖动即可完成文本复制,操作便捷。TextSnatcher界面友好,适用于日常和工作中的各种文字提取需求。该工具效率高,功能实用,为Linux用户提供了便捷的图像文字识别解决方案。
zotero-ocr - Zotero OCR插件实现PDF文献自动文本识别
ZoteroOCRPDFTesseract插件Github开源项目
Zotero OCR是一个开源的Zotero插件,为PDF文献提供OCR文字识别功能。该插件可为选定PDF添加识别文本,生成新的文本化PDF,或创建纯文本笔记和HTML文件。基于Tesseract OCR引擎,支持多语言识别,并提供自定义配置选项。插件安装简便,有助于提升文献管理效率。
tesserocr - Python封装的OCR引擎简化技术集成
tesserocrOCRPythonTesseract API图像识别Github开源项目
tesserocr是基于Tesseract OCR引擎的Python封装库,通过Cython集成Tesseract C++ API。它提供简洁的Pythonic接口,支持多线程并发,可与Pillow库配合。tesserocr简化了OCR集成,便于开发者在Python项目中实现高效文字识别。该库支持多种图像格式,提供丰富的API功能,包括文本识别、布局分析和方向检测等。tesserocr支持多种语言识别、图像预处理、文本布局分析等高级功能。它还提供了简单的命令行接口,方便快速测试和使用。该库适用于各种OCR应用场景,如文档数字化、图像文本提取和自动化数据录入等。
PaddleOCR-json - 基于PaddleOCR的跨平台离线文字识别组件
PaddleOCR-jsonOCR图像识别离线组件APIGithub开源项目
PaddleOCR-json是基于PaddleOCR开发的离线文字识别组件,支持Windows和Linux系统。该项目提供简单的API接口,兼容多种编程语言,便于快速集成OCR功能。其特点包括部署便捷、识别迅速、精度较高,支持多语言识别,适用于多种复杂场景的文字识别需求。作为开源项目,PaddleOCR-json为开发者提供了一个灵活高效的OCR解决方案。
simple-ocr-opencv - 基于OpenCV和NumPy的轻量级Python OCR工具
OCRPythonOpenCV图像识别机器学习Github开源项目
simple-ocr-opencv是一个基于OpenCV和NumPy的Python OCR工具。它采用矩形模型进行图像分割,使用k-NN算法实现字符分类。项目结构清晰,包含示例代码,支持自定义训练,并提供预标注训练图像和交互式标注功能。开发者可通过example.py快速上手。这个开源项目遵循GNU AGPLv3许可证,适合需要实现基础OCR功能的开发者使用。
TFT-OCR-BOT - 云顶之弈自动化智能助手
TFTOCR自动化游戏辅助PythonGithub开源项目
TFT-OCR-BOT是一个为《云顶之弈》(TFT)游戏开发的开源项目。该工具通过OCR技术识别游戏界面信息,自动执行队伍搭配、装备合成等操作。项目功能包括自动排队、智能选秀、装备管理,并提供图形化的阵容编辑器。TFT-OCR-BOT能够实时识别游戏状态,为《云顶之弈》玩家提供全方位的自动化辅助。
xrem - 跨平台屏幕记录和搜索工具,实时捕捉数字生活轨迹
跨平台截图工具OCR视频流时间线浏览Github开源项目
xrem是一款正在开发中的跨平台屏幕记录和搜索工具,致力于实时捕捉数字生活轨迹。该工具每2秒自动截图并使用OCR技术提取文字,提供高效的时间线浏览和搜索功能。采用Rust编写,确保跨平台兼容性和高性能。虽然仍处于早期阶段,xrem已实现基本的录制、OCR识别、视频流生成和搜索功能,为后续功能扩展奠定基础。目前已支持基本的状态栏操作、截图捕获、OCR文字识别和高效视频流生成。项目仍在积极开发中,计划实现实时OCR、自然语言搜索等高级功能。项目开源,欢迎社区贡献,共同推进开发。
Parseflow - 数据自动化平台提升企业效率
AI工具Parseflow数据自动化OCRAI数据提取集成应用
Parseflow是一个数据自动化平台,帮助企业简化数据处理,减少人工输入,降低成本。支持从发票和合同中提取数据,整合到QuickBooks和谷歌表格等6000多款应用,无需编程,提供强大的OCR支持,支持60多种语言,实现高效安全的数据管理。
surya_rec - surya项目专用的多语言文本识别模型
模型suryaOCR计算机视觉文本识别Github图像处理Huggingface开源项目
surya_rec是一个开源的文本识别模型,基于cc-by-nc-sa-4.0许可发布。该模型作为surya项目的一部分,专注于多语言文本的识别和提取。surya_rec采用深度学习技术,旨在高效识别和提取多语言文本内容,支持文档分析和信息提取。模型注重准确性和性能,为开发者提供强大的OCR解决方案。有兴趣的开发者可通过surya项目的GitHub仓库了解更多详情和使用方法。
license_plate_recognizer - 精准识别车牌文字的OCR模型,适合自动化监控应用
自动监控GithubTransformer模型开源项目License Plate Recognition字符错误率HuggingfaceOCR模型
此模型基于微软的trocr-base-handwritten,专门开发用于从车牌图像中提取文本,特别适用于OCR车牌识别任务,字符错误率为0.0036,适合各类车辆自动化监控系统。利用TrOCR模型并在PawanKrGunjan/license_plates数据集上微调,能高效将图像转换为文本。在低光或者低分辨率下,性能可能下降,且可能会受到不同地区车牌设计差异的影响。