#文本识别

mmocr - 一个基于 PyTorch 和 mmdetection 的用于文本检测、文本识别以及相应的下游任务，包括关键信息提取的开源工具箱

OpenMMLabMMOCRPyTorch文本检测文本识别Github开源项目

MMOCR是一个基于PyTorch和mmdetection的开源工具箱，提供全面的文本检测、文本识别及信息提取解决方案。它支持多种先进模型和模块化设计，允许用户自定义优化器、数据预处理和模型组件。最新版本v1.0.0新增支持SCUT-CTW1500、SynthText和MJSynth数据集，更新了FAQ和文档，并添加了新教程笔记本。适用于PyTorch 1.6+，欢迎研究人员和开发者贡献改进。

PaddleOCR - 领先的OCR工具库，支持多语言和多硬件平台

PaddleOCROCR模型训练文本识别表格识别Github开源项目热门

PaddleOCR旨在为开发者提供一套丰富、领先且实用的OCR工具库，帮助开发者快速训练并部署OCR模型。它不仅支持中英文识别，还支持多语言和多硬件平台，包括最新的PP-OCRv4模型，有效提高了中英文场景下的识别精确度。适用于移动端和服务器端，适配多种开发需求。

Rectlabel-support - 图像标注工具，支持自动化标注和多格式导出

RectLabel自动标注文本识别导出格式图像标注Github开源项目

RectLabel 是一款图像标注工具，支持 Segment Anything 和 Core ML 模型的自动标注，能够识别文本、曲线、点线和骨架等。支持导出COCO、Labelme、CreateML、YOLO和DOTA格式，以及索引色和灰度掩码图像。通过自定义热键和快捷设置，提高标注效率，满足不同图像处理需求。

react-native-ml-kit - 使用 Google ML 套件的 React Native 设备端机器学习

React NativeML Kit机器学习文本识别条码扫描Github开源项目

本项目使用React Native和Google ML Kit，实现多种设备端机器学习功能，如图像标记、语言识别、人脸检测、文本识别和条形码扫描，并支持Android和iOS系统。部分高级功能如对象检测和智能回复尚不支持。

CTCWordBeamSearch - CTC解码器提升文本和语音识别的性能

CTCWord Beam SearchPython文本识别语言模型Github开源项目

CTC Word Beam Search是一种基于词典和语言模型的连接时序分类（CTC）解码器，支持Python 3.11和3.12版本。项目提供详细的安装和使用指南，并通过示例代码展示其在文本识别模型中的应用。算法具有四大特点：使用词典约束词语、允许词间出现任意非词字符、可选用词级语言模型（LM）以及比token传递算法更快。文档中提供了主要参数的说明和更多的技术细节及使用案例，适用于手写文本识别和自动语音识别。

doctr - 由深度学习提供支持的无缝、高性能和可访问的库，用于 OCR 相关任务

docTROCRTensorFlowPyTorch文本识别Github开源项目

docTR提供高效、准确的OCR解决方案，支持PDF和图像文件，基于TensorFlow 2和PyTorch。能快速检测识别文档文字，并提供多种处理旋转文档选项。用户可使用预训练模型快速上手或自定义架构。解析结果可视化且支持导出为JSON格式，方便后续处理和分析。

PaddleOCR2Pytorch - 开源工具实现PaddleOCR模型向PyTorch框架的转换

PaddleOCROCR系统文本检测文本识别多语言识别Github开源项目

PaddleOCR2Pytorch是一个开源项目，致力于将PaddleOCR模型转换为PyTorch框架可用的版本。项目支持多种OCR算法，涵盖文本检测、方向分类和文本识别，同时提供丰富的预训练模型。它不仅使PyTorch用户能够便捷使用PaddleOCR的优质模型，还为跨深度学习框架的模型转换提供了实用参考。

AI Content Detector - 多语言支持的AI内容识别与分析工具

AI工具AI检测器内容分析文本识别GPT模型原创性验证

该工具提供多语言AI内容检测服务，支持批量文件上传和实时分析。采用先进的GPT-4模型，能准确识别AI生成内容，并生成PDF报告。适用于学术论文和日常写作，帮助验证内容真实性，维护作品质量。无需注册，即可免费使用这一高效的内容分析工具。

magi - 漫画内容自动转录与角色识别系统

Magi漫画AI模型计算机视觉文本识别Github开源项目

Magi是一个开源项目,致力于自动生成漫画转录和角色识别。该系统可以定位文本框、识别说话人物,并生成漫画对话转录。Magiv2版本支持整章漫画处理和角色名称识别。Magi为研究人员和漫画爱好者提供了获取漫画文本内容的工具,提高了漫画的可访问性和分析便利性。

Handwriting OCR - AI多语言手写文本识别与数字化平台

AI工具手写OCR文档数字化多语言支持AI增强文本识别

这是一款专业的手写文本识别和数字化工具，采用先进的AI驱动OCR技术。支持300多种语言，将手写文档快速转换为数字文本，错误率低于1%。提供AI增强的格式化结果，适用于人力资源、法律、医疗等多个行业。用户可通过云端仪表板上传文档，轻松导出为Word或Excel格式，显著提高工作效率和准确性。

tools-ocr - Tree Hole OCR 高效本地文本识别工具

Tree Hole OCR本地OCR识别跨平台兼容文本识别PDF识别Github开源项目

Tree Hole OCR是一款基于Paddle OCR模型的本地文本识别工具。无需联网即可快速识别文字，支持PDF、图像和截图识别等多种功能。采用Java和JavaFX开发，具有良好的跨平台兼容性，适用于Mac OS X 12.6及以上系统。该工具依赖于DJL、PyTorch等深度学习框架，集成了OpenCV图像处理库。除基本文本识别外，还支持PDF识别和快捷键截图识别。项目开源，可在GitHub或Gitee上获取源码。

TextRecognitionDataGenerator - 多语言文本识别数据生成工具

TextRecognitionDataGeneratorOCR图像生成文本识别合成数据Github开源项目

TextRecognitionDataGenerator是一款开源的文本识别数据生成工具。支持多种语言如拉丁文、中文和日文等，可自定义字体、背景、文本扭曲和模糊效果。工具提供命令行界面和Python模块，便于集成到训练流程中。适用于OCR和文本识别模型的数据集制作，支持手写体文本生成功能。

image-text-localization-recognition - 场景文本检测与识别研究进展资源汇总

场景文本检测文本识别深度学习计算机视觉人工智能Github开源项目

该项目汇总了场景文本检测与识别领域的最新研究成果,包含牛津大学、深圳先进技术研究院、华南理工大学等机构发表的论文和开源代码。内容覆盖文本检测、文本识别、端到端文本识别等方向,为相关研究提供全面参考。项目保持更新,持续跟踪领域进展,是场景文本分析研究的重要资源库。

kraken - 优化历史文献和多语言文本识别的开源OCR系统

OCR系统历史文字识别非拉丁文识别kraken文本识别Github开源项目

kraken是一个开源OCR系统，专注于历史文献和非拉丁文本识别。该系统提供可训练的布局分析、阅读顺序识别和字符识别功能，支持多种文字方向和脚本。kraken能够输出多种格式，并提供公共模型库和灵活的识别网络架构。该项目与eScriptorium密切合作，为用户提供全面的文本数字化解决方案。kraken目前支持Linux和Mac OS X平台。

surya_rec - surya项目专用的多语言文本识别模型

模型suryaOCR计算机视觉文本识别Github图像处理Huggingface开源项目

surya_rec是一个开源的文本识别模型，基于cc-by-nc-sa-4.0许可发布。该模型作为surya项目的一部分，专注于多语言文本的识别和提取。surya_rec采用深度学习技术，旨在高效识别和提取多语言文本内容，支持文档分析和信息提取。模型注重准确性和性能，为开发者提供强大的OCR解决方案。有兴趣的开发者可通过surya项目的GitHub仓库了解更多详情和使用方法。

h2ovl-mississippi-800m - 紧凑型视觉语言模型，提供出色的文本识别功能

OCR性能JSON提取文本识别HuggingfaceGithub开源项目模型视觉语言模型H2OVL-Mississippi-800M

H2OVL-Mississippi-800M是H2O.ai推出的一款紧凑型视觉语言模型，拥有0.8亿参数，专注于OCR文本识别，表现出色。该模型在OCRBench测试中领先，超越更大规模的模型。基于H2O-Danube的架构，Mississippi-800M扩展了视觉和文本整合能力。通过1900万图文对进行训练，尤其注重OCR、文档理解以及表格和图表的解析，优化紫为OCR任务。

kosmos-2.5 - 文本密集型图像处理的多模态模型

模型训练文档转换Kosmos-2.5文本识别HuggingfaceGithub开源项目多模态模型

Kosmos-2.5 是一个专注于文本密集型图像的多模态识别模型，采用自回归Transformer架构，能够生成带有空间坐标的文本块和Markdown格式的文本输出。其设计允许通过不同的任务提示进行微调，适应多种应用场景。

相关文章

Article Cover

MMOCR: 全面的文本检测、识别和理解工具箱

Article Cover

docTR: 一个高性能、易用的文档文本识别库

Article Cover

RectLabel: 多功能图像标注工具的全面介绍

Article Cover

React Native ML Kit: 强大的移动端机器学习工具

Article Cover

Magi: 集魔法与冒险于一身的奇幻漫画

Article Cover

PaddleOCR2Pytorch: 将PaddleOCR模型转换为PyTorch的开源项目

Article Cover

树洞OCR文字识别工具：一款功能强大的跨平台OCR解决方案

Article Cover

TextRecognitionDataGenerator: 生成合成文本识别数据的强大工具

Article Cover

图像文本定位与识别技术的发展与应用

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号