#文本识别

mmocr - 一个基于 PyTorch 和 mmdetection 的用于文本检测、文本识别以及相应的下游任务,包括关键信息提取的开源工具箱
OpenMMLabMMOCRPyTorch文本检测文本识别Github开源项目
MMOCR是一个基于PyTorch和mmdetection的开源工具箱,提供全面的文本检测、文本识别及信息提取解决方案。它支持多种先进模型和模块化设计,允许用户自定义优化器、数据预处理和模型组件。最新版本v1.0.0新增支持SCUT-CTW1500、SynthText和MJSynth数据集,更新了FAQ和文档,并添加了新教程笔记本。适用于PyTorch 1.6+,欢迎研究人员和开发者贡献改进。
PaddleOCR - 领先的OCR工具库,支持多语言和多硬件平台
PaddleOCROCR模型训练文本识别表格识别Github开源项目热门
PaddleOCR旨在为开发者提供一套丰富、领先且实用的OCR工具库,帮助开发者快速训练并部署OCR模型。它不仅支持中英文识别,还支持多语言和多硬件平台,包括最新的PP-OCRv4模型,有效提高了中英文场景下的识别精确度。适用于移动端和服务器端,适配多种开发需求。
Rectlabel-support - 图像标注工具,支持自动化标注和多格式导出
RectLabel自动标注文本识别导出格式图像标注Github开源项目
RectLabel 是一款图像标注工具,支持 Segment Anything 和 Core ML 模型的自动标注,能够识别文本、曲线、点线和骨架等。支持导出COCO、Labelme、CreateML、YOLO和DOTA格式,以及索引色和灰度掩码图像。通过自定义热键和快捷设置,提高标注效率,满足不同图像处理需求。
react-native-ml-kit - 使用 Google ML 套件的 React Native 设备端机器学习
React NativeML Kit机器学习文本识别条码扫描Github开源项目
本项目使用React Native和Google ML Kit,实现多种设备端机器学习功能,如图像标记、语言识别、人脸检测、文本识别和条形码扫描,并支持Android和iOS系统。部分高级功能如对象检测和智能回复尚不支持。
CTCWordBeamSearch - CTC解码器提升文本和语音识别的性能
CTCWord Beam SearchPython文本识别语言模型Github开源项目
CTC Word Beam Search是一种基于词典和语言模型的连接时序分类(CTC)解码器,支持Python 3.11和3.12版本。项目提供详细的安装和使用指南,并通过示例代码展示其在文本识别模型中的应用。算法具有四大特点:使用词典约束词语、允许词间出现任意非词字符、可选用词级语言模型(LM)以及比token传递算法更快。文档中提供了主要参数的说明和更多的技术细节及使用案例,适用于手写文本识别和自动语音识别。
doctr - 由深度学习提供支持的无缝、高性能和可访问的库,用于 OCR 相关任务
docTROCRTensorFlowPyTorch文本识别Github开源项目
docTR提供高效、准确的OCR解决方案,支持PDF和图像文件,基于TensorFlow 2和PyTorch。能快速检测识别文档文字,并提供多种处理旋转文档选项。用户可使用预训练模型快速上手或自定义架构。解析结果可视化且支持导出为JSON格式,方便后续处理和分析。
PaddleOCR2Pytorch - 开源工具实现PaddleOCR模型向PyTorch框架的转换
PaddleOCROCR系统文本检测文本识别多语言识别Github开源项目
PaddleOCR2Pytorch是一个开源项目,致力于将PaddleOCR模型转换为PyTorch框架可用的版本。项目支持多种OCR算法,涵盖文本检测、方向分类和文本识别,同时提供丰富的预训练模型。它不仅使PyTorch用户能够便捷使用PaddleOCR的优质模型,还为跨深度学习框架的模型转换提供了实用参考。
AI Content Detector - 多语言支持的AI内容识别与分析工具
AI工具AI检测器内容分析文本识别GPT模型原创性验证
该工具提供多语言AI内容检测服务,支持批量文件上传和实时分析。采用先进的GPT-4模型,能准确识别AI生成内容,并生成PDF报告。适用于学术论文和日常写作,帮助验证内容真实性,维护作品质量。无需注册,即可免费使用这一高效的内容分析工具。
magi - 漫画内容自动转录与角色识别系统
Magi漫画AI模型计算机视觉文本识别Github开源项目
Magi是一个开源项目,致力于自动生成漫画转录和角色识别。该系统可以定位文本框、识别说话人物,并生成漫画对话转录。Magiv2版本支持整章漫画处理和角色名称识别。Magi为研究人员和漫画爱好者提供了获取漫画文本内容的工具,提高了漫画的可访问性和分析便利性。
Handwriting OCR - AI多语言手写文本识别与数字化平台
AI工具手写OCR文档数字化多语言支持AI增强文本识别
这是一款专业的手写文本识别和数字化工具,采用先进的AI驱动OCR技术。支持300多种语言,将手写文档快速转换为数字文本,错误率低于1%。提供AI增强的格式化结果,适用于人力资源、法律、医疗等多个行业。用户可通过云端仪表板上传文档,轻松导出为Word或Excel格式,显著提高工作效率和准确性。
tools-ocr - Tree Hole OCR 高效本地文本识别工具
Tree Hole OCR本地OCR识别跨平台兼容文本识别PDF识别Github开源项目
Tree Hole OCR是一款基于Paddle OCR模型的本地文本识别工具。无需联网即可快速识别文字,支持PDF、图像和截图识别等多种功能。采用Java和JavaFX开发,具有良好的跨平台兼容性,适用于Mac OS X 12.6及以上系统。该工具依赖于DJL、PyTorch等深度学习框架,集成了OpenCV图像处理库。除基本文本识别外,还支持PDF识别和快捷键截图识别。项目开源,可在GitHub或Gitee上获取源码。
TextRecognitionDataGenerator - 多语言文本识别数据生成工具
TextRecognitionDataGeneratorOCR图像生成文本识别合成数据Github开源项目
TextRecognitionDataGenerator是一款开源的文本识别数据生成工具。支持多种语言如拉丁文、中文和日文等,可自定义字体、背景、文本扭曲和模糊效果。工具提供命令行界面和Python模块,便于集成到训练流程中。适用于OCR和文本识别模型的数据集制作,支持手写体文本生成功能。
image-text-localization-recognition - 场景文本检测与识别研究进展资源汇总
场景文本检测文本识别深度学习计算机视觉人工智能Github开源项目
该项目汇总了场景文本检测与识别领域的最新研究成果,包含牛津大学、深圳先进技术研究院、华南理工大学等机构发表的论文和开源代码。内容覆盖文本检测、文本识别、端到端文本识别等方向,为相关研究提供全面参考。项目保持更新,持续跟踪领域进展,是场景文本分析研究的重要资源库。
kraken - 优化历史文献和多语言文本识别的开源OCR系统
OCR系统历史文字识别非拉丁文识别kraken文本识别Github开源项目
kraken是一个开源OCR系统,专注于历史文献和非拉丁文本识别。该系统提供可训练的布局分析、阅读顺序识别和字符识别功能,支持多种文字方向和脚本。kraken能够输出多种格式,并提供公共模型库和灵活的识别网络架构。该项目与eScriptorium密切合作,为用户提供全面的文本数字化解决方案。kraken目前支持Linux和Mac OS X平台。
surya_rec - surya项目专用的多语言文本识别模型
模型suryaOCR计算机视觉文本识别Github图像处理Huggingface开源项目
surya_rec是一个开源的文本识别模型,基于cc-by-nc-sa-4.0许可发布。该模型作为surya项目的一部分,专注于多语言文本的识别和提取。surya_rec采用深度学习技术,旨在高效识别和提取多语言文本内容,支持文档分析和信息提取。模型注重准确性和性能,为开发者提供强大的OCR解决方案。有兴趣的开发者可通过surya项目的GitHub仓库了解更多详情和使用方法。
h2ovl-mississippi-800m - 紧凑型视觉语言模型,提供出色的文本识别功能
OCR性能JSON提取文本识别HuggingfaceGithub开源项目模型视觉语言模型H2OVL-Mississippi-800M
H2OVL-Mississippi-800M是H2O.ai推出的一款紧凑型视觉语言模型,拥有0.8亿参数,专注于OCR文本识别,表现出色。该模型在OCRBench测试中领先,超越更大规模的模型。基于H2O-Danube的架构,Mississippi-800M扩展了视觉和文本整合能力。通过1900万图文对进行训练,尤其注重OCR、文档理解以及表格和图表的解析,优化紫为OCR任务。
kosmos-2.5 - 文本密集型图像处理的多模态模型
模型训练文档转换Kosmos-2.5文本识别HuggingfaceGithub开源项目多模态模型
Kosmos-2.5 是一个专注于文本密集型图像的多模态识别模型,采用自回归Transformer架构,能够生成带有空间坐标的文本块和Markdown格式的文本输出。其设计允许通过不同的任务提示进行微调,适应多种应用场景。