介绍
💖 介绍首屈一指的多平台、多语言OCR工具,拥有无与伦比的速度、广泛支持和完全开放性。这款卓越的软件完全免费,以快速离线部署而闻名。其核心效率源于ONNXRuntime推理引擎,比PaddlePaddle引擎快4到5倍,同时确保无内存泄漏。
🦜 支持的语言:本工具原生支持中文和英文,其他语言需要自行转换。具体语言支持详情请参考这里。 🔎 原理:认识到PaddleOCR架构的局限性后,我们开始着手简化在各种平台上的OCR推理过程。这项努力最终实现了将PaddleOCR模型转换为通用的ONNX格式,并将其无缝集成到Python、C++、Java和C#环境中。
🎓 名称由来:RapidOCR源自其本质,体现了轻量、高速、经济和智能。这项基于深度学习的OCR技术凸显了AI的能力,强调紧凑模型,在不影响效果的前提下优先考虑速度。
😉 使用场景:
- 即时部署:如果我们仓库中的预存模型足够满足需求,直接使用RapidOCR进行快速部署即可。
- 定制化:如有特殊要求,可以用自己的数据优化PaddleOCR,然后使用RapidOCR部署,确保得到定制化结果。
如果我们的仓库对您有所帮助,请考虑在GitHub上给我们一个星标⭐以示支持。这对我们意义重大!
可视化效果(更多请见)
安装
pip install rapidocr_onnxruntime
使用方法
from rapidocr_onnxruntime import RapidOCR
engine = RapidOCR()
img_path = 'tests/test_files/ch_en_num.jpg'
result, elapse = engine(img_path)
print(result)
print(elapse)
文档
完整文档可在文档网站上找到,内容为中文。
致谢
- 非常感谢DeliciaLaniD修复了ocrweb中扫描动画起始位置错误的问题。
- 非常感谢zhsunlight提出关于参数化调用GPU推理的建议,以及细心周到的测试。
- 非常感谢lzh111222334修复了Python版本下rec预处理的一些bug。
- 非常感谢AutumnSun1996在#42中提出的建议。
- 非常感谢DeadWood8提供了使用Nuitka将rapidocr_web打包成exe的文档。
- 非常感谢Loovelj修复了文本框排序的bug。详情请见issue 75。
🎖 代码贡献者
赞助
[!重要]
如果您想赞助本项目,可以直接点击"给我买杯咖啡"的图片,请在备注中写下您的github账号名,以便我们将您添加到下方的赞助列表中。
引用
如果您在研究中使用了本项目,请考虑引用:
@misc{RapidOCR 2021,
title={{Rapid OCR}: OCR工具箱},
author={RapidAI团队},
howpublished = {\url{https://github.com/RapidAI/RapidOCR}},
year={2021}
}
⭐️ 星标数量随时间变化
许可证
OCR模型的版权归百度所有,而所有其他工程脚本的版权归本仓库所有者所有。
本项目基于Apache 2.0许可证发布。