Project Icon

tr

高效的离线OCR文本识别与文档理解SDK

tr是一款离线OCR文本识别SDK,核心采用C++开发并提供Python接口,支持多行文本识别和多模态大模型集成。tr结合CRNN与TransformerEncoder,提供高效且资源占用低的OCR解决方案,适用于如弯曲文本和图表等复杂场景。最新版本优化了C++接口、支持Python2、多线程功能,并去除了对opencv-python和Pillow的依赖。提供简洁的下载与安装指引,及详细的示例代码便于快速部署和测试。

项目介绍:tr - 文本识别

项目概述

“tr”是一款针对扫描文档的离线文本识别SDK,核心代码采用C++开发,并提供Python接口,适用于Ubuntu 16.04系统。该项目的诞生背景是当时市场上开源OCR项目如chineseocr和tesseract相对较少,因此通过tr的开发来丰富开源OCR的选择。如今,tr已经基本完成其使命,未来的方向更偏向于研究型项目,追求技术的先进性。

核心功能与技术特色

CRNN支持多行文本识别

tr结合了CRNN与Transformer Encoder/Decoder技术,显著提升了对多行文本以及弯曲文本的识别能力。这样无需在标注时框出每一行的边界,减轻了开发与标注的工作量。

带有Transformer的CRNN

tr采用流行的YOLO系列主干网络,并引入轻量级Transformer Encoder结构,提升了模型对上下文的纠错能力。这种设计减少了对大量真实样本的需求,仅需100多个真实样本即可进行有效训练。

多模态文档理解

tr致力于在多模态大模型生态中寻找新的融合点。传统的OCR在文本识别后将结果以JSON、XML等格式输入LLM,但容易丢失图片中的重要信息。tr正在研发的端到端文档理解方案,将图像编码成一维序列,进一步提高对复杂内容的理解能力。

ChatCRNN的应用

tr研发了适用于多位数整数乘法的ChatCRNN模型。通过调整多行CRNN支持文本输入,从而让其在训练上展现出强大的性能。经验证,3位整数乘法精度达到了99.99%以上,可以适用于需要结合大语言模型的场景。

安装与运行

安装方法

用户可以通过以下两种方法安装tr:

  1. 使用Git克隆并安装:

    git clone https://github.com/myhub/tr.git
    cd ./tr
    sudo python setup.py install
    
  2. 通过pip直接安装:

    sudo pip install git+https://github.com/myhub/tr.git@master
    

示例代码

以下是使用Python接口的简单示例:

import tr
crnn = tr.CRNN()
chars, scores = crnn.run("imgs/line.png")
print("".join(chars))

用户还可以利用tr进行GUI截图识别,需安装PyQt5和PIL。

系统要求

tr需要Python2或Python3版本,并需安装Numpy。项目暂不支持Windows、CentOS 6、ARM系统。如需提升性能,可使用Docker进行GPU部署。

未来展望

未来tr将继续专注于技术研究,探索与大模型的融合,同时优化现有模块提高性能。尤其针对复杂的多模态文档理解,将不断迭代和完善,以期在技术前沿上更进一步。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号