attention-ocr

基于注意力机制的视觉OCR模型，实现与导出工具

Attention-OCR Tensorflow 图像识别 OCR 人工智能 Github 开源项目

该项目提供了基于注意力机制的OCR模型，结合了CNN与LSTM，用于图像识别，并能够导出为SavedModel或frozen graph格式。用户可以通过生成TFRecords数据集、训练、测试及可视化等步骤完整运行该OCR系统。项目还支持通过Tensorflow Serving提供REST API服务，并可以在Google Cloud ML Engine上进行模型训练。目前该项目依赖Tensorflow 1.x，未来计划升级到Tensorflow 2。

访问官网

Github

介绍相关项目

doctr-torch-parseq-multilingual-v1 - 多语言OCR解决方案，兼具TensorFlow 2和PyTorch兼容性

DoctrGithubHuggingfacePyTorchTensorFlow 2光学字符识别开源项目模型模型预测

该项目是一种多语言光学字符识别（OCR）工具，支持TensorFlow 2和PyTorch，提供了流畅的用户体验。开发者可通过Python代码方便地加载和预测模型，实现从文字检测到识别的完整流程，非常适合需要多语言处理的应用。

manga-ocr - 日本漫画光学字符识别工具，支持多种文本处理场景

GithubManga OCRPythonTransformers光学字符识别开源项目日本放送協会

Manga OCR 是一款基于Transformer的自定义端到端模型的光学字符识别工具，专为日本漫画设计。它可以识别垂直和平行文本、带有振假名的文本、覆盖在图像上的文本、各种字体以及低质量图像。Manga OCR 支持一次性识别多行文本，适用于漫画中的文本气泡。同时，该项目还提供与GUI阅读器和HTML覆盖生成工具的集成，便于用户创建完整的阅读和挖掘工作流程。

PaddleOCR - 领先的OCR工具库，支持多语言和多硬件平台

GithubOCRPaddleOCR开源项目文本识别模型训练热门表格识别

PaddleOCR旨在为开发者提供一套丰富、领先且实用的OCR工具库，帮助开发者快速训练并部署OCR模型。它不仅支持中英文识别，还支持多语言和多硬件平台，包括最新的PP-OCRv4模型，有效提高了中英文场景下的识别精确度。适用于移动端和服务器端，适配多种开发需求。

tessdoc - 多语言支持的开源文字识别引擎

GithubOCRTesseract开源软件开源项目文字识别机器学习

Tesseract是一款功能强大的开源OCR引擎，支持100多种语言和35种以上的文字。它提供命令行和API接口，可从图像中精确提取文本。Tesseract采用LSTM神经网络技术，具有高度可定制性，并配备完善的训练测试工具。该引擎可跨平台使用，包括移动设备，为开发者提供了灵活的文字识别解决方案。

PaddleOCR2Pytorch - 开源工具实现PaddleOCR模型向PyTorch框架的转换

GithubOCR系统PaddleOCR多语言识别开源项目文本检测文本识别

PaddleOCR2Pytorch是一个开源项目，致力于将PaddleOCR模型转换为PyTorch框架可用的版本。项目支持多种OCR算法，涵盖文本检测、方向分类和文本识别，同时提供丰富的预训练模型。它不仅使PyTorch用户能够便捷使用PaddleOCR的优质模型，还为跨深度学习框架的模型转换提供了实用参考。

RapidOCR - 开源多语言OCR工具支持跨平台快速部署

GithubONNXRapidOCR多平台多语言开源OCR开源项目

RapidOCR是一个开源的多平台、多语言OCR工具，具有高速识别和广泛兼容性。该工具支持快速离线部署，采用ONNXRuntime推理引擎，识别速度显著优于PaddlePaddle引擎。RapidOCR内置中英文识别功能，同时支持其他语言的自定义转换。基于深度学习技术，RapidOCR注重轻量化设计和高效性能，适用于快速OCR部署和定制化需求场景。

simple-ocr-opencv - 基于OpenCV和NumPy的轻量级Python OCR工具

GithubOCROpenCVPython图像识别开源项目机器学习

simple-ocr-opencv是一个基于OpenCV和NumPy的Python OCR工具。它采用矩形模型进行图像分割，使用k-NN算法实现字符分类。项目结构清晰，包含示例代码，支持自定义训练，并提供预标注训练图像和交互式标注功能。开发者可通过example.py快速上手。这个开源项目遵循GNU AGPLv3许可证，适合需要实现基础OCR功能的开发者使用。

EasyOCR - 支持80多种语言文字识别工具

CRNNDBnetEasyOCRGithubOCRPytorch开源项目

EasyOCR是一款支持80多种语言和主要书写系统（如拉丁文、中文、阿拉伯文等）的光学字符识别（OCR）工具。它提供简单的安装和使用指南，帮助快速实现文本检测与识别，适用于多种场景。最新版本增加了Apple Silicon支持并修复了兼容性问题。未来版本将支持手写文本识别，进一步增强其功能。

flash-attention - 高效注意力机制加速深度学习模型训练

CUDAFlashAttentionGPU加速GithubPyTorch开源项目注意力机制

FlashAttention是一种高效的注意力机制实现,通过IO感知算法和内存优化提升计算速度并降低内存消耗。它支持NVIDIA和AMD GPU,适用于多种深度学习框架。最新的FlashAttention-3版本针对H100 GPU进行了优化。该项目提供Python接口,可集成到现有模型中,有助于加速大规模深度学习模型的训练过程。

mmocr - 一个基于 PyTorch 和 mmdetection 的用于文本检测、文本识别以及相应的下游任务，包括关键信息提取的开源工具箱

GithubMMOCROpenMMLabPyTorch开源项目文本检测文本识别

MMOCR是一个基于PyTorch和mmdetection的开源工具箱，提供全面的文本检测、文本识别及信息提取解决方案。它支持多种先进模型和模块化设计，允许用户自定义优化器、数据预处理和模型组件。最新版本v1.0.0新增支持SCUT-CTW1500、SynthText和MJSynth数据集，更新了FAQ和文档，并添加了新教程笔记本。适用于PyTorch 1.6+，欢迎研究人员和开发者贡献改进。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号