#光学字符识别

manga-ocr - 日本漫画光学字符识别工具，支持多种文本处理场景

Manga OCR日本放送協会光学字符识别PythonTransformersGithub开源项目

Manga OCR 是一款基于Transformer的自定义端到端模型的光学字符识别工具，专为日本漫画设计。它可以识别垂直和平行文本、带有振假名的文本、覆盖在图像上的文本、各种字体以及低质量图像。Manga OCR 支持一次性识别多行文本，适用于漫画中的文本气泡。同时，该项目还提供与GUI阅读器和HTML覆盖生成工具的集成，便于用户创建完整的阅读和挖掘工作流程。

tesseract - 开源OCR引擎多语言文字识别解决方案

Tesseract OCR光学字符识别开源软件多语言支持图像处理Github开源项目

Tesseract是一款开源的光学字符识别(OCR)引擎，支持超过100种语言识别和多种图像格式处理。项目包含OCR引擎libtesseract和命令行工具tesseract。最新版本Tesseract 4引入基于神经网络的OCR引擎，专注于行识别，同时保留了传统的字符模式识别功能。Tesseract支持Unicode，可输出多种格式如纯文本、PDF等，并可通过训练扩展语言识别能力。

trocr-small-handwritten - Transformer架构的手写文本识别OCR模型

TrOCRHuggingface模型光学字符识别图像转文本Github手写识别开源项目Transformer模型

TrOCR-small-handwritten是一个基于Transformer架构的手写文本识别模型。它结合图像编码器和文本解码器，可将手写图像准确转换为文本。该模型在IAM数据集上微调，适用于单行文本OCR任务。模型提供简洁API，便于集成到各类应用中，实现高效的手写文本数字化。其小型结构设计使其在保持识别精度的同时，具有更快的处理速度和更低的资源消耗。

trocr-base-handwritten - 基于Transformer架构的高精度手写文本识别模型

模型光学字符识别TrOCR开源项目Huggingface手写文本识别Github图像转文本Transformer模型

TrOCR是一种基于Transformer架构的光学字符识别模型，专为手写文本识别而设计。该模型结合了图像Transformer编码器和文本Transformer解码器，可准确识别单行手写文本图像。经IAM手写数据集微调后，TrOCR适用于多种手写OCR场景，为文本识别研究和应用提供了有力支持。

trocr-large-printed - 基于Transformer的大规模印刷文本OCR模型

光学字符识别模型TrOCRGithub图像处理深度学习Huggingface开源项目自然语言处理

trocr-large-printed是一个基于Transformer架构的大规模光学字符识别(OCR)模型，专为印刷文本识别而设计。该模型结合了图像Transformer编码器和文本Transformer解码器，可高效处理单行文本图像。通过在SROIE数据集上的微调，trocr-large-printed为各类印刷文档的文本识别任务提供了准确可靠的解决方案。

bros-base-uncased - 整合文本布局的文档信息提取预训练语言模型

模型文档信息提取光学字符识别开源项目Huggingface预训练语言模型文本布局分析BROSGithub

BROS是一种创新的预训练语言模型，结合了文本内容和空间布局信息，以提升文档关键信息提取的效果。该模型能够处理OCR识别后的文本和边界框数据，适用于多种文档分析任务，例如从收据中提取商品清单。BROS提供base和large两种规模的模型，参数量分别约为110M和340M。这一开源项目已在Hugging Face平台上发布，为研究人员和开发者提供了强大的文档信息提取工具。

trocr-base-printed - 基于Transformer的OCR模型专注印刷文本识别

TrOCRHuggingface模型光学字符识别图像转文本Github开源项目自然语言处理Transformer模型

TrOCR是一种基于Transformer的光学字符识别模型，专门针对印刷文本设计。该模型采用图像Transformer编码器和文本Transformer解码器架构，在SROIE数据集上经过微调。TrOCR能高效处理单行文本图像，为OCR任务提供先进解决方案。这个开源项目适用于多种场景，可轻松集成到各类文本识别应用中。

trocr-small-printed - 基于Transformer的印刷文本OCR模型

模型光学字符识别TrOCR开源项目Huggingface深度学习Github图像转文本人工智能

trocr-small-printed是一个专为印刷文本设计的OCR模型。该模型采用图像和文本Transformer架构，在SROIE数据集上经过微调，能够从单行文本图像中准确提取文字。它适用于多种印刷文档的文本识别任务，为自动化信息提取提供了有效工具。

mgp-str-base - 多粒度预测的场景文本识别开源模型

计算机视觉Huggingface多粒度预测模型光学字符识别MGP-STRGithub场景文字识别开源项目

MGP-STR base-sized model是一个基于ViT和A^3模块的场景文本识别开源模型。它采用多粒度预测方法，包括字符、子词和单词级别，以提高识别精度。该模型在MJSynth和SynthText数据集上训练，适用于复杂场景的OCR任务，并可方便地集成到PyTorch项目中。

llava-v1.6-34b-hf - 图像与文本交互的多模态AI模型

多模态聊天机器人光学字符识别视觉指令微调Nous-Hermes-2-Yi-34BLLaVa-NeXT模型Github开源项目Huggingface

LLaVa-NeXT模型结合大规模语言模型与视觉编码器，通过提高图像分辨率和优化数据集，增强了OCR和常识推理能力，适用于多模态对话应用场景。支持图像字幕生成和视觉问答，提供双语功能与商业许可保障。

doctr-torch-parseq-multilingual-v1 - 多语言OCR解决方案，兼具TensorFlow 2和PyTorch兼容性

PyTorchDoctrTensorFlow 2Huggingface模型预测Github开源项目模型光学字符识别

该项目是一种多语言光学字符识别（OCR）工具，支持TensorFlow 2和PyTorch，提供了流畅的用户体验。开发者可通过Python代码方便地加载和预测模型，实现从文字检测到识别的完整流程，非常适合需要多语言处理的应用。

trocr-base-stage1 - 以Transformer为基础的图像文字识别预训练模型

Hugging Face文本Transformer开源项目光学字符识别TrOCR模型Huggingface图像TransformerGithub

此预训练模型使用Transformer进行光学字符识别（OCR），为TrOCR模型的一部分。其图像编码器采用BEiT权重初始化，文本解码器则使用RoBERTa权重，处理图像为固定大小的16x16像素块并线性嵌入。适用于单行文本图像的OCR任务，并支持针对特定任务进行微调，兼容PyTorch实现。

相关文章

Article Cover

Manga OCR: 革新日本漫画文字识别的开源项目

2024年09月04日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号