#光学字符识别
manga-ocr - 日本漫画光学字符识别工具,支持多种文本处理场景
Manga OCR日本放送協会光学字符识别PythonTransformersGithub开源项目
Manga OCR 是一款基于Transformer的自定义端到端模型的光学字符识别工具,专为日本漫画设计。它可以识别垂直和平行文本、带有振假名的文本、覆盖在图像上的文本、各种字体以及低质量图像。Manga OCR 支持一次性识别多行文本,适用于漫画中的文本气泡。同时,该项目还提供与GUI阅读器和HTML覆盖生成工具的集成,便于用户创建完整的阅读和挖掘工作流程。
tesseract - 开源OCR引擎 多语言文字识别解决方案
Tesseract OCR光学字符识别开源软件多语言支持图像处理Github开源项目
Tesseract是一款开源的光学字符识别(OCR)引擎,支持超过100种语言识别和多种图像格式处理。项目包含OCR引擎libtesseract和命令行工具tesseract。最新版本Tesseract 4引入基于神经网络的OCR引擎,专注于行识别,同时保留了传统的字符模式识别功能。Tesseract支持Unicode,可输出多种格式如纯文本、PDF等,并可通过训练扩展语言识别能力。
trocr-small-handwritten - Transformer架构的手写文本识别OCR模型
TrOCRHuggingface模型光学字符识别图像转文本Github手写识别开源项目Transformer模型
TrOCR-small-handwritten是一个基于Transformer架构的手写文本识别模型。它结合图像编码器和文本解码器,可将手写图像准确转换为文本。该模型在IAM数据集上微调,适用于单行文本OCR任务。模型提供简洁API,便于集成到各类应用中,实现高效的手写文本数字化。其小型结构设计使其在保持识别精度的同时,具有更快的处理速度和更低的资源消耗。
trocr-base-handwritten - 基于Transformer架构的高精度手写文本识别模型
模型光学字符识别TrOCR开源项目Huggingface手写文本识别Github图像转文本Transformer模型
TrOCR是一种基于Transformer架构的光学字符识别模型,专为手写文本识别而设计。该模型结合了图像Transformer编码器和文本Transformer解码器,可准确识别单行手写文本图像。经IAM手写数据集微调后,TrOCR适用于多种手写OCR场景,为文本识别研究和应用提供了有力支持。
trocr-large-printed - 基于Transformer的大规模印刷文本OCR模型
光学字符识别模型TrOCRGithub图像处理深度学习Huggingface开源项目自然语言处理
trocr-large-printed是一个基于Transformer架构的大规模光学字符识别(OCR)模型,专为印刷文本识别而设计。该模型结合了图像Transformer编码器和文本Transformer解码器,可高效处理单行文本图像。通过在SROIE数据集上的微调,trocr-large-printed为各类印刷文档的文本识别任务提供了准确可靠的解决方案。
bros-base-uncased - 整合文本布局的文档信息提取预训练语言模型
模型文档信息提取光学字符识别开源项目Huggingface预训练语言模型文本布局分析BROSGithub
BROS是一种创新的预训练语言模型,结合了文本内容和空间布局信息,以提升文档关键信息提取的效果。该模型能够处理OCR识别后的文本和边界框数据,适用于多种文档分析任务,例如从收据中提取商品清单。BROS提供base和large两种规模的模型,参数量分别约为110M和340M。这一开源项目已在Hugging Face平台上发布,为研究人员和开发者提供了强大的文档信息提取工具。
trocr-base-printed - 基于Transformer的OCR模型 专注印刷文本识别
TrOCRHuggingface模型光学字符识别图像转文本Github开源项目自然语言处理Transformer模型
TrOCR是一种基于Transformer的光学字符识别模型,专门针对印刷文本设计。该模型采用图像Transformer编码器和文本Transformer解码器架构,在SROIE数据集上经过微调。TrOCR能高效处理单行文本图像,为OCR任务提供先进解决方案。这个开源项目适用于多种场景,可轻松集成到各类文本识别应用中。
trocr-small-printed - 基于Transformer的印刷文本OCR模型
模型光学字符识别TrOCR开源项目Huggingface深度学习Github图像转文本人工智能
trocr-small-printed是一个专为印刷文本设计的OCR模型。该模型采用图像和文本Transformer架构,在SROIE数据集上经过微调,能够从单行文本图像中准确提取文字。它适用于多种印刷文档的文本识别任务,为自动化信息提取提供了有效工具。
mgp-str-base - 多粒度预测的场景文本识别开源模型
计算机视觉Huggingface多粒度预测模型光学字符识别MGP-STRGithub场景文字识别开源项目
MGP-STR base-sized model是一个基于ViT和A^3模块的场景文本识别开源模型。它采用多粒度预测方法,包括字符、子词和单词级别,以提高识别精度。该模型在MJSynth和SynthText数据集上训练,适用于复杂场景的OCR任务,并可方便地集成到PyTorch项目中。
llava-v1.6-34b-hf - 图像与文本交互的多模态AI模型
多模态聊天机器人光学字符识别视觉指令微调Nous-Hermes-2-Yi-34BLLaVa-NeXT模型Github开源项目Huggingface
LLaVa-NeXT模型结合大规模语言模型与视觉编码器,通过提高图像分辨率和优化数据集,增强了OCR和常识推理能力,适用于多模态对话应用场景。支持图像字幕生成和视觉问答,提供双语功能与商业许可保障。
doctr-torch-parseq-multilingual-v1 - 多语言OCR解决方案,兼具TensorFlow 2和PyTorch兼容性
PyTorchDoctrTensorFlow 2Huggingface模型预测Github开源项目模型光学字符识别
该项目是一种多语言光学字符识别(OCR)工具,支持TensorFlow 2和PyTorch,提供了流畅的用户体验。开发者可通过Python代码方便地加载和预测模型,实现从文字检测到识别的完整流程,非常适合需要多语言处理的应用。
trocr-base-stage1 - 以Transformer为基础的图像文字识别预训练模型
Hugging Face文本Transformer开源项目光学字符识别TrOCR模型Huggingface图像TransformerGithub
此预训练模型使用Transformer进行光学字符识别(OCR),为TrOCR模型的一部分。其图像编码器采用BEiT权重初始化,文本解码器则使用RoBERTa权重,处理图像为固定大小的16x16像素块并线性嵌入。适用于单行文本图像的OCR任务,并支持针对特定任务进行微调,兼容PyTorch实现。