manga-ocr
Manga OCR 是一款基于Transformer的自定义端到端模型的光学字符识别工具,专为日本漫画设计。它可以识别垂直和平行文本、带有振假名的文本、覆盖在图像上的文本、各种字体以及低质量图像。Manga OCR 支持一次性识别多行文本,适用于漫画中的文本气泡。同时,该项目还提供与GUI阅读器和HTML覆盖生成工具的集成,便于用户创建完整的阅读和挖掘工作流程。
tesseract
Tesseract是一款开源的光学字符识别(OCR)引擎,支持超过100种语言识别和多种图像格式处理。项目包含OCR引擎libtesseract和命令行工具tesseract。最新版本Tesseract 4引入基于神经网络的OCR引擎,专注于行识别,同时保留了传统的字符模式识别功能。Tesseract支持Unicode,可输出多种格式如纯文本、PDF等,并可通过训练扩展语言识别能力。
llava-v1.6-34b-hf
LLaVa-NeXT模型结合大规模语言模型与视觉编码器,通过提高图像分辨率和优化数据集,增强了OCR和常识推理能力,适用于多模态对话应用场景。支持图像字幕生成和视觉问答,提供双语功能与商业许可保障。
doctr-torch-parseq-multilingual-v1
该项目是一种多语言光学字符识别(OCR)工具,支持TensorFlow 2和PyTorch,提供了流畅的用户体验。开发者可通过Python代码方便地加载和预测模型,实现从文字检测到识别的完整流程,非常适合需要多语言处理的应用。
trocr-base-stage1
此预训练模型使用Transformer进行光学字符识别(OCR),为TrOCR模型的一部分。其图像编码器采用BEiT权重初始化,文本解码器则使用RoBERTa权重,处理图像为固定大小的16x16像素块并线性嵌入。适用于单行文本图像的OCR任务,并支持针对特定任务进行微调,兼容PyTorch实现。