#光学字符识别

manga-ocr - 日本漫画光学字符识别工具,支持多种文本处理场景
Manga OCR日本放送協会光学字符识别PythonTransformersGithub开源项目
Manga OCR 是一款基于Transformer的自定义端到端模型的光学字符识别工具,专为日本漫画设计。它可以识别垂直和平行文本、带有振假名的文本、覆盖在图像上的文本、各种字体以及低质量图像。Manga OCR 支持一次性识别多行文本,适用于漫画中的文本气泡。同时,该项目还提供与GUI阅读器和HTML覆盖生成工具的集成,便于用户创建完整的阅读和挖掘工作流程。
tesseract - 开源OCR引擎 多语言文字识别解决方案
Tesseract OCR光学字符识别开源软件多语言支持图像处理Github开源项目
Tesseract是一款开源的光学字符识别(OCR)引擎,支持超过100种语言识别和多种图像格式处理。项目包含OCR引擎libtesseract和命令行工具tesseract。最新版本Tesseract 4引入基于神经网络的OCR引擎,专注于行识别,同时保留了传统的字符模式识别功能。Tesseract支持Unicode,可输出多种格式如纯文本、PDF等,并可通过训练扩展语言识别能力。
llava-v1.6-34b-hf - 图像与文本交互的多模态AI模型
多模态聊天机器人光学字符识别视觉指令微调Nous-Hermes-2-Yi-34BLLaVa-NeXT模型Github开源项目Huggingface
LLaVa-NeXT模型结合大规模语言模型与视觉编码器,通过提高图像分辨率和优化数据集,增强了OCR和常识推理能力,适用于多模态对话应用场景。支持图像字幕生成和视觉问答,提供双语功能与商业许可保障。
doctr-torch-parseq-multilingual-v1 - 多语言OCR解决方案,兼具TensorFlow 2和PyTorch兼容性
PyTorchDoctrTensorFlow 2Huggingface模型预测Github开源项目模型光学字符识别
该项目是一种多语言光学字符识别(OCR)工具,支持TensorFlow 2和PyTorch,提供了流畅的用户体验。开发者可通过Python代码方便地加载和预测模型,实现从文字检测到识别的完整流程,非常适合需要多语言处理的应用。
trocr-base-stage1 - 以Transformer为基础的图像文字识别预训练模型
Hugging Face文本Transformer开源项目光学字符识别TrOCR模型Huggingface图像TransformerGithub
此预训练模型使用Transformer进行光学字符识别(OCR),为TrOCR模型的一部分。其图像编码器采用BEiT权重初始化,文本解码器则使用RoBERTa权重,处理图像为固定大小的16x16像素块并线性嵌入。适用于单行文本图像的OCR任务,并支持针对特定任务进行微调,兼容PyTorch实现。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号