#OCR能力

LLaVAR - 优化视觉指令微调的文本丰富图像理解模型

LLaVAR视觉指令微调文本丰富图像理解多模态大语言模型OCR能力Github开源项目

LLaVAR项目致力于增强大型语言模型对文本丰富图像的理解能力。通过改进视觉指令微调方法，该项目显著提升了模型在OCR相关任务上的表现。LLaVAR开源了模型权重、训练数据，并提供了环境配置、训练脚本和评估方法，为相关研究和开发提供了全面支持。

InternViT-300M-448px - 动态分辨率视觉模型提供高效特征提取和OCR功能

知识蒸馏Huggingface模型OCR能力图像嵌入InternViTGithub视觉基础模型开源项目

InternViT-300M-448px是一个经过知识蒸馏的视觉基础模型，具有304M参数量和448x448的动态输入分辨率。该模型支持多图块处理，训练时1-12个，测试时可扩展至40个。通过在LAION、COYO等多个数据集上预训练，并整合额外OCR数据，模型展现出优秀的鲁棒性、文字识别和高分辨率处理能力。它可为多种视觉任务提供高质量的图像特征提取。

MiniCPM-Llama3-V-2_5 - 手机端多模态大语言模型突破性进展：8B参数达GPT-4V水平

Huggingface模型OCR能力多模态大语言模型Github开源项目边缘设备部署多语言支持MiniCPM-Llama3-V

MiniCPM-Llama3-V-2_5是一款创新型多模态大语言模型，仅使用8B参数即达到GPT-4V级性能。该模型具备出色的OCR能力、可靠的行为表现和广泛的多语言支持，可高效部署于手机等边缘设备。支持30多种语言，并提供多种灵活部署方式，如llama.cpp、GGUF格式和LoRA微调。MiniCPM-Llama3-V-2_5标志着端侧多模态大语言模型的重要进展。

InternViT-6B-448px-V1-5 - 提升视觉模型分辨率及多语言OCR精度

Github开源项目视觉基础模型高分辨率处理InternViT-6B-448px-V1-5图像特征提取HuggingfaceOCR能力模型

InternViT-6B-448px-V1-5在InternViT-6B-448px-V1-2的基础上，通过动态调整训练图像分辨率和强化数据集质量来提高模型的高分辨率处理和OCR能力。该模型具有5540M参数，使用1到12块瓦片进行训练，并通过PaddleOCR进行了中英文OCR处理，增强了多语言OCR性能。建议在构建视觉语言模型时，使用最后一层的特征。

相关文章

Article Cover

LLaVAR: 增强视觉指令调优以实现文本丰富图像理解

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号