#图像识别

XLM-Roberta-Large-Vit-B-16Plus - 支持50多种语言的多模态视觉语言模型

多语言CLIP图像识别Huggingface模型机器学习XLM-RobertaGithub开源项目自然语言处理

XLM-Roberta-Large-Vit-B-16Plus是一个多语言视觉语言模型，扩展了CLIP模型至50多种语言。该模型包含多语言文本编码器，可与Vit-B-16Plus图像编码器协同工作。在多语言MS-COCO数据集的文本-图像检索任务中，它在11种语言中均表现出色。模型能够从多语言文本和图像中提取特征向量，适用于跨语言的图像文本匹配应用。

llava-onevision-qwen2-72b-ov-sft - 基于Qwen2的多模态AI模型支持图像和视频交互

多模态模型图像识别Huggingface视频处理模型GithubQwen2开源项目LLaVA-OneVision

LLaVA-OneVision是基于Qwen2的多模态AI模型，支持图像、多图和视频交互。模型在专用数据集上训练，具有32K tokens上下文窗口，提供0.5B、7B和72B三种规模。支持英语和中文，可处理单图、多图和视频输入。项目开源了代码、在线演示和论文，为AI研究和开发提供了实用工具。

layoutlm-document-qa - LayoutLM文档智能问答模型

模型Github视觉问答开源项目HuggingfaceLayoutLM图像识别自然语言处理文档问答

LayoutLM文档智能问答模型是一个经过SQuAD2.0和DocVQA数据集微调的多模态模型。它能够准确回答发票、合同等各类文档图像中的问题，支持简单的Python代码调用。该模型为文档信息提取和理解提供了高效便捷的解决方案，适用于多种文档处理场景。

resnet-152 - 深入解析ResNet-152在图像分类中的应用

图像识别ResNet-152卷积神经网络深度学习模型Github开源项目图像分类Huggingface

ResNet-152 v1.5模型在ImageNet-1k上预训练，采用224x224分辨率，改进后的下采样策略提升了模型的准确性。该模型可用于图像分类，亦可在模型中心找到特定任务的微调版本。

llava-1.6-mistral-7b-gguf - 基于Mistral-7B的LLaVA多模态模型GGUF量化版

MistralLLaVA模型多模态模型图像识别Github机器学习开源项目Huggingface

LLaVA-1.6-Mistral-7B是一款开源的视觉语言模型GGUF量化版本，提供3bit至8bit多个压缩等级选择。该模型整合了图像理解与对话能力，通过大规模图文对和多模态指令数据训练而成。其中4bit和5bit量化版本在性能与模型体积之间取得良好平衡，适合在计算资源有限的场景下部署使用

Florence-2-base-ft - 基于Transformers.js的图像识别文本生成引擎

Transformers.js模型深度学习Florence-2图像识别模型转换GithubHuggingface开源项目

Florence-2-base-ft是一个基于ONNX权重的图像识别模型，专门针对Web环境优化。通过Transformers.js框架，该模型能够实现图像描述生成等功能。开发者可以通过JavaScript API将图像分析能力集成到Web应用中，项目提供在线演示展示具体应用效果。

Llama-3.2-11B-Vision-Instruct-nf4 - 量化视觉语言模型实现高效图像分析与理解

神经网络量化图像识别开源项目模型模型部署视觉AI模型GithubLlama-3.2Huggingface

Llama-3.2-11B-Vision-Instruct-nf4是一个基于meta-llama/Llama-3.2-11B-Vision-Instruct的量化视觉语言模型，采用BitsAndBytes的NF4(4位)量化技术，无需双重量化即可实现高效推理。该模型主要用于图像字幕生成等视觉分析任务，并提供详细的使用示例代码。项目还包含配套的ComfyUI自定义节点，为开发者提供了便捷的视觉分析工具集成方案。

japanese-clip-vit-b-16 - 日语CLIP模型实现跨模态文本图像语义匹配

ViT-B/16图像识别开源项目深度学习模型japanese-clipGithubCLIPHuggingface

rinna公司开发的日语CLIP模型采用ViT-B/16 Transformer架构，通过CC12M数据集的日语翻译版本训练而成。该模型实现了日语文本与图像的跨模态理解和语义匹配，提供简洁的API接口，适用于图像检索和跨模态搜索等场景。作为Apache 2.0许可的开源项目，它为日语视觉语言处理领域提供了实用的基础工具。

pixtral-12b - 支持多图片交互分析的开源视觉语言模型

图像识别机器学习GithubHuggingface多模态开源项目transformers模型Pixtral

pixtral-12b基于Transformers框架开发，是一个支持多图片处理的视觉语言模型。该模型可处理图文混合输入，实现图片内容识别、场景描述及图片关系分析。通过简单的API调用，开发者可快速实现多模态对话和图像分析功能。

nsfw-image-detection-large - FocalNet驱动的NSFW图像分类器实现高准确率内容审核

FocalNet人工智能模型图像识别Github防护过滤Huggingface开源项目内容审核

该NSFW图像分类器基于microsoft/focalnet-base构建，将图像快速分类为安全、可疑和不安全三类。模型接受512x512像素输入，支持批量处理，响应时间低于100ms。适用于社交媒体、电商平台、约会应用等内容审核场景。经过数百万图像训练，在NSFW检测基准任务中准确率超过95%，有助于维护平台安全和用户体验。

TF-ID-large-no-caption - 学术文献中图表精准识别工具

开源项目TF-ID表格提取模型Huggingface学术论文图像识别Github对象检测

TF-ID项目专注于精准提取学术论文中的表格和图形，由高效的TF-ID-large-no-caption版本支持。该项目来自Yifei Hu，基于Hugging Face的Florence-2，具备97%以上的识别准确率。适合需要处理大量学术图表的研究工作者。

align-base - 视觉语言对齐模型实现高效零样本图像分类

计算机视觉Github模型图像识别COYO-700M多模态学习Huggingface开源项目ALIGN

ALIGN采用EfficientNet和BERT构建双编码器架构，结合对比学习技术实现视觉与文本表示对齐。基于COYO-700M数据集训练的模型具备零样本图像分类和多模态嵌入检索能力，其性能表现达到甚至超越了Google原始ALIGN模型的水平，是一个公开可用的视觉语言对齐工具。

MiniCPM-Llama3-V-2_5-int4 - 轻量级视觉问答模型实现实时图像对话

Github开源项目GPU内存优化图像识别Huggingface深度学习MiniCPM-Llama3-V模型量化模型

MiniCPM-Llama3-V-2_5-int4通过int4量化技术实现低内存视觉问答功能，仅需9GB显存即可运行。基于Hugging Face框架开发，支持实时图像对话和流式输出，为视觉AI应用提供高效且资源友好的解决方案。

doctr-crnn-vgg16-bn-fascan-v1 - VGG16-CRNN文字识别模型

开源项目PyTorch模型HuggingfaceTensorFlow深度学习图像识别GithubOCR技术

doctr-crnn-vgg16-bn-fascan-v1是一个基于CRNN架构的文字识别模型，采用VGG16作为特征提取网络。模型通过DocumentFile接口支持图像处理，结合灵活的检测架构选择机制，可实现文档OCR任务。该实现同时支持TensorFlow 2和PyTorch框架，便于开发者快速部署和使用。

swin-base-patch4-window7-224-in22k - 基于shifted windows的分层视觉Transformer图像处理模型

图像识别开源项目模型GithubHuggingface计算机视觉深度学习Swin Transformer图像分类

Swin Transformer是一个在ImageNet-21k数据集上预训练的视觉模型，通过shifted windows机制实现局部特征提取，降低计算复杂度。模型采用分层特征图构建和局部注意力计算方式，适用于图像分类和密集识别任务，计算复杂度与输入图像大小呈线性关系

Llama-3.2-11B-Vision-Instruct - Meta推出支持图文交互的语言模型

多模态大语言模型图像识别Llama 3.2Meta模型Github开源项目问答系统Huggingface

Llama-3.2-11B-Vision-Instruct是一款由Meta开发的大型语言模型，集成了文本理解和图像识别能力。模型采用11B和90B两种参数规模，支持128K长度的上下文处理。基于Llama 3.1架构，通过监督学习和人类反馈优化，在视觉问答、图像描述、文档理解等任务中展现出优秀性能。该项目开放商用授权，需遵循Llama 3.2社区许可协议。

instructblip-flan-t5-xl - InstructBLIP视觉语言模型实现智能图像理解与对话

InstructBLIP机器学习HuggingfaceGithub开源项目模型人工智能Flan-T5-xl图像识别

InstructBLIP是基于BLIP-2架构的开源视觉语言模型，集成Flan-T5-xl增强了图像理解能力。模型支持图像描述生成、视觉问答等多项任务，可实现自然的图文交互。项目文档完善，提供代码示例方便开发者使用。

fuyu-8b - 无需图像编码器的轻量级多模态开源模型

Github模型开源项目多模态模型图像识别Huggingface计算机视觉Fuyu-8B人工智能

Fuyu-8B是Adept AI开发的开源多模态模型，基于decoder-only transformer架构设计。模型无需图像编码器即可处理任意分辨率图像，处理速度在100毫秒以内。在图表解析、UI交互和视觉定位等任务中展现稳定性能，同时在标准图像理解测试中表现良好。作为基础模型，适合通过微调来满足不同场景需求。

llava-onevision-qwen2-7b-si - 多模态AI模型实现图像和视频的深度理解

Huggingface机器学习多模态开源项目模型Qwen2Github图像识别LLaVA-OneVision

LLaVA-OneVision是一个基于Qwen2语言模型的多模态AI系统，拥有32K tokens的上下文窗口。该模型能够处理单图像、多图像和视频输入，在多个基准测试中表现出色。支持英语和中文，适用于广泛的视觉理解任务。开发者可通过提供的Python代码快速集成该模型，实现图像分析和问答功能。

vit-base-patch32-224-in21k - Vision Transformer模型在2100万图像数据集上预训练

Vision Transformer计算机视觉图像识别ImageNet-21k深度学习模型Github开源项目Huggingface

Vision Transformer (ViT) 是一种基于transformer架构的视觉模型，在ImageNet-21k数据集上预训练。该模型将图像转换为固定大小的patch序列，通过线性嵌入和位置编码输入transformer编码器。ViT可应用于图像分类等多种视觉任务，只需在预训练编码器上添加任务特定层。模型在224x224分辨率下训练，批量大小为4096，在多项图像分类基准测试中展现出优秀性能。

vip-llava-7b-hf - 基于自然视觉提示的多模态语言模型

ViP-LLaVAHuggingfaceGithub开源项目模型视觉语言处理多模态AIAI聊天机器人图像识别

VipLLaVA在LLaVA基础上引入自然视觉提示训练机制，通过边界框和指向箭头等视觉标记增强模型的图像理解能力。作为基于Transformer架构的多模态模型，VipLLaVA支持多图像输入和复杂视觉查询处理。该模型通过微调LLaMA/Vicuna实现，可集成到transformers库中实现图像文本交互，并支持4位量化和Flash Attention 2优化部署。

Virchow2 - 基于神经网络的病理切片图像分析与特征提取模型

图像识别PyTorchVirchow2深度学习模型Github开源项目病理学Huggingface

Virchow2是一个专门用于病理切片分析的深度学习模型，通过310万张医学图像训练而成。模型能够自动分析不同放大倍率的病理图像，提取关键特征信息，为计算病理学研究提供基础支持。其采用先进的视觉转换器架构，具备强大的图像处理能力。目前仅向学术研究机构开放使用，需要通过机构邮箱认证。

TinyCLIP-ViT-40M-32-Text-19M-LAION400M - 基于亲和力模仿和权重继承的CLIP模型压缩方法

Github模型模型压缩TinyCLIP开源项目深度学习图像识别HuggingfaceLAION400M

TinyCLIP是一种用于压缩大规模语言-图像预训练模型的跨模态蒸馏方法，采用亲和力模仿和权重继承技术。实验显示，TinyCLIP ViT-45M/32使用ViT-B/32一半的参数达到相似的零样本性能；TinyCLIP ResNet-19M在参数量减少50%的情况下，推理速度提升2倍，在ImageNet数据集上实现56.4%的准确率。

llava-interleave-qwen-7b-hf - 领先的多模态AI模型支持多图像视频和3D输入处理

图像识别自然语言处理开源项目模型GithubAI对话HuggingfaceLLaVA Interleave多模态模型

LLaVA Interleave是基于Qwen1.5-7B-Chat开发的多模态AI模型，支持多图像、视频和3D输入处理。模型采用transformer架构，具备4-bit量化和Flash Attention 2优化功能。目前主要面向计算机视觉、自然语言处理和人工智能领域的研究人员，仅供学术研究使用。

donut-base-finetuned-docvqa - 基于Donut架构的无OCR文档理解与问答模型

文档理解Donut开源项目模型Huggingface文本生成图像识别Github视觉编码

基于Swin Transformer和BART架构开发的文档理解模型，通过DocVQA数据集微调。模型集成了视觉编码器和文本解码器，无需OCR技术即可直接处理文档图像并回答问题。支持发票号码识别、合同金额提取等文档问答功能，可用于多种商业文档的自动化处理。

omdet-turbo-swin-tiny-hf - 实时开放词汇目标检测模型支持批量多任务处理

目标检测Github开源项目零样本分类图像识别OmDet-TurboHuggingface机器学习模型

这是一款基于Transformer的开放词汇目标检测模型。它支持零样本检测，能够识别指定的任意类别目标。该模型的特色在于支持批量处理多张图像，允许为每张图像设置不同的检测类别和任务描述。通过简洁的API接口，该模型可以方便地集成到各种计算机视觉应用中，实现高效的实时目标检测。

Tesseract.js: 强大的JavaScript OCR引擎

2024年08月30日

Awesome Deep Learning Papers: 深度学习领域最具影响力的论文集锦

2024年08月30日

YOLOv3:实时目标检测算法的革新者

2024年08月30日

计算机视觉最佳实践与示例：Microsoft computervision-recipes 项目解析

2024年08月30日

OpenCLIP: 开源实现的CLIP模型

2024年08月30日

深度学习路线图:从入门到精通的学习指南

2024年08月30日

X-AnyLabeling: 革新数据标注的智能工具

2024年08月30日

LBot - 功能丰富的WhatsApp机器人助手

2024年08月31日

Microsoft/TrOCR-识别手写文字的利器，让AI在教育领域更进一步

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com