#图像识别

XLM-Roberta-Large-Vit-B-16Plus - 支持50多种语言的多模态视觉语言模型
多语言CLIP图像识别Huggingface模型机器学习XLM-RobertaGithub开源项目自然语言处理
XLM-Roberta-Large-Vit-B-16Plus是一个多语言视觉语言模型,扩展了CLIP模型至50多种语言。该模型包含多语言文本编码器,可与Vit-B-16Plus图像编码器协同工作。在多语言MS-COCO数据集的文本-图像检索任务中,它在11种语言中均表现出色。模型能够从多语言文本和图像中提取特征向量,适用于跨语言的图像文本匹配应用。
llava-onevision-qwen2-72b-ov-sft - 基于Qwen2的多模态AI模型 支持图像和视频交互
多模态模型图像识别Huggingface视频处理模型GithubQwen2开源项目LLaVA-OneVision
LLaVA-OneVision是基于Qwen2的多模态AI模型,支持图像、多图和视频交互。模型在专用数据集上训练,具有32K tokens上下文窗口,提供0.5B、7B和72B三种规模。支持英语和中文,可处理单图、多图和视频输入。项目开源了代码、在线演示和论文,为AI研究和开发提供了实用工具。
layoutlm-document-qa - LayoutLM文档智能问答模型
模型Github视觉问答开源项目HuggingfaceLayoutLM图像识别自然语言处理文档问答
LayoutLM文档智能问答模型是一个经过SQuAD2.0和DocVQA数据集微调的多模态模型。它能够准确回答发票、合同等各类文档图像中的问题,支持简单的Python代码调用。该模型为文档信息提取和理解提供了高效便捷的解决方案,适用于多种文档处理场景。
resnet-152 - 深入解析ResNet-152在图像分类中的应用
图像识别ResNet-152卷积神经网络深度学习模型Github开源项目图像分类Huggingface
ResNet-152 v1.5模型在ImageNet-1k上预训练,采用224x224分辨率,改进后的下采样策略提升了模型的准确性。该模型可用于图像分类,亦可在模型中心找到特定任务的微调版本。
llava-1.6-mistral-7b-gguf - 基于Mistral-7B的LLaVA多模态模型GGUF量化版
MistralLLaVA模型多模态模型图像识别Github机器学习开源项目Huggingface
LLaVA-1.6-Mistral-7B是一款开源的视觉语言模型GGUF量化版本,提供3bit至8bit多个压缩等级选择。该模型整合了图像理解与对话能力,通过大规模图文对和多模态指令数据训练而成。其中4bit和5bit量化版本在性能与模型体积之间取得良好平衡,适合在计算资源有限的场景下部署使用
Florence-2-base-ft - 基于Transformers.js的图像识别文本生成引擎
Transformers.js模型深度学习Florence-2图像识别模型转换GithubHuggingface开源项目
Florence-2-base-ft是一个基于ONNX权重的图像识别模型,专门针对Web环境优化。通过Transformers.js框架,该模型能够实现图像描述生成等功能。开发者可以通过JavaScript API将图像分析能力集成到Web应用中,项目提供在线演示展示具体应用效果。
Llama-3.2-11B-Vision-Instruct-nf4 - 量化视觉语言模型实现高效图像分析与理解
神经网络量化图像识别开源项目模型模型部署视觉AI模型GithubLlama-3.2Huggingface
Llama-3.2-11B-Vision-Instruct-nf4是一个基于meta-llama/Llama-3.2-11B-Vision-Instruct的量化视觉语言模型,采用BitsAndBytes的NF4(4位)量化技术,无需双重量化即可实现高效推理。该模型主要用于图像字幕生成等视觉分析任务,并提供详细的使用示例代码。项目还包含配套的ComfyUI自定义节点,为开发者提供了便捷的视觉分析工具集成方案。
japanese-clip-vit-b-16 - 日语CLIP模型实现跨模态文本图像语义匹配
ViT-B/16图像识别开源项目深度学习模型japanese-clipGithubCLIPHuggingface
rinna公司开发的日语CLIP模型采用ViT-B/16 Transformer架构,通过CC12M数据集的日语翻译版本训练而成。该模型实现了日语文本与图像的跨模态理解和语义匹配,提供简洁的API接口,适用于图像检索和跨模态搜索等场景。作为Apache 2.0许可的开源项目,它为日语视觉语言处理领域提供了实用的基础工具。
pixtral-12b - 支持多图片交互分析的开源视觉语言模型
图像识别机器学习GithubHuggingface多模态开源项目transformers模型Pixtral
pixtral-12b基于Transformers框架开发,是一个支持多图片处理的视觉语言模型。该模型可处理图文混合输入,实现图片内容识别、场景描述及图片关系分析。通过简单的API调用,开发者可快速实现多模态对话和图像分析功能。
nsfw-image-detection-large - FocalNet驱动的NSFW图像分类器实现高准确率内容审核
FocalNet人工智能模型图像识别Github防护过滤Huggingface开源项目内容审核
该NSFW图像分类器基于microsoft/focalnet-base构建,将图像快速分类为安全、可疑和不安全三类。模型接受512x512像素输入,支持批量处理,响应时间低于100ms。适用于社交媒体、电商平台、约会应用等内容审核场景。经过数百万图像训练,在NSFW检测基准任务中准确率超过95%,有助于维护平台安全和用户体验。
TF-ID-large-no-caption - 学术文献中图表精准识别工具
开源项目TF-ID表格提取模型Huggingface学术论文图像识别Github对象检测
TF-ID项目专注于精准提取学术论文中的表格和图形,由高效的TF-ID-large-no-caption版本支持。该项目来自Yifei Hu,基于Hugging Face的Florence-2,具备97%以上的识别准确率。适合需要处理大量学术图表的研究工作者。
align-base - 视觉语言对齐模型实现高效零样本图像分类
计算机视觉Github模型图像识别COYO-700M多模态学习Huggingface开源项目ALIGN
ALIGN采用EfficientNet和BERT构建双编码器架构,结合对比学习技术实现视觉与文本表示对齐。基于COYO-700M数据集训练的模型具备零样本图像分类和多模态嵌入检索能力,其性能表现达到甚至超越了Google原始ALIGN模型的水平,是一个公开可用的视觉语言对齐工具。
MiniCPM-Llama3-V-2_5-int4 - 轻量级视觉问答模型实现实时图像对话
Github开源项目GPU内存优化图像识别Huggingface深度学习MiniCPM-Llama3-V模型量化模型
MiniCPM-Llama3-V-2_5-int4通过int4量化技术实现低内存视觉问答功能,仅需9GB显存即可运行。基于Hugging Face框架开发,支持实时图像对话和流式输出,为视觉AI应用提供高效且资源友好的解决方案。
doctr-crnn-vgg16-bn-fascan-v1 - VGG16-CRNN文字识别模型
开源项目PyTorch模型HuggingfaceTensorFlow深度学习图像识别GithubOCR技术
doctr-crnn-vgg16-bn-fascan-v1是一个基于CRNN架构的文字识别模型,采用VGG16作为特征提取网络。模型通过DocumentFile接口支持图像处理,结合灵活的检测架构选择机制,可实现文档OCR任务。该实现同时支持TensorFlow 2和PyTorch框架,便于开发者快速部署和使用。
swin-base-patch4-window7-224-in22k - 基于shifted windows的分层视觉Transformer图像处理模型
图像识别开源项目模型GithubHuggingface计算机视觉深度学习Swin Transformer图像分类
Swin Transformer是一个在ImageNet-21k数据集上预训练的视觉模型,通过shifted windows机制实现局部特征提取,降低计算复杂度。模型采用分层特征图构建和局部注意力计算方式,适用于图像分类和密集识别任务,计算复杂度与输入图像大小呈线性关系
Llama-3.2-11B-Vision-Instruct - Meta推出支持图文交互的语言模型
多模态大语言模型图像识别Llama 3.2Meta模型Github开源项目问答系统Huggingface
Llama-3.2-11B-Vision-Instruct是一款由Meta开发的大型语言模型,集成了文本理解和图像识别能力。模型采用11B和90B两种参数规模,支持128K长度的上下文处理。基于Llama 3.1架构,通过监督学习和人类反馈优化,在视觉问答、图像描述、文档理解等任务中展现出优秀性能。该项目开放商用授权,需遵循Llama 3.2社区许可协议。
instructblip-flan-t5-xl - InstructBLIP视觉语言模型实现智能图像理解与对话
InstructBLIP机器学习HuggingfaceGithub开源项目模型人工智能Flan-T5-xl图像识别
InstructBLIP是基于BLIP-2架构的开源视觉语言模型,集成Flan-T5-xl增强了图像理解能力。模型支持图像描述生成、视觉问答等多项任务,可实现自然的图文交互。项目文档完善,提供代码示例方便开发者使用。
fuyu-8b - 无需图像编码器的轻量级多模态开源模型
Github模型开源项目多模态模型图像识别Huggingface计算机视觉Fuyu-8B人工智能
Fuyu-8B是Adept AI开发的开源多模态模型,基于decoder-only transformer架构设计。模型无需图像编码器即可处理任意分辨率图像,处理速度在100毫秒以内。在图表解析、UI交互和视觉定位等任务中展现稳定性能,同时在标准图像理解测试中表现良好。作为基础模型,适合通过微调来满足不同场景需求。
llava-onevision-qwen2-7b-si - 多模态AI模型实现图像和视频的深度理解
Huggingface机器学习多模态开源项目模型Qwen2Github图像识别LLaVA-OneVision
LLaVA-OneVision是一个基于Qwen2语言模型的多模态AI系统,拥有32K tokens的上下文窗口。该模型能够处理单图像、多图像和视频输入,在多个基准测试中表现出色。支持英语和中文,适用于广泛的视觉理解任务。开发者可通过提供的Python代码快速集成该模型,实现图像分析和问答功能。
vit-base-patch32-224-in21k - Vision Transformer模型在2100万图像数据集上预训练
Vision Transformer计算机视觉图像识别ImageNet-21k深度学习模型Github开源项目Huggingface
Vision Transformer (ViT) 是一种基于transformer架构的视觉模型,在ImageNet-21k数据集上预训练。该模型将图像转换为固定大小的patch序列,通过线性嵌入和位置编码输入transformer编码器。ViT可应用于图像分类等多种视觉任务,只需在预训练编码器上添加任务特定层。模型在224x224分辨率下训练,批量大小为4096,在多项图像分类基准测试中展现出优秀性能。
vip-llava-7b-hf - 基于自然视觉提示的多模态语言模型
ViP-LLaVAHuggingfaceGithub开源项目模型视觉语言处理多模态AIAI聊天机器人图像识别
VipLLaVA在LLaVA基础上引入自然视觉提示训练机制,通过边界框和指向箭头等视觉标记增强模型的图像理解能力。作为基于Transformer架构的多模态模型,VipLLaVA支持多图像输入和复杂视觉查询处理。该模型通过微调LLaMA/Vicuna实现,可集成到transformers库中实现图像文本交互,并支持4位量化和Flash Attention 2优化部署。
Virchow2 - 基于神经网络的病理切片图像分析与特征提取模型
图像识别PyTorchVirchow2深度学习模型Github开源项目病理学Huggingface
Virchow2是一个专门用于病理切片分析的深度学习模型,通过310万张医学图像训练而成。模型能够自动分析不同放大倍率的病理图像,提取关键特征信息,为计算病理学研究提供基础支持。其采用先进的视觉转换器架构,具备强大的图像处理能力。目前仅向学术研究机构开放使用,需要通过机构邮箱认证。
TinyCLIP-ViT-40M-32-Text-19M-LAION400M - 基于亲和力模仿和权重继承的CLIP模型压缩方法
Github模型模型压缩TinyCLIP开源项目深度学习图像识别HuggingfaceLAION400M
TinyCLIP是一种用于压缩大规模语言-图像预训练模型的跨模态蒸馏方法,采用亲和力模仿和权重继承技术。实验显示,TinyCLIP ViT-45M/32使用ViT-B/32一半的参数达到相似的零样本性能;TinyCLIP ResNet-19M在参数量减少50%的情况下,推理速度提升2倍,在ImageNet数据集上实现56.4%的准确率。
llava-interleave-qwen-7b-hf - 领先的多模态AI模型 支持多图像视频和3D输入处理
图像识别自然语言处理开源项目模型GithubAI对话HuggingfaceLLaVA Interleave多模态模型
LLaVA Interleave是基于Qwen1.5-7B-Chat开发的多模态AI模型,支持多图像、视频和3D输入处理。模型采用transformer架构,具备4-bit量化和Flash Attention 2优化功能。目前主要面向计算机视觉、自然语言处理和人工智能领域的研究人员,仅供学术研究使用。
donut-base-finetuned-docvqa - 基于Donut架构的无OCR文档理解与问答模型
文档理解Donut开源项目模型Huggingface文本生成图像识别Github视觉编码
基于Swin Transformer和BART架构开发的文档理解模型,通过DocVQA数据集微调。模型集成了视觉编码器和文本解码器,无需OCR技术即可直接处理文档图像并回答问题。支持发票号码识别、合同金额提取等文档问答功能,可用于多种商业文档的自动化处理。
omdet-turbo-swin-tiny-hf - 实时开放词汇目标检测模型 支持批量多任务处理
目标检测Github开源项目零样本分类图像识别OmDet-TurboHuggingface机器学习模型
这是一款基于Transformer的开放词汇目标检测模型。它支持零样本检测,能够识别指定的任意类别目标。该模型的特色在于支持批量处理多张图像,允许为每张图像设置不同的检测类别和任务描述。通过简洁的API接口,该模型可以方便地集成到各种计算机视觉应用中,实现高效的实时目标检测。