#图像分类

maxvit_base_tf_512.in21k_ft_in1k - MaxViT图像分类模型支持多尺寸特征提取和深度学习训练

GithubMaxViT模型ImageNet开源项目图像分类深度学习Huggingface人工智能

MaxViT是谷歌研究团队开发的图像分类模型，通过ImageNet-21k预训练和ImageNet-1k微调实现。模型集成多轴注意力机制，总参数量119.9M，支持512x512分辨率输入。除图像分类外，还可输出多尺度特征图和嵌入向量，便于迁移至其他视觉任务。模型在ImageNet-1k测试中取得88.20%的分类准确率。

efficientnetv2_rw_s.ra2_in1k - EfficientNetV2架构的轻量级图像分类模型

ImageNetGithub开源项目图像分类机器学习模型EfficientNetV2Huggingface深度学习模型

基于EfficientNetV2架构的图像分类模型，通过timm框架实现，使用RandAugment数据增强和RMSProp优化器在ImageNet-1k数据集训练。模型参数量23.9M，计算量4.9 GMACs，训练分辨率288x288，测试分辨率384x384。支持图像分类、特征图提取和图像嵌入等功能。

repvit_m1.dist_in1k - ImageNet-1k高效图像分类与特征提取开源项目

图像分类Github开源项目timmRepViT模型Huggingface特征提取ImageNet-1k

repvit_m1.dist_in1k是RepViT家族中的高效图像分类模型，专为ImageNet-1k数据集优化，应用蒸馏技术增强性能。模型参数为5.5M，0.8 GMACs，支持224x224图像尺寸。设计灵感源于对移动CNN的创新探索，结合ViT视角。详情请参考相关arXiv文献。该模型能够执行图像分类、特征提取和图像嵌入等任务，适合的研究和工程应用。

vit_large_patch14_dinov2.lvd142m - 基于DINOv2的大规模Vision Transformer视觉特征提取模型

timmDINOv2特征提取模型Github开源项目图像分类ViTHuggingface

这是一个基于Vision Transformer架构的图像特征提取模型，采用DINOv2自监督学习方法在LVD-142M数据集上预训练。模型包含3.044亿参数，支持518x518像素输入，适用于图像分类和特征提取任务。该模型提供了完整的加载、预处理和推理示例代码，可应用于需要高质量视觉特征表示的各种计算机视觉场景。

siglip-base-patch16-512 - 采用Sigmoid损失函数的开源计算机视觉模型

Github模型开源项目图像分类SigLIP深度学习Huggingface计算机视觉图文匹配

SigLIP在CLIP架构基础上改进了损失函数设计，使用Sigmoid损失函数处理图像-文本对训练。该模型在WebLI数据集上预训练，支持512x512分辨率的图像输入，主要应用于零样本图像分类和图文检索。相比CLIP，新的损失函数无需全局相似度归一化，使模型在不同批量规模下都能保持稳定表现。

resnet18.fb_swsl_ig1b_ft_in1k - 基于ResNet-B的ReLU激活图像分类模型

Githubtimm库模型ImageNet-1k开源项目ResNet-B半弱监督学习图像分类Huggingface

本项目展示ResNet-B模型，用于图像分类，特征包括ReLU激活、7x7卷积池化和1x1卷积下采样。模型在Instagram-1B数据集上以半监督学习预训练，并在ImageNet-1k数据集上微调，适用于特征提取和图像嵌入。

vision-perceiver-conv - Perceiver IO模型：灵活应用于图像分类的优化架构

自注意力机制图像分类Huggingface开源项目模型GithubPerceiver IO模型预训练ImageNet

Perceiver IO是一个适用于多种模态的transformer编码器模型，通过自注意力机制在固定的计算资源下实现更高效的处理。该模型在ImageNet上进行了预训练，能够通过像素级处理进行准确的图像分类。模型结合了卷积和maxpool预处理，可以生成多尺寸和多语义的输出结果，并在ImageNet-1k中实现了82.1的顶级精度。这一模型不仅可用于高效的标准图像分类，还能通过替换分类解码器实现灵活的应用扩展，适用于多种任务的特征提取。

vit_small_patch14_reg4_dinov2.lvd142m - 基于自监督学习的视觉Transformer用于图像特征提取和分类

Github模型开源项目图像分类自监督学习深度学习Vision TransformerHuggingface图像特征

该Vision Transformer (ViT) 图像特征模型通过自监督学习进行预训练，基于LVD-142M数据集并采用DINOv2方法。模型专为图像分类和特征提取设计，包含22.1M参数和29.6 GMAC的运算能力。其注册方法增强了处理518x518像素图像的效果，DINOv2技术有助于无监督视觉特征学习。此模型在图像嵌入应用中表现优异，并支持多种视觉分析与研究。用户可使用timm库简单调用和部署模型，适合多种机器学习场景。

regnetz_c16.ra3_in1k - 采用灵活配置的RegNetZ模型实现高效图像分类

BYOBNet开源项目模型timmGithubHuggingfaceRegNetZImageNet-1k图像分类

RegNetZ模型在ImageNet-1k上训练后，展现出色的图像分类性能。该模型基于timm库实现，通过BYOBNet灵活配置支持，包括block/stage布局、激活层、归一化层及自注意层等自定义选项。提供多种应用，如图像分类、特征提取及嵌入生成，设计适合处理不同组宽及层配置需求，尤其适用于高精度及灵活性任务。

convnext_atto.d2_in1k - 轻量级ConvNeXt模型，优化图像分类和特征提取

Ross Wightman特征提取开源项目模型GithubHuggingfaceConvNeXtImageNet-1k图像分类

ConvNeXt图像分类模型，经过Ross Wightman在timm库中使用ImageNet-1k数据集训练。其参数为3.7M，计算量为0.6 GMACs，适合高效图像嵌入与特征提取，计算复杂度低但准确度高，适合多种图像分析任务。

inception_next_tiny.sail_in1k - InceptionNeXt架构的轻量级图像分类模型

特征提取开源项目模型timmGithubHuggingfaceImageNet-1kInceptionNeXt图像分类

inception_next_tiny.sail_in1k是基于InceptionNeXt架构的图像分类模型，在ImageNet-1k数据集上训练。该模型结合Inception和ConvNeXt的特点，提供图像分类、特征图提取和图像嵌入功能。模型参数为28.1M，GMACs为4.2，适用于224x224大小的图像输入。它通过timm库提供简洁的API，支持预训练权重，可轻松应用于多种计算机视觉任务。

mobilevit-xx-small - 轻量级移动端视觉转换模型，适用于通用图像分类

图像分类ImageNet-1kMobileViTHuggingfaceGithub开源项目模型Transformer卷积神经网络

MobileViT模型的设计同时保证了轻量和低延迟性能，通过结合MobileNetV2和全局处理变换器块，适合各种图像分类应用。模型无需位置嵌入，已在ImageNet-1k数据集预训练并取得69%的top-1准确率。训练过程中采用简单的数据增强方法，可无须微调即可学到多尺度特征。目前支持PyTorch框架。

convnextv2_huge.fcmae_ft_in22k_in1k_384 - 高级卷积网络用于图像分类与特征提取

图像分类HuggingfaceConvNeXt-V2开源项目模型预训练模型Github特征骨干ImageNet-1k

ConvNeXt-V2是一种先进的卷积网络模型，专为图像分类与特征提取而设计。此模型通过全卷积掩码自编码器进行预训练，并在ImageNet-22k和ImageNet-1k上进行微调。具备660.3M参数和338.0 GMACs的计算成本，专为384x384大小的图像设计，确保高效处理与高精度结果。其在主流图像分类任务中的表现卓越，达到88.668的Top-1准确率和98.738的Top-5准确率，其框架优化适配多种计算场景。

tf_efficientnet_b3.ns_jft_in1k - 结合EfficientNet架构的神经网络图像处理模型

深度学习图像分类Huggingface特征提取开源项目模型GithubEfficientNetImageNet

该模型采用EfficientNet架构，通过Noisy Student半监督学习方法在ImageNet-1k和JFT-300m数据集训练。模型参数量1220万，支持300x300分辨率图像处理，可实现图像分类、特征提取和图像嵌入等功能。模型结合高效的网络架构和半监督学习技术，在图像处理任务中表现出色。

mobilevitv2-1.0-imagenet1k-256 - MobileViTv2中的可分离自注意力实现高效图像分类

图像分类PyTorchMobileViTv2分离自注意力HuggingfaceImageNetGithub开源项目模型

MobileViTv2是一个图像分类模型，通过引入可分离自注意力机制，提升计算效率与性能。该模型在ImageNet-1k数据集上预训练，适用于大规模图像分类任务，并支持PyTorch平台。用户可使用此模型进行未处理图像的分类，或寻找适合特定任务的微调版本，为图像识别应用带来优化。

convnext-large-384 - ConvNeXT模型在图像分类中的创新突破

图像分类HuggingfaceImageNetVision TransformersGithub开源项目模型ResNetConvNeXT

ConvNeXT是一个受Vision Transformers启发的卷积模型，通过在ImageNet-1k上以384x384分辨率训练而成，旨在提高图像分类效果。研究显示，该模型在性能上优于传统模型，并基于ResNet进行了现代化改造。开发者Liu等人在相关论文中介绍了这一模型，该模型可用于分类任务，亦可在Hugging Face平台上进行任务微调。

CLIP-ViT-B-32-DataComp.XL-s13B-b90K - 基于DataComp-1B训练的CLIP图像分类模型

图像分类Huggingface机器学习CLIP人工智能开源项目模型GithubDataComp

CLIP ViT-B/32是一个使用DataComp-1B数据集训练的图像分类模型，在ImageNet-1k测试中达到72.7%零样本分类准确率。模型支持图像分类、图像文本检索等功能，主要面向多模态机器学习研究使用。

CLIP-ViT-B-32-256x256-DataComp-s34B-b86K - 基于DataComp训练的CLIP多模态视觉语言模型

开源项目模型GithubViT-B-32机器学习HuggingfaceCLIPDataComp-1B图像分类

CLIP ViT-B/32是一个在DataComp-1B数据集上训练的视觉语言模型，通过OpenCLIP框架实现。模型在ImageNet-1k分类任务中实现72.7%零样本准确率，支持图像分类、跨模态检索等研究任务。该开源项目为计算机视觉研究提供了重要的实验基础

convnextv2_huge.fcmae_ft_in22k_in1k_512 - ConvNeXt-V2高效的图像分类与特征提取模型

图像分类模型预训练ConvNeXt-V2HuggingfaceImageNetGithub开源项目模型特征提取

ConvNeXt-V2模型在全卷积掩码自动编码器框架下进行预训练，并在ImageNet-22k和ImageNet-1k数据集上微调，提升了图像分类和特征提取的效率。模型拥有660.3M参数，处理512x512图像，适合复杂计算需求。支持图像分类、特征图提取和图像嵌入，确保高准确率和多样化应用，结合timm库简化操作，适用于研究和工业应用。

convnext_atto_ols.a2_in1k - 高效的ConvNeXt模型实现图像分类与特征提取

图像分类HuggingfaceImageNet-1k特征提取开源项目模型Github图像嵌入ConvNeXt

本项目提供一个基于ImageNet-1k数据集优化的ConvNeXt图像分类模型，其低参数量和高效计算性能使其成为图像处理任务（如特征图提取和图像嵌入生成）的理想选择。该模型在timm库中训练，支持快速且准确的分类任务，并适用于多种计算需求。

tinynet_e.in1k - TinyNet模型在ImageNet-1k上的应用与性能分析

timm特征提取ImageNet-1k模型Github开源项目图像分类tinynet_e.in1kHuggingface

TinyNet是一个旨在优化图像分类和特征提取的模型，通过调整分辨率、深度和宽度，在ImageNet-1k上进行训练。模型参数量为2.0M，并具有低计算负荷。提供简便的代码示例以支持图像分类、特征图提取和图像嵌入，可用于多种图像处理场景。同时，通过timm库探索其指标表现，更深入了解其在神经信息处理中的应用。

vit_small_patch32_224.augreg_in21k_ft_in1k - Vision Transformer图像分类模型预训练于ImageNet-21k并微调于ImageNet-1k

Vision TransformertimmImageNet深度学习模型Github开源项目图像分类Huggingface

这是一个基于Vision Transformer (ViT)架构的图像分类模型，在ImageNet-21k上进行预训练，并在ImageNet-1k上微调。模型包含2290万参数，处理224x224尺寸的图像输入。通过额外的数据增强和正则化技术提升性能，最初在JAX框架中训练，后移植至PyTorch。该模型提供简洁的API，支持图像分类和特征提取两大功能，可广泛应用于多种计算机视觉任务。

regnety_320.seer - RegNetY-32GF模型：自监督学习优化的图像特征提取工具

Github开源项目特征提取图像分类RegNetY自监督学习SwAVHuggingface模型

RegNetY-32GF模型经过SEER自监督学习预训练，具备卓越图像特征提取能力。其增强功能如随机深度和梯度检查点等，有助于优化处理大规模数据集。支持多种配置和预激活瓶颈块，适合多样化深度学习应用。

marqo-fashionCLIP - 基于CLIP的时尚图像检索与分类开源模型

GithubMarqo-FashionCLIP多模态检索开源项目图像分类时尚搜索Huggingface性能评估模型

Marqo-FashionCLIP是一个基于CLIP架构的时尚图像检索和分类模型。模型采用广义对比学习技术，支持处理文本描述、类别、风格、颜色和材质等多维度特征。在Atlas、DeepFashion等6个公开数据集的评测中，该模型在文本到图像检索、类别分类等任务上取得了优异表现。开发者可通过Hugging Face、OpenCLIP或Transformers.js等框架使用此模型。

vit_base_patch16_224.orig_in21k_ft_in1k - 基于ImageNet大规模数据集的Vision Transformer模型

Vision TransformertimmPyTorchImageNet模型Github开源项目图像分类Huggingface

该Vision Transformer模型经过ImageNet-21k数据集预训练并在ImageNet-1k上微调，采用86.6M参数，适用于224x224图像的分类与特征提取。最初由论文作者在JAX上训练，并由Ross Wightman移植到PyTorch环境，可应用于图像分类和嵌入场景。

efficientnetv2_rw_t.ra2_in1k - EfficientNet-v2的模型特点与应用分析

Github模型ImageNet-1k开源项目图像分类EfficientNet-v2timmHuggingface特征提取

EfficientNet-v2是一个专注于图像分类的高效模型，采用RandAugment策略在ImageNet-1k数据集上训练，具有参数少、训练快的特点。通过timm库实现，支持特征图提取和图像嵌入等多种功能。其结构设计为强大的特征骨干提供了基础。

resnet10t.c3_in1k - 使用ResNet-T技术的先进图像分类模型

图像分类Image EmbeddingsHuggingfaceImageNetGithub开源项目模型ResNet-T提取特征图

ResNet-T模型结合ReLU激活和分层结构的3x3卷积和池化，实现高效的图像分类。模型在ImageNet-1k数据集上训练，通过SGD优化和Cosine学习率调度，具备出色的分类和特征提取能力，适用于多种应用场景。

vit_small_patch8_224.dino - 基于自监督DINO的图像特征提取Transformer

图像分类模型比较自监督学习HuggingfaceGithub开源项目模型特征提取Vision Transformer

项目提供了一种自监督DINO方法的Vision Transformer模型，用于图像特征提取。具有21.7M参数和16.8 GMACs运算量，预训练数据为ImageNet-1k。适用于多种视觉任务，支持通过PyTorch和timm库实现，确保高效处理。这项技术在视觉Transformer领域表现出色。

tf_efficientnet_lite0.in1k - 轻量级EfficientNet-Lite模型实现高效图像分类与特征提取

EfficientNet-LiteGithub模型ImageNet-1k开源项目图像分类Huggingface模型对比特征提取

EfficientNet-Lite0是一款专为高效图像分类和特征提取设计的模型，经过ImageNet-1k训练。该模型已被迁移至PyTorch，并利用timm库进行图像嵌入和特征图提取。在4.7M参数和0.4 GMACs的架构下，实现了高效性能与计算资源节约，适合作为多种视觉任务的解决方案。

swin-base-patch4-window12-384 - 高效图像分类的Swin Transformer视觉模型

自注意力机制Swin Transformer视觉转换器图像分类Huggingface层次特征图开源项目模型Github

Swin Transformer是一款视觉Transformer，通过使用层级特征图和移窗技术，进行高效图像分类。模型在ImageNet-1k数据集上以384x384分辨率训练，具备线性计算复杂度，使其适用于图像分类和密集识别任务。模型可用于原始图像分类，或者在模型集中寻找细化版本，适合处理计算密集型任务。

siglip-base-patch16-256-multilingual - 基于Sigmoid损失函数的多语言视觉语言模型

图像分类Huggingface开源项目模型WebLI数据集Github零样本学习多模态模型SigLIP

SigLIP是一个基于CLIP架构的多语言视觉语言模型，通过Sigmoid损失函数优化训练效果。模型在WebLI数据集上以256x256分辨率预训练，实现零样本图像分类和图文检索功能。相比CLIP模型，在批量处理和整体性能上都有提升。模型经过16个TPU-v4芯片训练，支持多语言处理，主要应用于图像分类和跨模态检索任务。

beit_base_patch16_384.in22k_ft_in22k_in1k - 高效的BEiT自监督图像分类与嵌入模型

图像分类自监督学习BEiTHuggingface视觉TransformerImageNetGithub开源项目模型

BEiT图像分类模型在ImageNet-22k上通过DALL-E dVAE自监督掩码图像建模进行训练，并在ImageNet-22k和ImageNet-1k上进行微调。特点包括易于实现图像分类和生成图像嵌入，具有86.7百万参数，支持384x384图像。模型适合通过timm库高效调用，适用于多种计算机视觉应用。

samvit_base_patch16.sa1b - 高效的图像特征提取与分类工具

图像分类图像特征提取samvit_base_patch16.sa1bHuggingfaceGithub开源项目模型预训练Vision Transformer

Segment-Anything Vision Transformer（SAM ViT）模型专注于图像特征提取与分类，不含分割头。使用MAE权重进行初始化，并通过SA-1B数据集的预训练，展示出89.7M的参数量及486.4 GMACs的计算性能，适宜处理1024x1024图像。Python代码示例提供了图像分类与嵌入应用方式，用户可通过timm库使用预训练模型‘samvit_base_patch16.sa1b’以提升图像分析效率。

sdxl-detector - 高效分类现代图像与Wikimedia-SDXL数据优化模型

Github模型AutoTrain开源项目SDXL图像分类HuggingfaceWikimediaAI艺术检测器

SDXL Detector专为精确分类Wikimedia-SDXL图像对而设计，通过微调umm-maybe AI art detector模型，有效提高了对现代扩散模型和非艺术性图像的识别能力。尽管对旧版本生成模型图像的检测能力可能不如原始模型，SDXL Detector适合非商业用途，凭借AutoTrain训练展现出高效性能，如出色的f1得分和精准度。

convnextv2_base.fcmae_ft_in22k_in1k_384 - 高效图像识别与特征开发的开源解决方案

ImageNet图像分类卷积神经网络开源项目模型Huggingface特征提取ConvNeXt-V2Github

ConvNeXt-V2是一款基于全卷积掩码自编码器（FCMAE）预训练的图像分类模型，能够高效处理ImageNet-22k和ImageNet-1k数据集。模型拥有88.7M的参数和45.21 GMACs，适合精准的图像识别和特征开发。兼容timm库，支持图像分类、特征图提取和图像嵌入生成等应用场景。通过简单的Python代码即可调用该模型，提升开发效率。

convnext-tiny-224 - 高效图像分类 ConvNeXT卷积神经网络的新突破

图像分类HuggingfaceVision TransformersImageNetGithub开源项目模型ResNetConvNeXT

ConvNeXT是一款卷积模型，具有优于Vision Transformers的表现。设计灵感源于Swin Transformer，并对ResNet进行了现代化调整，专注于图像分类。ConvNeXT-tiny-224在ImageNet-1k数据集训练后，提供高效的分类能力。模型集线器提供适用不同任务的微调版本。

相关文章

Article Cover

Turi Create: 简化机器学习模型开发的强大工具

Article Cover

飞桨产业级模型库：推动AI技术在各行业的落地应用

Article Cover

GluonCV: 先进的计算机视觉深度学习工具包

Article Cover

飞镖运动的魅力:从历史到现代竞技的全面解析

Article Cover

深度学习在卫星图像分析中的应用技术

Article Cover

ONNX Model Zoo: 开源预训练模型的宝库

Article Cover

OpenAI Vision API 实验集锦：探索计算机视觉的无限可能

Article Cover

DeepDetect:开源深度学习API和服务器

Article Cover

深度学习在图像处理中的应用:从分类到目标检测

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号