#ImageNet

convnextv2_base.fcmae_ft_in22k_in1k - 多功能图像分类与特征提取模型

ImageNet模型图像分类Githubtimm预训练模型开源项目HuggingfaceConvNeXt-V2

ConvNeXt-V2是一款先进的图像分类模型，通过全卷积掩码自编码器框架(FCMAE)预训练，并在ImageNet-22k和ImageNet-1k数据集上微调。除图像分类外，该模型还可用于特征图提取和图像嵌入。拥有8870万参数，ConvNeXt-V2在ImageNet-1k验证集上实现86.74%的Top-1准确率。凭借在多项基准测试中的卓越表现，ConvNeXt-V2成为各类计算机视觉任务的优秀选择。

swin_large_patch4_window7_224.ms_in22k_ft_in1k - 分层视觉Transformer模型基于ImageNet-22k预训练和ImageNet-1k微调

特征提取Huggingface图像分类模型timmImageNetGithub开源项目Swin Transformer

swin_large_patch4_window7_224.ms_in22k_ft_in1k是基于Swin Transformer架构的图像分类模型。该模型在ImageNet-22k上预训练，ImageNet-1k上微调，拥有1.965亿参数，34.5 GMACs计算量。它支持224x224输入图像，适用于图像分类、特征提取和图像嵌入。模型采用分层结构和移位窗口机制，平衡了计算效率和性能。

mit-b4 - 使用SegFormer预训练模型提升语义分割效率

Hugging FaceImageNetTransformer开源项目模型Huggingface语义分割GithubSegFormer

此项目提供SegFormer的b4-sized预训练模型，具有分层Transformer和轻量级MLP解码头，在ADE20K和Cityscapes等基准上展现出色性能。经过ImageNet-1k预训练的SegFormer可用于下游任务微调，满足多种应用需求。用户可在[模型库](https://huggingface.co/models?other=segformer)中根据任务需求选择合适版本，优化图像分割效果。

inception_v3.gluon_in1k - Inception-v3架构的图像分类与特征提取模型

模型开源项目HuggingfaceInception-v3图像分类ImageNet特征提取Githubtimm

该模型基于Inception-v3架构，在ImageNet-1k数据集上训练，拥有2380万参数，支持299x299图像输入。除图像分类外，还可用于特征图提取和图像嵌入。通过timm库，研究者和开发者可轻松应用此预训练模型于各类计算机视觉任务。模型由MxNet GLUON团队开发，为图像处理领域提供了强大工具。

tinynet_a.in1k - 轻量级图像分类模型 TinyNet 实现高效特征提取

ImageNet模型图像分类TinyNetGithub神经网络深度学习Huggingface开源项目

tinynet_a.in1k是基于ImageNet-1k数据集训练的轻量级图像分类模型。它仅有6.2M参数和0.3 GMACs，适用于192x192像素的图像处理。该模型可用于图像分类、特征图提取和图像嵌入，在资源受限环境中表现出色。通过timm库，开发者可以方便地使用预训练模型进行各种计算机视觉任务。tinynet_a.in1k在保持高效性能的同时，为图像处理应用提供了一个轻量化解决方案。

volo_d1_224.sail_in1k - VOLO D1 224模型基于ImageNet-1k训练的视觉识别工具

VOLO模型开源项目Huggingface图像分类ImageNetGithub深度学习timm

VOLO D1 224是一款基于Vision Outlooker架构的图像分类模型，在ImageNet-1k数据集上训练。该模型参数量为26.6M，GMACs为6.9，适用于224x224像素的图像输入。作为timm库的一部分，VOLO D1 224不仅支持图像分类，还可作为特征提取的骨干网络，为计算机视觉任务提供了灵活的解决方案。其简单的使用方法和多功能性使其成为视觉识别领域的实用工具。

convnextv2-base-22k-384 - 基于ImageNet-22K数据集的ConvNeXt V2全卷积模型

Github模型ImageNet开源项目图像分类视觉Huggingface自动编码器ConvNeXt V2

ConvNeXt V2模型通过FCMAE框架和新引入的GRN层提高卷积网络在图像分类中的效果，基于ImageNet-22K数据集训练，支持高分辨率和出色性能表现，适用于多种识别任务，可用于直接应用或微调以满足特定需求。

resnetrs152.tf_in1k - ResNetRS-B模型提供的图像信息处理新选择

ResNetRS-B开源项目图像分类timmTensorflowHuggingfaceGithub模型ImageNet

ResNetRS-B是一款图像分类模型，具备ReLU激活、单层7x7卷积池化和1x1卷积下采样功能。该模型由论文作者在ImageNet-1k上使用Tensorflow训练，拥有86.6M的参数量，支持320x320图像测试。其多功能性使其适用于图像分类、特征提取和图像嵌入任务，通过timm库可便捷地在Python中实现应用。

convnextv2_tiny.fcmae_ft_in22k_in1k_384 - ConvNeXt-V2：精准高效的图像分类模型

ImageNetConvNeXt V2图像分类开源项目模型Huggingface卷积网络自动编码器Github

ConvNeXt-V2 模型具备高效的图像分类能力，通过全卷积掩码自编码器架构进行预训练，并在 ImageNet-22k 和 ImageNet-1k 数据集上进行精调。该模型具备 28.6M 参数量、13.1 GMACs 计算量，支持 384x384 的图像尺寸。通过 timm 库使用，支持图像分类、特征图提取和图像嵌入等多种视觉任务。

efficientnet_b4.ra2_in1k - EfficientNet B4图像分类模型 ImageNet-1k数据集训练

模型开源项目Huggingface图像分类EfficientNetImageNet深度学习Githubtimm

efficientnet_b4.ra2_in1k是基于EfficientNet架构的图像分类模型，在ImageNet-1k数据集上训练。该模型采用RandAugment RA2增强方法，使用RMSProp优化器，具有1930万参数和3.1 GMACs计算量。支持320x320训练图像和384x384测试图像，可用于图像分类、特征提取和嵌入等任务，为计算机视觉领域提供高效解决方案。

vit_base_patch16_clip_384.laion2b_ft_in12k_in1k - LAION-2B预训练的Vision Transformer图像分类模型

LAION-2BGithub图像分类HuggingfaceVision TransformerImageNet深度学习开源项目模型

该模型基于Vision Transformer架构，在LAION-2B数据集上预训练，随后在ImageNet-12k和ImageNet-1k上微调。模型接受384x384像素的输入图像，包含8690万个参数。除图像分类外，还可用于生成图像特征嵌入。通过timm框架实现，提供灵活配置和简便使用，适用于多种计算机视觉任务。

swin-base-patch4-window7-224 - 微软开源分层视觉Transformer图像分类模型

开源项目深度学习模型视觉模型ImageNetSwin Transformer图像分类GithubHuggingface

Swin Transformer是Microsoft开发的图像分类模型，通过层级特征图构建和局部窗口注意力机制实现线性计算复杂度。模型在ImageNet-1k数据集上完成224x224分辨率训练，可作为通用主干网络支持图像分类和密集识别任务。其创新的窗口划分策略使模型在处理大尺寸图像时具有更高的效率。

convnext_base.fb_in22k_ft_in1k_384 - 高效的ConvNeXt图像分类解决方案

图像分类Huggingface特征提取开源项目模型GithubImageNetConvNeXt模型对比

ConvNeXt图像分类模型经过ImageNet-22k的预训练和ImageNet-1k的微调，以384x384分辨率高效执行分类任务。拥有88.6M参数和45.2 GMACs，支持图像分类、特征提取和图像嵌入等功能。适用于多种机器学习任务，其高分辨率处理能力使其在深度学习领域具有良好表现。

tf_efficientnet_b7.ns_jft_in1k - EfficientNet B7图像分类模型基于Noisy Student半监督学习

Huggingface开源项目模型卡模型EfficientNetImageNet图像分类Githubtimm

模型采用EfficientNet B7架构，结合Noisy Student半监督学习，在ImageNet-1k和JFT-300m数据集上训练。参数量66.3M，输入图像尺寸600x600，支持图像分类、特征提取和嵌入向量生成。已从TensorFlow移植至PyTorch，可应用于高精度图像识别任务。

vgg16.tv_in1k - 基于ImageNet-1k训练的VGG16图像分类模型

神经网络开源项目深度学习模型ImageNet图像分类VGGGithubHuggingface

VGG16是一个经典的深度学习图像分类模型，基于ImageNet-1k数据集训练而成。模型包含1.384亿个参数，处理224x224像素输入图像，支持图像分类、特征图提取和图像嵌入等功能。借助timm库可实现模型的快速部署，广泛应用于计算机视觉领域。

convnext_small.fb_in22k_ft_in1k_384 - ConvNeXt模型提升图像分类精度的预训练与微调方案

特征提取ImageNet模型比较模型Github开源项目图像分类ConvNeXtHuggingface

ConvNeXt是一款用于图像分类的模型，于ImageNet-22k数据集预训练，并在ImageNet-1k上微调。该模型拥有50.2百万参数和25.6 GMACs，支持384x384尺寸的图像处理。除了图像分类外，它还支持特征图和图像嵌入提取。凭借其优异的性能和高效的图像处理能力，ConvNeXt被广泛应用于复杂的图像识别任务。通过timm库可实现模型便捷的加载与应用，适用于各种研究与工程需求。

dpn98.mx_in1k - 基于DPN架构的ImageNet图像分类深度学习模型

ImageNet图像分类模型深度学习GithubDPN机器学习开源项目Huggingface

DPN98是一个在ImageNet-1k数据集上训练的图像分类模型，采用双路径网络架构，具有6160万参数规模。该模型支持224x224像素输入，可用于图像分类、特征提取和图像嵌入。模型已从MXNet迁移至PyTorch框架，并提供预训练权重，适合进行计算机视觉研究和应用开发。

vit-large-patch16-224 - 大型视觉Transformer模型在ImageNet数据集上的图像分类实现

Github图像分类HuggingfaceVision Transformer深度学习ImageNet开源项目模型计算机视觉

Vision Transformer大型模型在ImageNet-21k数据集上完成预训练，包含1400万张图像和21,843个分类。模型通过将图像分割为16x16像素块进行处理，支持224x224分辨率输入，并在ImageNet 2012数据集上进行微调。该模型基于PyTorch框架实现，可用于图像分类等视觉任务。

convnext_small.in12k_ft_in1k_384 - 高效的ConvNeXt图像分类与特征提取预训练模型介绍

开源项目模型timmImageNetGithubHuggingfaceConvNeXt预训练图像分类

ConvNeXt图像分类模型，通过timm库在ImageNet-12k及ImageNet-1k上进行预训练与微调，提供图像特征提取与分类功能。支持TPU和8xGPU训练方式，适合大规模数据集处理。模型拥有50.2M参数和25.6 GMACs，支持384x384图像输入，并兼具特征图提取与图像嵌入功能，适用于高效图像处理需求。更多性能数据及结果可在timm库查阅。

vit_base_patch32_clip_448.laion2b_ft_in12k_in1k - LAION-2B预训练的ViT图像分类模型

ImageNetGithub开源项目图像分类LAION-2BtimmHuggingface视觉Transformer模型

这是一个基于Vision Transformer架构的图像分类模型，在LAION-2B数据集预训练后在ImageNet-12k和ImageNet-1k上微调。模型包含8830万参数，支持448x448输入图像，可用于图像分类和特征提取。该模型通过timm库实现，提供简单使用示例，采用Apache-2.0许可。

densenet201.tv_in1k - DenseNet图像分类模型实现高效特征提取与精准分类

ImageNetDenseNetGithub开源项目图像分类计算机视觉Huggingface深度学习模型

DenseNet201是一个在ImageNet-1k数据集上训练的图像分类模型。该模型拥有2000万参数，支持224x224像素输入，适用于图像分类、特征图提取和图像嵌入等任务。其密集连接的卷积网络结构不仅提供准确的分类结果，还能生成丰富的特征表示。模型通过timm库提供预训练权重，便于快速部署和使用。

tf_efficientnet_l2.ns_jft_in1k - EfficientNet架构的大规模图像识别与特征提取模型

ImageNetGithub开源项目图像分类EfficientNetHuggingface神经网络深度学习模型

基于EfficientNet架构开发的图像分类模型，采用Noisy Student半监督学习方法，结合ImageNet-1k和JFT-300m数据集进行训练。模型支持800x800分辨率输入，包含4.8亿参数，可用于图像分类、特征提取和嵌入向量生成。借助timm库实现模型的快速部署，适用于各类图像识别任务。

beit-base-patch16-224 - 基于BERT架构的图像分类模型BEiT在视觉特征学习的应用

BEiTImageNetGithub开源项目图像分类图像预处理Huggingface机器学习模型

BEiT是一个Vision Transformer架构的图像分类模型，通过在ImageNet-21k数据集进行自监督预训练并在ImageNet-1k上微调而来。模型采用BERT风格的预训练方法处理224x224分辨率图像，结合16x16像素块嵌入和视觉token预测机制，实现了图像特征的提取。其特点是使用相对位置编码替代绝对位置编码，并通过patch特征平均池化完成分类任务。

densenet121.ra_in1k - 基于RandAugment优化的DenseNet图像分类预训练模型

ImageNet图像分类开源项目模型Huggingface特征提取深度学习DenseNetGithub

DenseNet121是一个在ImageNet-1k数据集上预训练的图像分类模型，采用RandAugment数据增强策略优化。模型参数量为800万，支持多种输入分辨率，可用于图像分类、特征提取和embedding生成等计算机视觉任务。

xcit_nano_12_p8_224.fb_in1k - 基于跨协方差转换器的轻量级图像分类模型

ImageNetGithub开源项目图像分类计算机视觉Huggingface神经网络深度学习模型

xcit_nano_12_p8_224.fb_in1k采用跨协方差图像转换器（XCiT）架构，是一个参数量为3.0M的轻量级图像分类模型。模型在ImageNet-1k数据集上完成预训练，支持224x224尺寸的图像输入，可应用于图像分类和特征提取。模型通过跨协方差注意力机制降低计算复杂度，适合实际部署应用。

xcit_small_12_p16_224.fb_in1k - 跨协方差图像Transformer的高效视觉分类与特征提取模型

ImageNet计算机视觉图像分类Github开源项目模型Huggingface深度学习XCiT

XCiT (Cross-Covariance Image Transformer)是Facebook Research开发的视觉分类模型，采用创新的跨协方差注意力机制。模型在ImageNet-1k数据集预训练，包含2630万参数，处理224x224图像输入。通过优化计算效率，该模型在图像分类和特征提取任务中展现出稳定性能。

deit_tiny_patch16_224.fb_in1k - 高效数据处理的DeiT图像分类和特征提取模型

ImageNetTransformerDeiT图像分类开源项目timm模型HuggingfaceGithub

DeiT图像分类模型经过在ImageNet-1k数据集上的训练，通过注意力机制提高数据处理效率。它的紧凑架构具有5.7百万参数和1.3 GMACs，适用于224x224像素图像，可用于图像分类和嵌入生成。此项目具备广泛的库支持，易于集成，是研究者获取高效图像处理能力的理想工具。

vit_small_r26_s32_384.augreg_in21k_ft_in1k - ResNet与Vision Transformer结合的图像分类模型解析

ImageNetGithub开源项目图像分类timmViTHuggingface增广正则化模型

该模型结合ResNet与Vision Transformer（ViT）的特点，专用于图像分类。最初在ImageNet-21k上训练，后在ImageNet-1k上微调，并在JAX中创建，由Ross Wightman移植到PyTorch环境中。模型采用了36.5M参数和27.7M激活，针对384x384图像进行了优化，通过增强和正则化技术提升了处理复杂图像任务的能力，适用于多种图像识别应用。

deit-tiny-patch16-224 - 高效小型视觉Transformer模型用于图像分类

ImageNet图像处理Github开源项目图像分类HuggingfaceDeiT深度学习模型

DeiT-tiny-patch16-224是一个在ImageNet-1k数据集上训练的高效视觉Transformer模型。该模型仅有5M参数，却在ImageNet top-1分类准确率上达到72.2%。它可处理224x224分辨率的图像输入，输出1000个ImageNet类别的预测结果，适用于各种图像分类任务。

resnet101.tv_in1k - 采用ResNet101架构的高效图像分类和特征提取模型

ImageNet图像分类开源项目模型resnet101.tv_in1kHuggingface特征提取深度学习Github

resnet101.tv_in1k是一个基于ResNet101架构的图像分类模型，搭载ReLU激活、单层7x7卷积池化和1x1卷积下采样等特性，经过ImageNet-1k数据集训练，可用于图像特征提取和分类。在深度残差学习的加持下，该模型在特征提取和分类任务中表现突出，适合用于学术研究和商用产品开发。

swinv2-tiny-patch4-window8-256 - 基于分层特征图的轻量级视觉Transformer模型

深度学习图像分类HuggingfaceSwin Transformer v2开源项目计算机视觉模型GithubImageNet

Swin Transformer V2是一个在ImageNet-1k数据集上预训练的视觉模型，采用分层特征图结构和局部窗口注意力机制，实现线性计算复杂度。模型整合了残差后归一化和余弦注意力等技术，在保持256x256分辨率输入的同时，提供了稳定的图像分类和特征提取能力。

convnextv2-tiny-1k-224 - 基于全新框架节点，优化卷积网络的性能

Github模型卷积神经网络ImageNet开源项目图像分类FCMAEHuggingfaceConvNeXt V2

ConvNeXt V2引入了全新的全卷积掩码自动编码器框架及全局响应归一化层，提升卷积网络在多种识别基准的表现，经过ImageNet-1K数据集微调，适合高精度图像分类任务及视觉识别应用。

maxvit_base_tf_512.in21k_ft_in1k - MaxViT图像分类模型支持多尺寸特征提取和深度学习训练

GithubMaxViT模型ImageNet开源项目图像分类深度学习Huggingface人工智能

MaxViT是谷歌研究团队开发的图像分类模型，通过ImageNet-21k预训练和ImageNet-1k微调实现。模型集成多轴注意力机制，总参数量119.9M，支持512x512分辨率输入。除图像分类外，还可输出多尺度特征图和嵌入向量，便于迁移至其他视觉任务。模型在ImageNet-1k测试中取得88.20%的分类准确率。

efficientnetv2_rw_s.ra2_in1k - EfficientNetV2架构的轻量级图像分类模型

ImageNetGithub开源项目图像分类机器学习模型EfficientNetV2Huggingface深度学习模型

基于EfficientNetV2架构的图像分类模型，通过timm框架实现，使用RandAugment数据增强和RMSProp优化器在ImageNet-1k数据集训练。模型参数量23.9M，计算量4.9 GMACs，训练分辨率288x288，测试分辨率384x384。支持图像分类、特征图提取和图像嵌入等功能。

vision-perceiver-conv - Perceiver IO模型：灵活应用于图像分类的优化架构

自注意力机制图像分类Huggingface开源项目模型GithubPerceiver IO模型预训练ImageNet

Perceiver IO是一个适用于多种模态的transformer编码器模型，通过自注意力机制在固定的计算资源下实现更高效的处理。该模型在ImageNet上进行了预训练，能够通过像素级处理进行准确的图像分类。模型结合了卷积和maxpool预处理，可以生成多尺寸和多语义的输出结果，并在ImageNet-1k中实现了82.1的顶级精度。这一模型不仅可用于高效的标准图像分类，还能通过替换分类解码器实现灵活的应用扩展，适用于多种任务的特征提取。

tf_efficientnet_b3.ns_jft_in1k - 结合EfficientNet架构的神经网络图像处理模型

深度学习图像分类Huggingface特征提取开源项目模型GithubEfficientNetImageNet

该模型采用EfficientNet架构，通过Noisy Student半监督学习方法在ImageNet-1k和JFT-300m数据集训练。模型参数量1220万，支持300x300分辨率图像处理，可实现图像分类、特征提取和图像嵌入等功能。模型结合高效的网络架构和半监督学习技术，在图像处理任务中表现出色。

DenseNet: 深度学习中的密集连接卷积网络

2024年08月30日

Stylized-ImageNet: 突破传统CNN对纹理的依赖，引导模型学习更多形状信息

2024年09月04日

使用MTT实现数据集蒸馏:通过匹配训练轨迹生成小规模高质量合成数据集

2024年09月04日

HorNet: 高效高阶空间交互的递归门控卷积网络

2024年09月04日

AMC: 移动设备上模型压缩与加速的自动机器学习解决方案

2024年09月05日

从零开始实现扩散模型：深入理解 DDPM、DDIM 和无分类器引导

2024年09月05日

SRe2L: 大规模数据集蒸馏的新视角

2024年09月05日

TransferAttackEval：重新审视可迁移对抗性图像的研究

投诉举报邮箱: service@vectorlightyear.com