#ImageNet

vit_tiny_patch16_224.augreg_in21k_ft_in1k - 基于ViT架构的轻量级图像分类与特征提取模型

ImageNet模型图像分类GithubtimmVision Transformer特征提取开源项目Huggingface

vit_tiny_patch16_224.augreg_in21k_ft_in1k是一个轻量级Vision Transformer模型，专为图像分类和特征提取而设计。该模型在ImageNet-21k上预训练，并在ImageNet-1k上微调，采用了增强的数据增强和正则化技术。它拥有570万参数，能处理224x224尺寸的图像，在保持高效性能的同时提供准确的视觉分析能力。

eva_large_patch14_196.in22k_ft_in22k_in1k - EVA大型图像分类模型适用于多种计算机视觉应用

模型神经网络开源项目Huggingface图像分类ImageNetGithub深度学习EVA

eva_large_patch14_196.in22k_ft_in22k_in1k是基于EVA架构的图像分类模型。该模型在ImageNet-22k数据集上预训练和微调，最后在ImageNet-1k上微调，达到88.592%的Top-1准确率。模型包含3.04亿参数，支持处理196x196像素的图像，可用于图像分类和特征提取等计算机视觉任务。其性能和versatility使其成为视觉项目的有力工具。

resnest101e.in1k - ResNeSt101e 基于ResNet架构的高性能分离注意力图像分类模型

模型神经网络开源项目Huggingface图像分类ImageNetResNeStGithub深度学习

ResNeSt101e.in1k是一个基于ResNet架构的分离注意力网络图像分类模型，在ImageNet-1k数据集上训练。该模型拥有4830万参数，13.4 GMACs计算复杂度，支持图像分类、特征提取和图像嵌入等功能。ResNeSt101e在保持较低计算复杂度的同时提供优秀性能，适用于多种计算机视觉应用场景。

vit_base_r50_s16_384.orig_in21k_ft_in1k - ResNet-Vision Transformer混合模型用于高精度图像分类

模型开源项目ResNetHuggingface图像分类Vision TransformerImageNetGithubtimm

本模型结合ResNet与Vision Transformer优势，在大规模ImageNet-21k数据集上预训练，并在ImageNet-1k上微调，实现高效准确的图像分类。具备9900万参数，支持384x384像素输入，可用于分类任务和特征提取。研究人员可通过timm库轻松应用此模型，进行推理或深入研究。

twins_pcpvt_base.in1k - Twins-PCPVT基础模型在ImageNet-1k上的图像分类应用

Huggingface图像分类模型timmImageNetTwins-PCPVTGithub深度学习模型开源项目

twins_pcpvt_base.in1k是基于Twins-PCPVT架构的图像分类模型，在ImageNet-1k数据集上训练。该模型拥有4380万参数，采用创新的空间注意力机制，适用于图像分类和特征提取任务。模型可通过timm库加载，支持直接推理或进一步微调。其在224x224图像输入下的计算量为6.7 GMACs，激活量为2520万。

mixer_b16_224.goog_in21k_ft_in1k - MLP-Mixer架构的ImageNet预训练模型实现图像分类与特征提取

模型神经网络开源项目HuggingfaceMLP-Mixer图像分类ImageNetGithubtimm

mixer_b16_224.goog_in21k_ft_in1k是一个基于MLP-Mixer架构的图像分类模型，在ImageNet-21k预训练后在ImageNet-1k微调。该模型拥有5990万参数，处理224x224图像输入，可用于图像分类和特征提取。项目提供了简洁的代码示例，展示了模型在图像分类和特征提取任务中的应用。这个模型为计算机视觉研究提供了有力工具。

xcit_large_24_p8_224.fb_in1k - XCiT大型模型提供强大的图像分类和特征提取能力

ImageNet模型图像分类Github神经网络深度学习XCiTHuggingface开源项目

xcit_large_24_p8_224.fb_in1k是一个基于XCiT架构的预训练模型，专注于图像分类和特征提取。该模型在ImageNet-1k数据集上训练，拥有1.889亿参数，处理224x224像素的图像。它在图像分类和特征嵌入任务中表现出色，适用于多种计算机视觉应用。借助timm库，研究人员和开发者可以方便地使用此模型进行推理或迁移学习。

tf_mixnet_l.in1k - MixNet架构的轻量级图像分类模型

PyTorch模型开源项目Huggingface图像分类ImageNetGithubtimmMixNet

tf_mixnet_l.in1k是一个基于MixNet架构的图像分类模型，在ImageNet-1k数据集上训练。该模型采用混合深度卷积核，参数量为7.3M，计算量为0.6 GMACs。它支持图像分类、特征图提取和图像嵌入等功能，适用于224x224像素的输入图像。tf_mixnet_l.in1k在保持较小模型规模的同时，为多种计算机视觉任务提供了有效的解决方案。

vit_small_patch16_224.augreg_in21k_ft_in1k - 视觉Transformer模型实现图像分类与特征提取

模型ViT神经网络开源项目Huggingface图像分类ImageNetGithub深度学习

vit_small_patch16_224.augreg_in21k_ft_in1k是一个经过ImageNet-21k预训练和ImageNet-1k微调的Vision Transformer模型。它采用额外数据增强和正则化技术，适用于图像分类和特征提取。该模型拥有2210万参数，支持224x224图像输入，可通过timm库轻松加载使用。模型原始在JAX训练，后由Ross Wightman移植至PyTorch，为计算机视觉任务提供了强大的基础工具。

edgenext_small.usi_in1k - 轻量级CNN-Transformer混合模型EdgeNeXt用于移动视觉应用

ImageNet模型EdgeNeXt图像分类Github神经网络特征提取开源项目Huggingface

edgenext_small.usi_in1k是一款轻量级CNN-Transformer混合模型，针对移动视觉应用优化。该模型在ImageNet-1k数据集上训练，参数量为5.6M，GMACs为1.3。它支持图像分类、特征图提取和图像嵌入等功能，结合CNN和Transformer优势，在保持性能的同时减少计算资源需求，适合在资源受限的移动设备上运行。

mobilenet_v2_1.0_224 - 轻量级移动设备图像分类神经网络MobileNet V2

ImageNet模型图像分类计算机视觉Github神经网络MobileNet V2Huggingface开源项目

MobileNet V2是一款针对移动设备优化的图像分类神经网络模型，在ImageNet-1k数据集上进行预训练。该模型以低延迟和低功耗著称，适用于资源受限的环境。MobileNet V2支持多种分辨率和深度配置，在模型大小、推理速度和准确性之间实现了良好平衡。除图像分类外，它还可应用于目标检测、特征嵌入和图像分割等计算机视觉任务，为移动端应用提供了versatile的解决方案。

vit_base_patch8_224.augreg2_in21k_ft_in1k - 基于Vision Transformer的ImageNet预训练图像分类模型

ImageNet模型图像分类Githubtimm神经网络Vision TransformerHuggingface开源项目

vit_base_patch8_224.augreg2_in21k_ft_in1k是一个基于Vision Transformer架构的图像分类模型。该模型在ImageNet-21k上预训练，并在ImageNet-1k上微调，采用了增强的数据增强和正则化技术。模型包含8665万个参数，支持224x224像素的输入图像，可用于图像分类和特征提取。通过timm库，用户可以便捷地加载和使用该模型进行推理或继续训练。

dla102.in1k - 深层聚合架构的图像分类模型支持多种计算机视觉应用

ImageNet模型图像分类Githubtimm深度层聚合特征提取开源项目Huggingface

dla102.in1k是基于深层聚合架构的图像分类模型，在ImageNet-1k数据集上训练。模型拥有3330万参数，支持224x224像素输入。除图像分类外，还可用于特征图提取和图像嵌入。通过timm库可方便地调用此预训练模型，为计算机视觉应用提供灵活基础。模型在图像分类、特征提取等任务中表现出色，适用于多种视觉分析场景。

deit-base-patch16-224 - DeiT高效视觉Transformer 创新图像分类模型

ImageNet模型图像分类DeiTGithub深度学习Vision TransformerHuggingface开源项目

DeiT是一种高效训练的视觉Transformer模型,在ImageNet-1k数据集上预训练和微调。采用创新的数据高效方法,以较少计算资源实现出色图像分类性能。支持224x224分辨率输入,Top-1准确率达81.8%。可直接用于图像分类或作为下游视觉任务的特征提取器。该模型在保持ViT架构优势的同时,显著提高了训练效率和分类精度。

convnext_base.fb_in22k_ft_in1k - ConvNeXt图像分类模型：ImageNet-22k预训练和ImageNet-1k微调

Huggingface图像分类模型ImageNettimmGithubConvNeXt预训练模型开源项目

convnext_base.fb_in22k_ft_in1k是Facebook研究团队开发的ConvNeXt图像分类模型。该模型在ImageNet-22k上预训练，ImageNet-1k上微调，拥有8860万参数。适用于图像分类、特征提取和图像嵌入，在ImageNet-1k验证集上达到85.8%的top-1准确率。模型采用ConvNeXt架构，为计算机视觉任务提供了有力支持。

resmlp_12_224.fb_in1k - ResMLP架构的数据高效图像分类模型

ResMLP神经网络深度学习Huggingface开源项目ImageNet模型图像分类Github

resmlp_12_224.fb_in1k是Facebook Research团队基于ResMLP架构开发的图像分类模型，在ImageNet-1k数据集上训练。该模型采用前馈网络结构，拥有1540万参数，支持224x224像素图像处理。除图像分类外，还可作为特征提取骨干网络使用。通过timm库，研究者可方便地加载预训练模型进行图像分类或特征提取。该模型展现了数据高效训练在视觉任务中的潜力，为计算机视觉领域提供了新的解决方案。

maxvit_nano_rw_256.sw_in1k - 轻量级MaxViT图像分类模型适合边缘计算

Huggingface图像分类模型ImageNet模型比较Github预训练模型开源项目MaxViT

maxvit_nano_rw_256.sw_in1k是一款轻量级图像分类模型，由Ross Wightman基于MaxViT架构设计并在ImageNet-1k数据集上训练。该模型结合MBConv卷积和自注意力机制，参数量15.45M，GMAC 4.46，在256x256输入下Top-1准确率达82.93%。其高效设计适合在边缘设备上进行快速准确的图像分类。

resnet-18 - 深度残差学习实现图像识别突破

模型Github开源项目ResNetHuggingface图像分类ImageNet计算机视觉深度学习

ResNet-18是一种基于深度残差学习的图像分类模型，在ImageNet-1k数据集上训练。通过引入残差连接，该模型突破了深度网络训练的限制，实现了高达1000层的网络结构。ResNet-18在2015年ILSVRC和COCO竞赛中的胜利，标志着计算机视觉领域的重要进展。这个模型适用于多种图像分类任务，并支持快速部署和微调。研究者和开发者可以通过Hugging Face的transformers库轻松使用ResNet-18进行图像识别研究和应用开发。

cvt-13 - 融合CNN和ViT优势的创新图像分类模型

模型CvT开源项目Huggingface图像分类ImageNet视觉转换器Github深度学习

CvT-13是一款结合卷积神经网络(CNN)和视觉变换器(ViT)优势的图像分类模型。该模型在ImageNet-1k数据集上预训练，可处理224x224分辨率图像。CvT-13融合了CNN的局部特征提取和ViT的全局建模能力，在图像分类任务中表现出色。研究者可通过Hugging Face的transformers库轻松应用此模型于不同的图像分类项目中。

convnext_tiny.in12k_ft_in1k - ConvNeXt微型模型基于ImageNet-12k预训练和ImageNet-1k微调

模型预训练模型开源项目Huggingface图像分类ImageNetConvNeXtGithubtimm

ConvNeXt微型图像分类模型在ImageNet-12k数据集上预训练,并在ImageNet-1k上微调。模型采用最新ConvNeXt架构,参数量28.59M,GMACs 4.47,激活量13.44M。224x224输入时Top-1准确率84.186%,384x384输入时达85.118%。适用于图像分类、特征提取和图像嵌入等计算机视觉任务。

inception_v3.tv_in1k - Inception-v3图像分类与特征提取深度学习模型

特征提取Huggingface图像分类模型timmImageNetGithub开源项目Inception-v3

inception_v3.tv_in1k是基于Inception-v3架构的图像分类模型，通过ImageNet-1k数据集训练。该模型可用于图像分类和特征提取，参数量为23.8M，GMACs为5.7，适用于299x299分辨率图像。通过timm库，研究者可便捷加载预训练模型，执行图像分类、特征图提取和图像嵌入等任务，为计算机视觉研究提供有力工具。

spnasnet_100.rmsp_in1k - 使用Single-Path NAS技术设计的轻量级图像分类模型

SPNasNetImageNet模型图像分类神经网络架构搜索GithubtimmHuggingface开源项目

spnasnet_100.rmsp_in1k是基于Single-Path NAS技术的轻量级图像分类模型，在ImageNet-1k数据集上训练。模型仅有440万参数和0.3 GMACs，适合资源受限场景。支持图像分类、特征图提取和图像嵌入等应用。通过timm库可轻松加载此预训练模型进行推理或微调。模型采用RMSProp优化器和指数衰减学习率调度，在保持高效性的同时确保了分类性能。

convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_320 - ConvNeXt大型图像分类模型 LAION-2B预训练 ImageNet微调

模型开源项目Huggingface图像分类LAION-2BImageNetConvNeXtGithubtimm

ConvNeXt大型图像分类模型采用CLIP方法在LAION-2B数据集上预训练,并在ImageNet-12k和ImageNet-1k上微调。模型包含2亿参数,320x320输入下top-1准确率达87.968%。支持图像分类、特征提取和嵌入等任务,可应用于多种计算机视觉场景。

res2net50_14w_8s.in1k - Res2Net架构的多尺度骨干网络实现高效图像分类

模型开源项目Huggingface图像分类ImageNet深度学习模型GithubtimmRes2Net

res2net50_14w_8s.in1k是基于Res2Net架构的图像分类模型，在ImageNet-1k数据集上训练。该模型采用多尺度ResNet结构，具有2510万参数，计算复杂度为4.2 GMACs。除图像分类外，还可作为特征提取器应用于其他计算机视觉任务。模型接受224x224像素的输入图像，并提供API支持图像分类、特征图提取和图像嵌入等功能。其高效的多尺度结构使其在保持准确性的同时降低了计算成本。

beitv2_base_patch16_224.in1k_ft_in22k - BEiT-v2架构的ImageNet-22k微调图像分类与特征提取模型

模型开源项目Huggingface图像分类ImageNet机器学习模型GithubtimmBEiT-v2

beitv2_base_patch16_224.in1k_ft_in22k是基于BEiT-v2架构的图像分类模型，在ImageNet-1k上进行自监督预训练，并在ImageNet-22k上微调。该模型拥有1.026亿参数，支持224x224像素输入，适用于图像分类和特征提取。通过timm库可轻松加载，为计算机视觉研究和应用提供强大工具。

convnextv2_tiny.fcmae_ft_in22k_in1k - ConvNeXt-V2图像分类模型 FCMAE预训练与ImageNet微调

ConvNeXt-V2模型开源项目Huggingface图像分类特征提取ImageNet卷积神经网络Github

ConvNeXt-V2架构的图像分类模型采用全卷积掩码自编码器(FCMAE)预训练，并在ImageNet-22k和ImageNet-1k数据集上微调。该模型拥有2860万参数，224x224输入尺寸下达到83.894%的top1准确率。适用于图像分类、特征提取和图像嵌入等计算机视觉任务，为高效图像处理提供了强大支持。

tf_efficientnetv2_b0.in1k - 轻量高效的图像分类解决方案

ImageNet模型图像分类GithubtimmEfficientNet-v2特征提取开源项目Huggingface

EfficientNetV2-B0是EfficientNet-v2系列中的轻量级模型，由谷歌研究团队开发并在ImageNet-1k数据集上训练。模型参数仅7.1M，GMACs为0.5，在保持较高准确率的同时大幅降低计算复杂度。除图像分类外，还可用于特征提取和生成图像嵌入。该模型适用于资源受限的环境，如移动设备和边缘计算场景，为开发者提供了高效的图像处理解决方案。

beit_base_patch16_224.in22k_ft_in22k_in1k - BEiT模型：基于ImageNet数据集的高效图像分类与特征提取

ImageNet模型图像分类Githubtimm预训练模型BEiTHuggingface开源项目

beit_base_patch16_224.in22k_ft_in22k_in1k是一个强大的图像分类模型，基于BEiT架构设计。该模型在ImageNet-22k数据集上进行自监督掩码图像建模预训练，并在ImageNet-22k和ImageNet-1k上微调，具有8650万个参数。它支持224x224像素的输入图像，可用于图像分类和特征提取，为计算机视觉任务提供高效解决方案。

vit_large_patch16_224.augreg_in21k_ft_in1k - 预训练ViT大模型实现高性能图像分类与特征提取

ImageNet模型视觉转换器图像分类迁移学习GithubtimmHuggingface开源项目

这是一个基于Vision Transformer (ViT)架构的大型图像处理模型，在ImageNet-21k数据集上预训练，并在ImageNet-1k上微调。模型采用了先进的数据增强和正则化技术，适用于图像分类和特征提取任务。它包含3.04亿参数，处理224x224尺寸的输入图像。通过TIMM库，用户可以方便地使用该模型进行图像分类和特征嵌入提取。由于在大规模数据集上训练，该模型展现出卓越的图像理解能力。

repvgg_a2.rvgg_in1k - RepVGG架构的轻量级图像分类模型支持多种视觉应用

模型预训练模型开源项目Huggingface图像分类ImageNet卷积神经网络RepVGGGithub

repvgg_a2.rvgg_in1k是基于RepVGG架构的图像分类模型，通过ImageNet-1k数据集训练。该模型利用timm库的BYOBNet实现，允许自定义网络结构。模型参数量为28.2M，GMACs为5.7，处理224x224像素的输入图像。除图像分类外，还支持特征图提取和图像嵌入，可应用于多种计算机视觉任务。

tf_efficientnetv2_s.in21k_ft_in1k - EfficientNet-v2图像分类模型基于双重ImageNet数据集训练

模型EfficientNet-v2开源项目Huggingface图像分类ImageNet特征提取Githubtimm

这是一个基于EfficientNet-v2架构的图像分类模型，采用ImageNet-21k预训练和ImageNet-1k微调策略。模型参数量为2150万，计算量为5.4 GMACs，支持图像分类、特征提取和图像嵌入等多种应用。训练采用300x300分辨率，测试时提升至384x384，在性能和效率之间实现良好平衡。该模型最初由论文作者在Tensorflow中实现，后由Ross Wightman移植至PyTorch框架。

vit_base_patch16_224.mae - 采用MAE预训练的Vision Transformer图像特征模型

模型开源项目Huggingface自监督学习图像分类特征提取Vision TransformerImageNetGithub

vit_base_patch16_224.mae是一个基于Vision Transformer架构的图像特征模型，通过自监督掩码自编码器(MAE)方法在ImageNet-1k数据集上预训练。该模型适用于图像分类和特征提取，拥有8580万参数，处理224x224像素的输入图像。它提供简洁的API，便于获取分类结果和提取图像嵌入。这个模型融合了ViT的出色表征能力和MAE的自监督学习优势，为多种计算机视觉任务提供了有力的预训练基础。

ese_vovnet19b_dw.ra_in1k - VoVNet-v2轻量级图像分类模型兼顾性能与能效

模型VoVNet开源项目Huggingface图像分类特征提取ImageNetGithubtimm

ese_vovnet19b_dw.ra_in1k是基于VoVNet-v2架构的图像分类模型，在ImageNet-1k数据集上使用RandAugment技术预训练。该模型参数量为6.5M，计算量为1.3 GMACs，适用于多种图像分类任务。除了高效的分类功能，它还可作为特征提取骨干网络，支持特征图提取和图像嵌入。模型在保持高性能的同时，优化了能耗和GPU计算效率，是一个兼顾性能与效率的轻量级选择。

gmlp_s16_224.ra3_in1k - gMLP架构的ImageNet-1k图像分类模型

ImageNet模型图像分类Githubtimm深度学习模型gMLP开源项目Huggingface

gmlp_s16_224.ra3_in1k是一个基于gMLP架构的图像分类模型，在ImageNet-1k数据集上训练。该模型在timm库中实现，参数量为1940万，计算量为4.4 GMACs，适用于224x224像素的图像输入。模型可用于图像分类和特征提取，支持top-5预测和图像嵌入生成。这一模型源自'Pay Attention to MLPs'研究，为计算机视觉领域提供了一种高效的MLP架构方案。

cspdarknet53.ra_in1k - CSP-DarkNet架构的图像分类和特征提取模型

CSPDarkNetHuggingface图像分类模型深度学习ImageNettimmGithub开源项目

cspdarknet53.ra_in1k是基于CSP-DarkNet架构的图像分类模型，在ImageNet-1k数据集上训练。模型采用RandAugment数据增强和RMSProp优化器，拥有27.6M参数。支持256x256输入图像，可用于图像分类、特征图提取和图像嵌入。该模型在timm库中实现，为计算机视觉任务提供便捷解决方案。

swin_tiny_patch4_window7_224.ms_in1k - Swin Transformer: 基于移位窗口的层级视觉模型

ImageNet模型图像分类Swin TransformerGithubtimm特征提取开源项目Huggingface

swin_tiny_patch4_window7_224.ms_in1k是一个基于Swin Transformer架构的图像分类模型，在ImageNet-1k数据集上预训练。该模型包含2830万参数，支持224x224像素输入，可用于图像分类和特征提取。它采用分层视觉Transformer结构和移位窗口技术，提高了效率和性能。研究者可通过timm库便捷地使用此模型进行推理或进一步训练，适用于各种计算机视觉任务。

DenseNet: 深度学习中的密集连接卷积网络

2024年08月30日

Stylized-ImageNet: 突破传统CNN对纹理的依赖，引导模型学习更多形状信息

2024年09月04日

使用MTT实现数据集蒸馏:通过匹配训练轨迹生成小规模高质量合成数据集

2024年09月04日

HorNet: 高效高阶空间交互的递归门控卷积网络

2024年09月04日

AMC: 移动设备上模型压缩与加速的自动机器学习解决方案

2024年09月05日

从零开始实现扩散模型：深入理解 DDPM、DDIM 和无分类器引导

2024年09月05日

SRe2L: 大规模数据集蒸馏的新视角

2024年09月05日

TransferAttackEval：重新审视可迁移对抗性图像的研究

投诉举报邮箱: service@vectorlightyear.com