#图像分类

vit_base_patch16_224.augreg_in21k - 基于ImageNet-21k训练的Vision Transformer图像分类模型
模型嵌入模型图像分类ImageNet-21kGithubtimmVision TransformerHuggingface开源项目
这是一个基于Vision Transformer架构的图像分类模型,在ImageNet-21k数据集上训练。模型采用额外的数据增强和正则化技术,参数量1.026亿,处理224x224像素图像。除图像分类外,还可用作特征提取器生成图像嵌入。基于PyTorch实现,提供简洁API,适用于多种计算机视觉任务。模型由Google Research开发,Ross Wightman将其移植到PyTorch。
vit_base_patch16_384.augreg_in21k_ft_in1k - Vision Transformer用于图像分类和特征提取的先进模型
ImageNet模型图像分类Githubtimm深度学习Vision TransformerHuggingface开源项目
此Vision Transformer模型专注于图像分类和特征提取任务。经ImageNet-21k预训练和ImageNet-1k微调,采用先进的数据增强和正则化方法。支持384x384像素输入,拥有8690万参数。不仅可进行图像分类,还能生成图像嵌入。源自Google Research,经Ross Wightman移植到PyTorch,现已成为timm库的重要组成部分。
mobilevitv2_075.cvnets_in1k - MobileViT-v2:高效的移动视觉变换器图像分类解决方案
MobileViT-v2图像分类ImageNet-1kSeparable Self-attentionHuggingfaceGithub开源项目模型特征提取
MobileViT-v2是一个高效的移动视觉变换器模型,利用分离自注意力机制优化了图像分类与特征提取。经过ImageNet-1k数据集训练,该模型适配多种计算机视觉任务。模型规格包括2.9M参数和1.1 GMAC,支持256x256图像输入。借助timm库,模型可轻松集成至移动设备的视觉处理应用中。
mobilevit-small - 高效轻量的移动端视觉转换器
模型神经网络MobileViT开源项目Huggingface图像分类机器学习ImageNetGithub
MobileViT-small是一款轻量级视觉模型,在ImageNet-1k数据集上预训练。该模型融合MobileNetV2结构和transformer块,实现高效全局图像处理。仅5.6M参数量,却在ImageNet上获得78.4%的top-1准确率。适用于移动设备的图像分类等任务,平衡了性能与效率。
dino-vitb16 - DINO训练的ViT模型在图像识别中的应用
特征提取视觉TransformerHuggingface图像分类模型GithubDINO开源项目自监督学习
DINO-ViTB16是一个基于视觉Transformer的自监督学习模型,在ImageNet-1k数据集上预训练。它将图像分割为16x16像素的patch序列,通过Transformer编码器处理,可捕获图像的内部表示。该模型适用于图像分类等多种计算机视觉任务,通过在[CLS] token上添加线性层即可实现。DINO-ViTB16展示了自监督学习在视觉领域的巨大潜力,为图像处理提供了新的解决方案。
efficientnetv2_rw_m.agc_in1k - EfficientNetV2模型:图像分类与多功能特征提取
timm模型使用图像分类EfficientNet-v2Huggingface开源项目模型GithubImageNet-1k
EfficientNetV2是一个在timm库中实现的高效图像分类模型。通过使用以ResNet Strikes Back为基础的训练策略和SGD优化器(带Nesterov动量),结合自适应梯度剪裁,模型在ImageNet-1k数据集上进行训练。这一架构轻量且强大,支持包括图像分类、特征提取和图像嵌入的多种图像处理任务。
resnet50_gn.a1h_in1k - ResNet-B架构图像分类模型结合先进训练方法
模型神经网络开源项目ResNetHuggingface图像分类ImageNetGithubtimm
resnet50_gn.a1h_in1k是基于ResNet-B架构的图像分类模型,集成了多项先进训练技术。模型采用ReLU激活函数、单层7x7卷积与池化、1x1卷积快捷连接下采样等结构。在ImageNet-1k数据集上训练时,应用了LAMB优化器、增强型dropout、随机深度和RandAugment等方法。模型参数量为25.6M,GMACs为4.1,训练输入尺寸为224x224,测试输入尺寸为288x288。该模型可应用于图像分类、特征提取和图像嵌入等多种计算机视觉任务。
cat-vs-dog-resnet-50 - 基于微调的ResNet-50实现高精度猫狗图像分类
图像分类Huggingface猫狗分类开源项目精度模型GithubAdam优化microsoft/resnet-50
此项目采用微调版的microsoft/resnet-50模型,以其在cats_vs_dogs数据集上达到的0.9654高准确率而表现出色。适合高精度图像识别场景,模型训练过程使用了线性学习率调度器和Adam优化器,确保了结果的稳定与可靠。
swin_base_patch4_window7_224.ms_in22k_ft_in1k - Swin Transformer模型:用于图像分类和特征提取的层级视觉架构
特征提取Huggingface图像分类模型timmImageNetGithub开源项目Swin Transformer
swin_base_patch4_window7_224.ms_in22k_ft_in1k是一个基于Swin Transformer架构的图像分类模型,在ImageNet-22k上预训练并在ImageNet-1k上微调。该模型拥有8780万参数,支持224x224像素图像处理,可用于图像分类和特征提取。通过timm库,研究人员可以方便地加载预训练模型,进行图像分类、特征图提取或生成图像嵌入。这一模型在计算效率和性能之间实现了良好平衡,适用于各种计算机视觉任务。
convnextv2_nano.fcmae_ft_in1k - 基于FCMAE的ConvNeXt-V2高效图像分类与特征提取模型
Github开源项目特征提取图像分类Huggingface深度学习ConvNeXt V2ImageNet-1k模型
ConvNeXt-V2模型通过全卷积掩码自动编码器框架进行预训练,并在ImageNet-1k数据集上进行微调。该模型具备15.6百万参数,支持多种图像尺寸处理,训练尺寸为224x224,测试尺寸为288x288。借助timm库,它可执行图像分类、特征提取和图像嵌入,适用于多种应用场景。
dino-vitb8 - 无需微调,实现高效图像分类的自监督视觉转换器
Github开源项目图像分类Vision Transformer自监督学习Huggingface预训练模型ImageNet-1k模型
Vision Transformer (ViT)模型通过DINO方法进行的自监督训练在ImageNet-1k数据集上预训练,注重提升图像特征提取,无需微调即可应用于图像分类,兼顾多种下游任务。可根据任务需求选择合适的微调版本。
mobilenetv4_conv_aa_large.e230_r448_in12k_ft_in1k - 高效图像分类与特征提取模型 支持移动设备应用
MobileNetV4ImageNetGithub开源项目图像分类timmHuggingface预训练模型模型
MobileNet-V4图像分类模型经过ImageNet-12k预训练和ImageNet-1k精细调整,优化了参数和图像处理能力。该模型适用于移动设备,并支持特征提取和图像嵌入。凭借出色的Top-1准确率和参数效率,它在同类模型中表现突出,提供快速准确的图像识别能力。
efficientnet-b0 - EfficientNet的复合系数法在资源有限设备上提升图像分类效果
EfficientNet卷积神经网络模型缩放ImageNet模型Github开源项目图像分类Huggingface
EfficientNet是一种训练于ImageNet-1k数据集、分辨率为224x224的卷积模型。该模型提出了复合系数方法,以均衡缩放模型的深度、宽度和分辨率。在移动设备上表现卓越,适用于图像分类。同时,用户可在Hugging Face平台上获取特定任务的微调版本。
deit_base_distilled_patch16_224.fb_in1k - DeiT图像分类模型 结合注意力蒸馏技术
模型ImageNet-1k开源项目Huggingface图像分类特征提取GithubtimmDeiT
DeiT_base_distilled_patch16_224.fb_in1k是一个在ImageNet-1k数据集上训练的图像分类模型,采用注意力蒸馏技术优化性能。模型包含8730万个参数,支持224x224像素图像输入。除图像分类外,还可用于特征提取。通过timm库可轻松调用,适用于图像分类和嵌入向量提取。该模型在精度和效率方面表现均衡,可广泛应用于计算机视觉任务。
regnety_002.pycls_in1k - 轻量级RegNetY模型用于图像分类与特征提取
模型ImageNet-1k开源项目Huggingface图像分类RegNetY深度学习Githubtimm
RegNetY-200MF是一款在ImageNet-1k上预训练的轻量级图像分类模型。它具有3.2M的参数量和0.2 GMACs的计算量,适用于资源受限场景。该模型不仅可进行图像分类,还可作为特征提取的主干网络。timm实现添加了随机深度、梯度检查点等增强功能,提升了模型性能和灵活性。RegNetY-200MF可用于图像分类、特征图提取和图像嵌入等多种任务。
deit-base-distilled-patch16-224 - DeiT模型通过蒸馏技术提升ImageNet图像分类性能
视觉Transformer蒸馏图像分类Huggingface模型ImageNetGithubDeiT开源项目
DeiT-base-distilled-patch16-224是一种基于Vision Transformer的图像分类模型,通过蒸馏技术从CNN教师模型中学习。该模型在ImageNet-1k数据集上进行预训练和微调,在224x224分辨率下实现83.4%的top-1准确率。模型采用16x16图像块嵌入和蒸馏token,适用于多种计算机视觉任务,尤其在图像分类领域表现优异。
mobilevit_s.cvnets_in1k - MobileViT 轻量级通用移动友好的图像分类模型
特征提取Huggingface图像分类MobileViT模型timmGithub开源项目ImageNet-1k
mobilevit_s.cvnets_in1k是一款基于MobileViT架构的图像分类模型,在ImageNet-1k数据集上进行了训练。该模型仅有5.6M参数和2.0 GMACs计算量,体现了其轻量级特性。它不仅可用于图像分类,还支持特征图提取和图像嵌入等功能。通过融合MobileNet的效率和Vision Transformer的性能,这个模型特别适合在计算资源有限的移动设备上应用。
pnasnet5large.tf_in1k - PNASNet大规模图像分类与特征提取模型
模型PNasNetImageNet-1k开源项目Huggingface图像分类特征提取Github深度学习
pnasnet5large.tf_in1k是基于Progressive Neural Architecture Search技术开发的图像分类模型,在ImageNet-1k数据集上训练而成。该模型拥有8610万参数,计算量为25.0 GMACs,支持331x331像素的图像输入。它不仅可用于图像分类,还能进行特征图提取和图像嵌入。研究人员和开发者可通过timm库轻松调用此预训练模型,提高图像处理效率。
nest_base_jx.goog_in1k - NesT模型:高精度图像分类的嵌套层次Transformer架构
模型Github神经网络开源项目Huggingface图像分类ImageNetNesT深度学习
NesT (Nested Hierarchical Transformer) 是一种创新的图像分类模型,在ImageNet-1k数据集上训练。该模型拥有6770万参数,支持图像分类、特征提取和图像嵌入等多种应用。NesT模型在JAX中原始训练,后被移植到PyTorch,展现出优秀的准确性、数据效率和可解释性,为计算机视觉领域提供了新的研究方向。
convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_320 - ConvNeXt大型图像分类模型 LAION-2B预训练 ImageNet微调
模型开源项目Huggingface图像分类LAION-2BImageNetConvNeXtGithubtimm
ConvNeXt大型图像分类模型采用CLIP方法在LAION-2B数据集上预训练,并在ImageNet-12k和ImageNet-1k上微调。模型包含2亿参数,320x320输入下top-1准确率达87.968%。支持图像分类、特征提取和嵌入等任务,可应用于多种计算机视觉场景。
poolformer_m36.sail_in1k - MetaFormer架构的PoolFormer图像分类与特征提取模型
模型ImageNet-1kPoolFormer开源项目Huggingface图像分类MetaFormerGithubtimm
poolformer_m36.sail_in1k是一个基于MetaFormer架构的PoolFormer图像分类模型,在ImageNet-1k数据集上训练。该模型拥有5620万参数,支持图像分类、特征图提取和图像嵌入等功能。它能高效处理224x224大小的图像,在保持性能的同时降低计算复杂度。研究人员和开发者可通过timm库轻松使用这一预训练模型,应用于多种计算机视觉任务。
vit_tiny_patch16_224.augreg_in21k_ft_in1k - 基于ViT架构的轻量级图像分类与特征提取模型
ImageNet模型图像分类GithubtimmVision Transformer特征提取开源项目Huggingface
vit_tiny_patch16_224.augreg_in21k_ft_in1k是一个轻量级Vision Transformer模型,专为图像分类和特征提取而设计。该模型在ImageNet-21k上预训练,并在ImageNet-1k上微调,采用了增强的数据增强和正则化技术。它拥有570万参数,能处理224x224尺寸的图像,在保持高效性能的同时提供准确的视觉分析能力。
vit_small_patch14_dinov2.lvd142m - 基于Vision Transformer的自监督图像特征提取模型
模型图像分类GithubtimmDINOv2Vision Transformer特征提取开源项目Huggingface
这是一个基于Vision Transformer架构的图像特征提取模型。该模型采用DINOv2自监督学习方法,在LVD-142M数据集上预训练,拥有2210万参数,支持处理518x518尺寸的图像。模型可应用于图像分类和特征提取任务,并提供了相关的使用示例代码。作为一个无监督学习的视觉模型,它能够提取稳健的图像特征表示。
hrnet_w18.ms_aug_in1k - HRNet W18图像分类模型 基于ImageNet-1k训练
模型图像分类GithubtimmImageNet-1kHRNet特征提取开源项目Huggingface
hrnet_w18.ms_aug_in1k是HRNet团队开发的图像分类模型,在ImageNet-1k数据集上训练。该模型拥有2130万参数,4.3 GMACs计算复杂度,可用于图像分类、特征图提取和图像嵌入。模型提供高分辨率视觉表征,适用于多种计算机视觉任务。通过timm库可方便地加载和使用这一预训练模型。
convnext_tiny.in12k - ConvNeXt架构图像分类模型 适用于多种视觉任务
模型图像分类ImageNet-12k模型比较GithubtimmConvNeXtHuggingface开源项目
convnext_tiny.in12k是基于ConvNeXt架构的图像分类模型,在ImageNet-12k数据集上训练。该模型支持图像分类、特征图提取和图像嵌入等应用,参数量36.9M,GMACs 4.5,224x224分辨率下Top1精度84.186%。性能与效率均衡,适用于多种计算机视觉任务。
selecsls42b.in1k - SelecSLS图像分类模型实现实时多人3D动作捕捉
模型ImageNet-1k开源项目HuggingfaceSelecSLS图像分类特征提取Githubtimm
selecsls42b.in1k是基于ImageNet-1k数据集训练的SelecSLS图像分类模型,拥有3200万参数和3.0 GMACs计算量。该模型支持224x224图像输入,可用于图像分类、特征提取和嵌入生成。其独特之处在于能利用单个RGB相机实现实时多人3D动作捕捉,在效率和性能方面表现优异。模型源自XNect项目,代码已在GitHub开源。
eva_large_patch14_196.in22k_ft_in22k_in1k - EVA大型图像分类模型适用于多种计算机视觉应用
模型神经网络开源项目Huggingface图像分类ImageNetGithub深度学习EVA
eva_large_patch14_196.in22k_ft_in22k_in1k是基于EVA架构的图像分类模型。该模型在ImageNet-22k数据集上预训练和微调,最后在ImageNet-1k上微调,达到88.592%的Top-1准确率。模型包含3.04亿参数,支持处理196x196像素的图像,可用于图像分类和特征提取等计算机视觉任务。其性能和versatility使其成为视觉项目的有力工具。
MambaVision-S-1K - MambaVision融合Mamba与Transformer的计算机视觉新型架构
模型Github开源项目Huggingface图像分类特征提取深度学习模型计算机视觉MambaVision
MambaVision-S-1K是一种新型计算机视觉模型,首次融合了Mamba和Transformer的设计理念。研究者通过改进Mamba结构增强了其视觉特征建模能力,并验证了与Vision Transformer的有效集成。在ImageNet-1K基准测试中,该模型在准确率和效率方面取得了平衡。MambaVision可用于图像分类和特征提取任务,提供了简洁的调用接口。这一创新架构为计算机视觉领域带来了新的研究思路和应用前景。
resnest101e.in1k - ResNeSt101e 基于ResNet架构的高性能分离注意力图像分类模型
模型神经网络开源项目Huggingface图像分类ImageNetResNeStGithub深度学习
ResNeSt101e.in1k是一个基于ResNet架构的分离注意力网络图像分类模型,在ImageNet-1k数据集上训练。该模型拥有4830万参数,13.4 GMACs计算复杂度,支持图像分类、特征提取和图像嵌入等功能。ResNeSt101e在保持较低计算复杂度的同时提供优秀性能,适用于多种计算机视觉应用场景。
eca_botnext26ts_256.c1_in1k - 基于ResNeXt架构的BotNet高效图像分类模型
特征提取BotNet图像分类Huggingface模型timmGithub开源项目ImageNet-1k
这是一个基于ResNeXt架构的BotNet图像分类模型,采用高效通道注意力机制。该模型在ImageNet-1k数据集上训练,使用SGD优化器和自适应梯度裁剪技术。模型包含1060万参数,支持256x256像素图像处理。除图像分类外,还可用于特征图提取和图像嵌入,适用于多种计算机视觉任务。
dm_nfnet_f0.dm_in1k - NFNet:无归一化层的高效图像分类模型
模型ImageNet-1kNFNet开源项目Huggingface图像分类特征提取Githubtimm
dm_nfnet_f0.dm_in1k是一款基于NFNet(无归一化网络)架构的图像分类模型。该模型在ImageNet-1k数据集上训练,拥有7150万参数,计算量为7.2 GMACs。通过采用Scaled Weight Standardization技术和策略性放置的标量增益,该模型无需使用归一化层即可实现高性能。dm_nfnet_f0.dm_in1k适用于图像分类、特征提取和图像嵌入等多种任务,为大规模图像识别应用提供了高效解决方案。
vit_base_r50_s16_384.orig_in21k_ft_in1k - ResNet-Vision Transformer混合模型用于高精度图像分类
模型开源项目ResNetHuggingface图像分类Vision TransformerImageNetGithubtimm
本模型结合ResNet与Vision Transformer优势,在大规模ImageNet-21k数据集上预训练,并在ImageNet-1k上微调,实现高效准确的图像分类。具备9900万参数,支持384x384像素输入,可用于分类任务和特征提取。研究人员可通过timm库轻松应用此模型,进行推理或深入研究。
nfnet_l0.ra2_in1k - 轻量级NFNet模型:无需规范化层的高效图像识别
模型ImageNet-1kNFNet开源项目Huggingface图像分类特征提取Githubtimm
nfnet_l0.ra2_in1k是一种创新的轻量级NFNet图像分类模型,摒弃了传统的规范化层。它通过Scaled Weight Standardization和策略性放置的标量增益,实现了高效的大规模图像识别。基于ImageNet-1k数据集训练,该模型拥有3510万参数,适用于图像分类、特征提取和嵌入任务。这种无需常规规范化层的设计,为高性能图像处理提供了新的可能。
pit_b_224.in1k - 基于池化的视觉Transformer图像分类模型PiT
模型图像分类特征提取GithubtimmImageNet-1kPiT开源项目Huggingface
pit_b_224.in1k是一个基于池化的视觉Transformer(PiT)图像分类模型,在ImageNet-1k数据集上训练。该模型拥有7380万个参数,计算量为12.4 GMACs,支持224x224像素的输入图像。它可用于图像分类、特征图提取和图像嵌入等任务,在保持高精度的同时提高了计算效率。研究人员和开发者可通过timm库轻松加载并使用这个预训练模型。
dpn107.mx_in1k - Dual-Path Networks图像分类模型:ImageNet-1k数据集的高性能解决方案
特征提取Huggingface图像分类DPN模型timmGithub开源项目ImageNet-1k
dpn107.mx_in1k是一款基于Dual-Path Networks架构的图像分类模型,针对ImageNet-1k数据集优化。该模型拥有8690万参数和18.4 GMACs计算量,支持224x224像素的图像输入。最初由论文作者在MXNet框架上训练,后经Ross Wightman移植至PyTorch。除图像分类外,还可用于特征图提取和图像嵌入,为各种计算机视觉应用提供有力支持。
deep-learning-for-image-processing - 涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练的介绍深度学习在图像处理中的应用的教程
深度学习图像处理PytorchTensorflow图像分类Github开源项目
本教程介绍深度学习在图像处理中的应用,涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练。课程内容包括图像分类、目标检测、语义分割、实例分割和关键点检测,适合研究生和深度学习爱好者。所有PPT和源码均可下载,助力学习和研究。