#图像分类

beitv2_base_patch16_224.in1k_ft_in22k - BEiT-v2架构的ImageNet-22k微调图像分类与特征提取模型
模型开源项目Huggingface图像分类ImageNet机器学习模型GithubtimmBEiT-v2
beitv2_base_patch16_224.in1k_ft_in22k是基于BEiT-v2架构的图像分类模型,在ImageNet-1k上进行自监督预训练,并在ImageNet-22k上微调。该模型拥有1.026亿参数,支持224x224像素输入,适用于图像分类和特征提取。通过timm库可轻松加载,为计算机视觉研究和应用提供强大工具。
resnet152.a1h_in1k - ResNet152图像分类模型 基于ResNet Strikes Back改进架构
模型神经网络开源项目ResNetHuggingface图像分类深度学习Githubtimm
resnet152.a1h_in1k是基于ResNet Strikes Back改进的ResNet152模型。该模型采用ReLU激活函数、单层7x7卷积加池化、1x1卷积shortcut下采样等特性,在ImageNet-1k数据集上训练。模型参数量60.2M,GMACs 11.6,激活大小22.6M。288x288图像输入下Top-1准确率83.46%,Top-5准确率96.54%。可用于图像分类和特征提取。
convnextv2_tiny.fcmae_ft_in22k_in1k - ConvNeXt-V2图像分类模型 FCMAE预训练与ImageNet微调
ConvNeXt-V2模型开源项目Huggingface图像分类特征提取ImageNet卷积神经网络Github
ConvNeXt-V2架构的图像分类模型采用全卷积掩码自编码器(FCMAE)预训练,并在ImageNet-22k和ImageNet-1k数据集上微调。该模型拥有2860万参数,224x224输入尺寸下达到83.894%的top1准确率。适用于图像分类、特征提取和图像嵌入等计算机视觉任务,为高效图像处理提供了强大支持。
vgg19_bn.tv_in1k - VGG19架构的ImageNet预训练图像分类模型
模型VGGImageNet-1k开源项目Huggingface图像分类特征提取Githubtimm
vgg19_bn.tv_in1k是一个在ImageNet-1k数据集上预训练的VGG19模型,拥有1.437亿参数。该模型适用于图像分类、特征提取和嵌入生成等多种计算机视觉任务。通过timm库,用户可以方便地加载和使用这个模型,实现高精度的图像识别功能。模型在保持较高计算效率的同时,还提供了多种使用方式,如图像分类、特征图提取和图像嵌入等。
mnasnet_100.rmsp_in1k - MNasNet轻量级移动端图像分类模型
模型MNasNetImageNet-1k开源项目Huggingface图像分类神经网络架构Githubtimm
mnasnet_100.rmsp_in1k是基于MNasNet架构的轻量级图像分类模型,针对移动设备优化设计。该模型在ImageNet-1k数据集上训练,通过timm库实现。它采用RMSProp优化器和指数衰减学习率,参数量为4.4M,GMACs为0.3,适用于224x224像素图像。模型支持图像分类、特征提取和嵌入等功能,为移动端AI应用提供高效解决方案。
tf_efficientnetv2_b0.in1k - 轻量高效的图像分类解决方案
ImageNet模型图像分类GithubtimmEfficientNet-v2特征提取开源项目Huggingface
EfficientNetV2-B0是EfficientNet-v2系列中的轻量级模型,由谷歌研究团队开发并在ImageNet-1k数据集上训练。模型参数仅7.1M,GMACs为0.5,在保持较高准确率的同时大幅降低计算复杂度。除图像分类外,还可用于特征提取和生成图像嵌入。该模型适用于资源受限的环境,如移动设备和边缘计算场景,为开发者提供了高效的图像处理解决方案。
beit_base_patch16_224.in22k_ft_in22k_in1k - BEiT模型:基于ImageNet数据集的高效图像分类与特征提取
ImageNet模型图像分类Githubtimm预训练模型BEiTHuggingface开源项目
beit_base_patch16_224.in22k_ft_in22k_in1k是一个强大的图像分类模型,基于BEiT架构设计。该模型在ImageNet-22k数据集上进行自监督掩码图像建模预训练,并在ImageNet-22k和ImageNet-1k上微调,具有8650万个参数。它支持224x224像素的输入图像,可用于图像分类和特征提取,为计算机视觉任务提供高效解决方案。
ghostnet_100.in1k - GhostNet轻量级图像分类模型实现高效特征提取
模型图像分类HuggingfaceGithub神经网络深度学习特征提取开源项目GhostNet
ghostnet_100.in1k是基于GhostNet架构的轻量级图像分类模型,在ImageNet-1k数据集上训练。该模型通过创新的特征生成方法,实现了高效的特征提取。模型参数量为5.2M,GMACs仅0.1,适用于224x224像素的图像输入。除图像分类外,还可作为特征提取器应用于其他计算机视觉任务。用户可通过timm库轻松加载和使用该模型。
vit_large_patch16_224.augreg_in21k_ft_in1k - 预训练ViT大模型实现高性能图像分类与特征提取
ImageNet模型视觉转换器图像分类迁移学习GithubtimmHuggingface开源项目
这是一个基于Vision Transformer (ViT)架构的大型图像处理模型,在ImageNet-21k数据集上预训练,并在ImageNet-1k上微调。模型采用了先进的数据增强和正则化技术,适用于图像分类和特征提取任务。它包含3.04亿参数,处理224x224尺寸的输入图像。通过TIMM库,用户可以方便地使用该模型进行图像分类和特征嵌入提取。由于在大规模数据集上训练,该模型展现出卓越的图像理解能力。
deit_base_patch16_224.fb_in1k - 基于Transformer架构的DeiT图像分类模型
模型神经网络ImageNet-1k开源项目Huggingface图像分类Github深度学习DeiT
deit_base_patch16_224.fb_in1k是一款基于Transformer架构的图像分类模型,在ImageNet-1k数据集上训练。该模型拥有8660万参数,支持224x224像素图像处理,可用于图像分类和嵌入向量生成。通过数据高效训练方法和注意力蒸馏技术,该模型在减少大规模数据依赖的同时保持了高性能。研究人员和开发者可以利用timm库轻松应用此模型进行推理或特征提取。
repvgg_a2.rvgg_in1k - RepVGG架构的轻量级图像分类模型支持多种视觉应用
模型预训练模型开源项目Huggingface图像分类ImageNet卷积神经网络RepVGGGithub
repvgg_a2.rvgg_in1k是基于RepVGG架构的图像分类模型,通过ImageNet-1k数据集训练。该模型利用timm库的BYOBNet实现,允许自定义网络结构。模型参数量为28.2M,GMACs为5.7,处理224x224像素的输入图像。除图像分类外,还支持特征图提取和图像嵌入,可应用于多种计算机视觉任务。
tf_efficientnetv2_s.in21k_ft_in1k - EfficientNet-v2图像分类模型 基于双重ImageNet数据集训练
模型EfficientNet-v2开源项目Huggingface图像分类ImageNet特征提取Githubtimm
这是一个基于EfficientNet-v2架构的图像分类模型,采用ImageNet-21k预训练和ImageNet-1k微调策略。模型参数量为2150万,计算量为5.4 GMACs,支持图像分类、特征提取和图像嵌入等多种应用。训练采用300x300分辨率,测试时提升至384x384,在性能和效率之间实现良好平衡。该模型最初由论文作者在Tensorflow中实现,后由Ross Wightman移植至PyTorch框架。
vit_base_patch16_224.mae - 采用MAE预训练的Vision Transformer图像特征模型
模型开源项目Huggingface自监督学习图像分类特征提取Vision TransformerImageNetGithub
vit_base_patch16_224.mae是一个基于Vision Transformer架构的图像特征模型,通过自监督掩码自编码器(MAE)方法在ImageNet-1k数据集上预训练。该模型适用于图像分类和特征提取,拥有8580万参数,处理224x224像素的输入图像。它提供简洁的API,便于获取分类结果和提取图像嵌入。这个模型融合了ViT的出色表征能力和MAE的自监督学习优势,为多种计算机视觉任务提供了有力的预训练基础。
ese_vovnet19b_dw.ra_in1k - VoVNet-v2轻量级图像分类模型 兼顾性能与能效
模型VoVNet开源项目Huggingface图像分类特征提取ImageNetGithubtimm
ese_vovnet19b_dw.ra_in1k是基于VoVNet-v2架构的图像分类模型,在ImageNet-1k数据集上使用RandAugment技术预训练。该模型参数量为6.5M,计算量为1.3 GMACs,适用于多种图像分类任务。除了高效的分类功能,它还可作为特征提取骨干网络,支持特征图提取和图像嵌入。模型在保持高性能的同时,优化了能耗和GPU计算效率,是一个兼顾性能与效率的轻量级选择。
efficientnet_b1.ra4_e3600_r240_in1k - EfficientNet B1轻量级图像分类模型
模型图像分类pytorch-image-modelsGithubImageNet-1k预训练模型EfficientNetHuggingface开源项目
efficientnet_b1.ra4_e3600_r240_in1k是基于EfficientNet架构的轻量级图像分类模型。该模型在ImageNet-1k数据集上训练,参数量为7.79M,在240x240输入尺寸下达到81.440%的Top-1准确率。它在模型大小和性能之间取得平衡,适用于计算资源有限的应用场景,也可作为特征提取器用于其他计算机视觉任务。
TinyCLIP-ViT-8M-16-Text-3M-YFCC15M - 高效压缩CLIP模型的跨模态蒸馏方法
CLIP跨模态蒸馏模型图像分类Github开源项目TinyCLIP视觉语言预训练Huggingface
TinyCLIP是一种创新的跨模态蒸馏方法,专门用于压缩大规模语言-图像预训练模型。该方法通过亲和力模仿和权重继承两项核心技术,有效利用大规模模型和预训练数据的优势。TinyCLIP在保持comparable零样本性能的同时,显著减少了模型参数,实现了速度和精度的最佳平衡。这一技术为高效部署CLIP模型提供了实用解决方案,在计算资源受限的场景下尤其有价值。
gmlp_s16_224.ra3_in1k - gMLP架构的ImageNet-1k图像分类模型
ImageNet模型图像分类Githubtimm深度学习模型gMLP开源项目Huggingface
gmlp_s16_224.ra3_in1k是一个基于gMLP架构的图像分类模型,在ImageNet-1k数据集上训练。该模型在timm库中实现,参数量为1940万,计算量为4.4 GMACs,适用于224x224像素的图像输入。模型可用于图像分类和特征提取,支持top-5预测和图像嵌入生成。这一模型源自'Pay Attention to MLPs'研究,为计算机视觉领域提供了一种高效的MLP架构方案。
CLIP-ViT-H-14-frozen-xlm-roberta-large-laion5B-s13B-b90k - CLIP架构多语言视觉语言模型实现高效零样本图像分类与检索
LAION-5B零样本学习图像分类Huggingface模型Github开源项目CLIP多语言模型
这是一个基于CLIP架构的多语言视觉语言模型,在LAION-5B数据集上训练。模型结合了冻结的ViT-H/14视觉结构和XLM-RoBERTa大型文本模型,在多语言零样本图像分类和检索任务中表现优异。适用于零样本图像分类、图文检索等应用,也支持下游任务微调。该模型在英语及其他语言中均展现出强大性能,为跨语言视觉AI应用提供了有力支持。
vit-base-cats-vs-dogs - 基于Vision Transformer的猫狗图像分类模型
Huggingface图像分类模型迁移学习猫狗数据集Github开源项目ViT模型Hugging Face
该模型是基于google/vit-base-patch16-224-in21k在cats_vs_dogs数据集上微调的图像分类模型。采用Vision Transformer架构,在评估集上实现98.83%的准确率。模型可用于宠物识别、动物摄影分类等猫狗图像分类任务。开发者可以方便地将其集成到各种应用中,实现高效的猫狗识别功能。
eca_halonext26ts.c1_in1k - 基于ResNeXt架构的HaloNet图像分类模型
模型图像分类GithubtimmImageNet-1kHaloNet特征提取开源项目Huggingface
eca_halonext26ts.c1_in1k是一种基于ResNeXt架构的HaloNet图像分类模型,采用高效通道注意力机制。该模型在timm库中使用ImageNet-1k数据集训练,参数量为10.8M,GMACs为2.4,适用于256x256图像。它结合了ResNet Strikes Back的训练方法和局部自注意力机制,可用于图像分类、特征图提取和图像嵌入等任务。通过灵活的BYOB架构,该模型在保持计算效率的同时提供了良好的性能和可定制性。
inception_resnet_v2.tf_in1k - Inception-ResNet-v2架构的图像分类与特征提取模型
inception_resnet_v2模型图像分类GithubtimmImageNet-1k特征提取开源项目Huggingface
inception_resnet_v2.tf_in1k是基于Inception-ResNet-v2架构的图像分类模型,在ImageNet-1k数据集上训练。模型拥有5580万参数,13.2 GMACs计算量,适用于299x299像素的输入图像。除图像分类外,该模型还支持特征图提取和图像嵌入功能。它在保持较低计算复杂度的同时提供高精度图像识别能力,适用于多种计算机视觉任务。
res2next50.in1k - 基于Res2Net架构的高效多尺度图像分类模型
特征提取Huggingface图像分类模型深度学习timmGithub开源项目ResNet
res2next50.in1k是基于Res2Net架构的图像分类模型,在ImageNet-1k数据集上训练。该模型采用多尺度ResNet结构,参数量为2470万,计算复杂度为4.2 GMACs。它不仅可用于图像分类,还支持特征图提取和图像嵌入等任务。res2next50.in1k在性能和灵活性方面表现出色,适用于广泛的计算机视觉应用。研究人员可通过timm库便捷地使用和评估此模型。
mobilevit_xs.cvnets_in1k - MobileViT 轻量级通用移动友好的视觉Transformer
特征提取Huggingface图像分类MobileViT模型timmGithub开源项目ImageNet-1k
MobileViT是一种轻量级视觉Transformer模型,专为移动设备设计。mobilevit_xs.cvnets_in1k版本在ImageNet-1k数据集上训练,仅有2.3M参数和1.1 GMACs计算量。该模型适用于图像分类、特征提取和嵌入生成等任务,平衡了性能和资源消耗。它融合了MobileNet的轻量化结构和Vision Transformer的强大特性,为资源受限环境提供了高效解决方案。
cspdarknet53.ra_in1k - CSP-DarkNet架构的图像分类和特征提取模型
CSPDarkNetHuggingface图像分类模型深度学习ImageNettimmGithub开源项目
cspdarknet53.ra_in1k是基于CSP-DarkNet架构的图像分类模型,在ImageNet-1k数据集上训练。模型采用RandAugment数据增强和RMSProp优化器,拥有27.6M参数。支持256x256输入图像,可用于图像分类、特征图提取和图像嵌入。该模型在timm库中实现,为计算机视觉任务提供便捷解决方案。
DFN2B-CLIP-ViT-L-14 - 基于CLIP架构的大规模数据集训练图像识别模型
计算机视觉图像分类Huggingface模型机器学习Github开源项目CLIP数据过滤网络
DFN2B-CLIP-ViT-L-14是一个基于CLIP架构的图像识别模型,采用数据过滤网络从128亿图像-文本对中筛选20亿高质量样本进行训练。该模型在多个基准测试中平均准确率达66.86%,可用于零样本图像分类等任务。模型提供OpenCLIP接口,便于开发者使用。DFN2B-CLIP-ViT-L-14体现了大规模数据集和先进算法在计算机视觉领域的应用,为图像理解提供有力支持。
swin_tiny_patch4_window7_224.ms_in1k - Swin Transformer: 基于移位窗口的层级视觉模型
ImageNet模型图像分类Swin TransformerGithubtimm特征提取开源项目Huggingface
swin_tiny_patch4_window7_224.ms_in1k是一个基于Swin Transformer架构的图像分类模型,在ImageNet-1k数据集上预训练。该模型包含2830万参数,支持224x224像素输入,可用于图像分类和特征提取。它采用分层视觉Transformer结构和移位窗口技术,提高了效率和性能。研究者可通过timm库便捷地使用此模型进行推理或进一步训练,适用于各种计算机视觉任务。
convnextv2_base.fcmae_ft_in22k_in1k - 多功能图像分类与特征提取模型
ImageNet模型图像分类Githubtimm预训练模型开源项目HuggingfaceConvNeXt-V2
ConvNeXt-V2是一款先进的图像分类模型,通过全卷积掩码自编码器框架(FCMAE)预训练,并在ImageNet-22k和ImageNet-1k数据集上微调。除图像分类外,该模型还可用于特征图提取和图像嵌入。拥有8870万参数,ConvNeXt-V2在ImageNet-1k验证集上实现86.74%的Top-1准确率。凭借在多项基准测试中的卓越表现,ConvNeXt-V2成为各类计算机视觉任务的优秀选择。
swin_large_patch4_window7_224.ms_in22k_ft_in1k - 分层视觉Transformer模型 基于ImageNet-22k预训练和ImageNet-1k微调
特征提取Huggingface图像分类模型timmImageNetGithub开源项目Swin Transformer
swin_large_patch4_window7_224.ms_in22k_ft_in1k是基于Swin Transformer架构的图像分类模型。该模型在ImageNet-22k上预训练,ImageNet-1k上微调,拥有1.965亿参数,34.5 GMACs计算量。它支持224x224输入图像,适用于图像分类、特征提取和图像嵌入。模型采用分层结构和移位窗口机制,平衡了计算效率和性能。
CLIP-ViT-L-14-laion2B-s32B-b82K - CLIP-ViT-L-14模型实现高效零样本图像分类和检索
CLIP模型图像分类零样本学习Github视觉语言模型Huggingface开源项目LAION-2B
CLIP-ViT-L-14-laion2B-s32B-b82K模型基于LAION-2B英语数据集训练,在ImageNet-1k上实现75.3%的零样本top-1准确率。它支持零样本图像分类和图文检索等任务,是研究零样本图像分类的重要工具。该模型在JUWELS Booster超级计算机上完成训练,为计算机视觉研究提供了新的可能性。
inception_v3.gluon_in1k - Inception-v3架构的图像分类与特征提取模型
模型开源项目HuggingfaceInception-v3图像分类ImageNet特征提取Githubtimm
该模型基于Inception-v3架构,在ImageNet-1k数据集上训练,拥有2380万参数,支持299x299图像输入。除图像分类外,还可用于特征图提取和图像嵌入。通过timm库,研究者和开发者可轻松应用此预训练模型于各类计算机视觉任务。模型由MxNet GLUON团队开发,为图像处理领域提供了强大工具。
tinynet_a.in1k - 轻量级图像分类模型 TinyNet 实现高效特征提取
ImageNet模型图像分类TinyNetGithub神经网络深度学习Huggingface开源项目
tinynet_a.in1k是基于ImageNet-1k数据集训练的轻量级图像分类模型。它仅有6.2M参数和0.3 GMACs,适用于192x192像素的图像处理。该模型可用于图像分类、特征图提取和图像嵌入,在资源受限环境中表现出色。通过timm库,开发者可以方便地使用预训练模型进行各种计算机视觉任务。tinynet_a.in1k在保持高效性能的同时,为图像处理应用提供了一个轻量化解决方案。
mobilenetv3_small_075.lamb_in1k - 移动网络V3小型模型的图像分类与优化方法
特征提取开源项目模型timmGithubHuggingfaceMobileNet-v3ImageNet-1k图像分类
该项目采用MobileNet-v3模型进行图像分类,在ImageNet-1k数据集上通过LAMB优化器和RMSProp优化器进行微调。利用指数衰减学习率调度和EMA权重平均,提高性能表现。模型在特征提取和图像嵌入方面表现出色,适合开发轻量级视觉识别应用。
volo_d1_224.sail_in1k - VOLO D1 224模型 基于ImageNet-1k训练的视觉识别工具
VOLO模型开源项目Huggingface图像分类ImageNetGithub深度学习timm
VOLO D1 224是一款基于Vision Outlooker架构的图像分类模型,在ImageNet-1k数据集上训练。该模型参数量为26.6M,GMACs为6.9,适用于224x224像素的图像输入。作为timm库的一部分,VOLO D1 224不仅支持图像分类,还可作为特征提取的骨干网络,为计算机视觉任务提供了灵活的解决方案。其简单的使用方法和多功能性使其成为视觉识别领域的实用工具。
convnextv2-base-22k-384 - 基于ImageNet-22K数据集的ConvNeXt V2全卷积模型
Github模型ImageNet开源项目图像分类视觉Huggingface自动编码器ConvNeXt V2
ConvNeXt V2模型通过FCMAE框架和新引入的GRN层提高卷积网络在图像分类中的效果,基于ImageNet-22K数据集训练,支持高分辨率和出色性能表现,适用于多种识别任务,可用于直接应用或微调以满足特定需求。
deit-small-patch16-224 - 数据高效的图像Transformer模型,用于精炼图像分类
图像分类DeiTImageNet-1kHuggingfaceGithub开源项目模型预训练Vision Transformer
Data-efficient Image Transformer(DeiT)小型模型在ImageNet-1k上经过预训练和微调。该模型通过高效的预训练方法和识别精确的标签蒸馏技术实现了性能与效率的平衡。DeiT-small在ImageNet中实现79.9%的top-1准确率,支持PyTorch平台,适合图像分类任务,并可以通过ViTModel或ViTForImageClassification进行应用。
eva02_base_patch14_224.mim_in22k - EVA02模型利用遮掩图像建模增强特征提取
图像分类Huggingfacetimm视觉TransformerGithub开源项目模型EVA-02ImageNet-22k
EVA02模型在ImageNet-22k数据集上通过遮掩图像建模预训练,结合EVA-CLIP作为教师,具有平均池化、SwiGLU等特性,支持图像分类和特征嵌入,参数量为85.8M,适用于224x224图像输入,在复杂视觉任务中表现出色。