#图像分类

mobilenet_v2_1.0_224 - 轻量级移动设备图像分类神经网络MobileNet V2
ImageNet模型图像分类计算机视觉Github神经网络MobileNet V2Huggingface开源项目
MobileNet V2是一款针对移动设备优化的图像分类神经网络模型,在ImageNet-1k数据集上进行预训练。该模型以低延迟和低功耗著称,适用于资源受限的环境。MobileNet V2支持多种分辨率和深度配置,在模型大小、推理速度和准确性之间实现了良好平衡。除图像分类外,它还可应用于目标检测、特征嵌入和图像分割等计算机视觉任务,为移动端应用提供了versatile的解决方案。
vit_base_patch8_224.augreg2_in21k_ft_in1k - 基于Vision Transformer的ImageNet预训练图像分类模型
ImageNet模型图像分类Githubtimm神经网络Vision TransformerHuggingface开源项目
vit_base_patch8_224.augreg2_in21k_ft_in1k是一个基于Vision Transformer架构的图像分类模型。该模型在ImageNet-21k上预训练,并在ImageNet-1k上微调,采用了增强的数据增强和正则化技术。模型包含8665万个参数,支持224x224像素的输入图像,可用于图像分类和特征提取。通过timm库,用户可以便捷地加载和使用该模型进行推理或继续训练。
coat_lite_mini.in1k - CoaT图像分类模型:轻量级卷积注意力变换器
Huggingface图像分类模型timmGithub开源项目CoaT神经网络模型ImageNet-1k
coat_lite_mini.in1k是一种轻量级CoaT(Co-Scale Conv-Attentional Transformer)图像分类模型,在ImageNet-1k数据集上训练。该模型仅有1100万参数,适用于224x224像素的图像处理。它可通过timm库轻松加载,用于图像分类和特征提取。创新的卷积注意力机制使其在保持低计算复杂度的同时,实现高效的图像特征提取。这个模型展示了如何在轻量级设计中融合卷积和注意力机制的优势。
resnet101.a1h_in1k - ResNet-B架构图像分类模型 支持多样化特征提取
Huggingface图像分类模型深度学习timmGithub预训练模型开源项目ResNet
resnet101.a1h_in1k是基于ResNet-B架构的图像分类模型,在ImageNet-1k数据集上训练。模型采用ReLU激活函数、7x7卷积和池化层、1x1卷积短路下采样等结构。支持图像分类、特征图提取和图像嵌入功能,参数量44.5M,224x224输入下GMAC为7.8。在ImageNet验证集上Top-1准确率82.8%,Top-5准确率96.32%。
gernet_l.idstcv_in1k - GENet架构的GPU高效图像分类模型
GENetImageNet-1k深度学习模型Huggingface开源项目模型图像分类Githubtimm
gernet_l.idstcv_in1k是基于GENet架构的图像分类模型,通过timm库实现并在ImageNet-1k数据集上训练。该模型利用BYOBNet实现灵活配置,支持随机深度和梯度检查点等特性。拥有3110万参数的gernet_l.idstcv_in1k可用于图像分类、特征提取和嵌入生成。模型提供多种使用示例,适用于图像分类、特征图提取等多种计算机视觉任务。
vit_base_patch16_224.dino - 自监督训练的ViT模型实现高效图像特征提取
DINO模型自监督学习图像分类GithubVision Transformer特征提取开源项目Huggingface
vit_base_patch16_224.dino是一个基于Vision Transformer架构的图像特征提取模型。该模型采用自监督DINO方法在ImageNet-1k数据集上预训练,可用于图像分类和特征提取。模型包含8580万参数,支持224x224像素的输入图像。通过timm库,研究人员可以便捷地将其应用于多种计算机视觉任务,深入探索自监督学习在视觉领域的潜力。
dla102.in1k - 深层聚合架构的图像分类模型 支持多种计算机视觉应用
ImageNet模型图像分类Githubtimm深度层聚合特征提取开源项目Huggingface
dla102.in1k是基于深层聚合架构的图像分类模型,在ImageNet-1k数据集上训练。模型拥有3330万参数,支持224x224像素输入。除图像分类外,还可用于特征图提取和图像嵌入。通过timm库可方便地调用此预训练模型,为计算机视觉应用提供灵活基础。模型在图像分类、特征提取等任务中表现出色,适用于多种视觉分析场景。
deit-base-patch16-224 - DeiT高效视觉Transformer 创新图像分类模型
ImageNet模型图像分类DeiTGithub深度学习Vision TransformerHuggingface开源项目
DeiT是一种高效训练的视觉Transformer模型,在ImageNet-1k数据集上预训练和微调。采用创新的数据高效方法,以较少计算资源实现出色图像分类性能。支持224x224分辨率输入,Top-1准确率达81.8%。可直接用于图像分类或作为下游视觉任务的特征提取器。该模型在保持ViT架构优势的同时,显著提高了训练效率和分类精度。
convnextv2_tiny.fcmae_ft_in1k - ConvNeXt-V2轻量级图像分类和特征提取模型
Huggingface图像分类模型timmGithub预训练模型开源项目ConvNeXt-V2ImageNet-1k
convnextv2_tiny.fcmae_ft_in1k是基于ConvNeXt-V2架构的轻量级图像分类模型。该模型通过全卷积masked自编码器预训练,在ImageNet-1k数据集微调,拥有2860万参数。它可用于图像分类、特征图提取和图像嵌入,在ImageNet验证集上Top-1准确率达82.92%。这是一个在性能和效率间取得平衡的优秀选择。
convnext_base.fb_in22k_ft_in1k - ConvNeXt图像分类模型:ImageNet-22k预训练和ImageNet-1k微调
Huggingface图像分类模型ImageNettimmGithubConvNeXt预训练模型开源项目
convnext_base.fb_in22k_ft_in1k是Facebook研究团队开发的ConvNeXt图像分类模型。该模型在ImageNet-22k上预训练,ImageNet-1k上微调,拥有8860万参数。适用于图像分类、特征提取和图像嵌入,在ImageNet-1k验证集上达到85.8%的top-1准确率。模型采用ConvNeXt架构,为计算机视觉任务提供了有力支持。
fbnetv3_b.ra2_in1k - FBNet-v3轻量级图像分类模型支持多种应用场景
特征提取Huggingface图像分类模型FBNet-v3timmGithub开源项目ImageNet-1k
fbnetv3_b.ra2_in1k是基于FBNet-v3架构的轻量级图像分类模型。该模型在ImageNet-1k数据集上训练,使用RandAugment数据增强和EMA权重平均等技术。模型参数仅8.6M,GMAC为0.4,适合移动设备部署。支持图像分类、特征图提取和图像嵌入等应用,可用于多种计算机视觉任务。
facial_emotions_image_detection - ViT模型驱动的人脸表情识别系统
ViTHuggingface情感分析图像分类深度学习模型Github开源项目人脸情绪识别
这个开源项目基于谷歌的ViT-Base模型,实现了91%准确率的人脸表情识别。系统可识别七种基本情绪:悲伤、厌恶、愤怒、中性、恐惧、惊讶和快乐。项目代码和详细实现过程可在Kaggle上获取,为情感分析和人机交互研究提供了有力支持。
fashion-images-gender-age-vit-large-patch16-224-in21k-v3 - 基于Vision Transformer的时尚图像性别年龄识别模型
计算机视觉图像分类Huggingface模型模型微调时尚图像分析Github开源项目ViT模型
该模型基于Google的ViT-Large-Patch16-224-In21k在时尚图像数据集上微调,专门用于识别时尚图像中的性别和年龄。经过5轮训练后,模型在评估集上实现了99.60%的准确率,验证损失降至0.0223。这一高精度模型可为时尚行业的个性化推荐和营销分析提供数据支持。
resmlp_12_224.fb_in1k - ResMLP架构的数据高效图像分类模型
ResMLP神经网络深度学习Huggingface开源项目ImageNet模型图像分类Github
resmlp_12_224.fb_in1k是Facebook Research团队基于ResMLP架构开发的图像分类模型,在ImageNet-1k数据集上训练。该模型采用前馈网络结构,拥有1540万参数,支持224x224像素图像处理。除图像分类外,还可作为特征提取骨干网络使用。通过timm库,研究者可方便地加载预训练模型进行图像分类或特征提取。该模型展现了数据高效训练在视觉任务中的潜力,为计算机视觉领域提供了新的解决方案。
ViT-SO400M-14-SigLIP - 基于SigLIP的视觉-语言模型实现零样本图像分类
模型图像分类ViTGithubSigLIP开源项目Huggingface机器学习自然语言处理
ViT-SO400M-14-SigLIP是基于WebLI数据集训练的视觉-语言预训练模型,采用sigmoid损失函数进行图像和文本的联合学习。该模型在零样本图像分类任务中表现出色,具有良好的跨模态理解能力。通过OpenCLIP和timm库,用户可以方便地使用该模型生成图像和文本嵌入。ViT-SO400M-14-SigLIP适用于图像分类、图像检索等多种计算机视觉和自然语言处理任务。
tf_mobilenetv3_small_minimal_100.in1k - MobileNetV3小型化模型:高效移动端图像分类
模型图像分类MobileNet-v3GithubtimmImageNet-1k特征提取开源项目Huggingface
tf_mobilenetv3_small_minimal_100.in1k是一款针对移动设备优化的轻量级图像分类模型。基于MobileNet-v3架构,该模型在ImageNet-1k数据集上训练,仅有200万参数和0.1 GMACs,适用于224x224像素的图像输入。除图像分类外,它还可作为特征提取器用于其他计算机视觉任务。通过timm库,开发者可以方便地加载预训练模型,实现图像分类、特征图提取和图像嵌入等功能。这个模型平衡了性能和效率,特别适合资源受限的移动应用场景。
vit-xray-pneumonia-classification - 基于ViT的胸部X光肺炎分类模型
模型图像分类肺炎检测GithubViT模型胸部X光分类开源项目Huggingface机器学习
该项目利用ViT模型对胸部X光图像进行肺炎分类,在验证集上准确率达97.42%。模型能快速区分正常和肺炎X光片,并提供简易推理代码。这一工具有助于提升肺炎诊断的效率和准确性,为医疗行业带来实际价值。
convnext-xlarge-384-22k-1k - 融合现代设计的高性能图像分类卷积神经网络
计算机视觉神经网络图像分类深度学习Huggingface模型ConvNeXTGithub开源项目
ConvNeXT是一种创新的纯卷积神经网络模型,结合了ResNet的现代化设计和Swin Transformer的先进理念。该模型在ImageNet-22k数据集上进行了大规模预训练,并在ImageNet-1k上以384x384分辨率精细调优,展现出卓越的图像分类性能。ConvNeXT不仅适用于各类计算机视觉任务,还凸显了传统卷积网络在当代人工智能领域的持续价值和潜力。
maxvit_nano_rw_256.sw_in1k - 轻量级MaxViT图像分类模型 适合边缘计算
Huggingface图像分类模型ImageNet模型比较Github预训练模型开源项目MaxViT
maxvit_nano_rw_256.sw_in1k是一款轻量级图像分类模型,由Ross Wightman基于MaxViT架构设计并在ImageNet-1k数据集上训练。该模型结合MBConv卷积和自注意力机制,参数量15.45M,GMAC 4.46,在256x256输入下Top-1准确率达82.93%。其高效设计适合在边缘设备上进行快速准确的图像分类。
resnet-50-finetuned-cats_vs_dogs - ResNet-50微调模型实现高精度猫狗图像分类
模型模型微调开源项目Huggingface图像分类ResNet-50深度学习Github猫狗识别
项目利用微软的ResNet-50架构,通过在cats_vs_dogs数据集上进行微调,开发出一个高效的猫狗图像分类模型。训练过程中使用Adam优化器和线性学习率调度器,仅需3个训练周期即达到优异性能:评估集准确率98.93%,验证损失0.0889。这一成果展示了预训练模型在特定图像分类任务中的适应性和高效性。
tf_efficientnet_b0.ns_jft_in1k - EfficientNet变体用于图像分类与特征提取
模型神经网络开源项目Huggingface迁移学习图像分类EfficientNet特征提取Github
tf_efficientnet_b0.ns_jft_in1k模型基于EfficientNet架构,通过Noisy Student半监督学习在ImageNet-1k和JFT-300m数据集上训练。拥有520万参数,0.4 GMAC,支持224x224图像输入。这一轻量级模型适用于图像分类、特征提取和嵌入生成,为计算机视觉应用提供高效且多功能的解决方案。
resnet-18 - 深度残差学习实现图像识别突破
模型Github开源项目ResNetHuggingface图像分类ImageNet计算机视觉深度学习
ResNet-18是一种基于深度残差学习的图像分类模型,在ImageNet-1k数据集上训练。通过引入残差连接,该模型突破了深度网络训练的限制,实现了高达1000层的网络结构。ResNet-18在2015年ILSVRC和COCO竞赛中的胜利,标志着计算机视觉领域的重要进展。这个模型适用于多种图像分类任务,并支持快速部署和微调。研究者和开发者可以通过Hugging Face的transformers库轻松使用ResNet-18进行图像识别研究和应用开发。
cvt-13 - 融合CNN和ViT优势的创新图像分类模型
模型CvT开源项目Huggingface图像分类ImageNet视觉转换器Github深度学习
CvT-13是一款结合卷积神经网络(CNN)和视觉变换器(ViT)优势的图像分类模型。该模型在ImageNet-1k数据集上预训练,可处理224x224分辨率图像。CvT-13融合了CNN的局部特征提取和ViT的全局建模能力,在图像分类任务中表现出色。研究者可通过Hugging Face的transformers库轻松应用此模型于不同的图像分类项目中。
convnext_tiny.in12k_ft_in1k - ConvNeXt微型模型基于ImageNet-12k预训练和ImageNet-1k微调
模型预训练模型开源项目Huggingface图像分类ImageNetConvNeXtGithubtimm
ConvNeXt微型图像分类模型在ImageNet-12k数据集上预训练,并在ImageNet-1k上微调。模型采用最新ConvNeXt架构,参数量28.59M,GMACs 4.47,激活量13.44M。224x224输入时Top-1准确率84.186%,384x384输入时达85.118%。适用于图像分类、特征提取和图像嵌入等计算机视觉任务。
food - 基于Vision Transformer的101种美食图像分类模型
ViTHuggingface图像分类模型迁移学习深度学习Github开源项目食物识别
该模型是基于google/vit-base-patch16-224-in21k预训练模型在food101数据集上微调的图像分类模型。采用Vision Transformer架构,经5轮训练后在评估集上达到89.13%的准确率。模型能识别101种不同类型的美食,可应用于餐饮行业的图像自动分类和识别。训练过程使用Adam优化器和线性学习率调度器,batch size为128。
inception_v3.tv_in1k - Inception-v3图像分类与特征提取深度学习模型
特征提取Huggingface图像分类模型timmImageNetGithub开源项目Inception-v3
inception_v3.tv_in1k是基于Inception-v3架构的图像分类模型,通过ImageNet-1k数据集训练。该模型可用于图像分类和特征提取,参数量为23.8M,GMACs为5.7,适用于299x299分辨率图像。通过timm库,研究者可便捷加载预训练模型,执行图像分类、特征图提取和图像嵌入等任务,为计算机视觉研究提供有力工具。
visformer_small.in1k - 视觉友好型Transformer图像分类模型
模型图像分类GithubtimmImageNet-1k深度学习模型VisformerHuggingface开源项目
visformer_small.in1k是基于Visformer架构的图像分类模型,在ImageNet-1k数据集上训练。该模型采用视觉友好的Transformer设计,平衡了高效性和分类性能。它具有4020万参数,处理224x224尺寸图像,可用于分类任务和特征提取。研究者可通过timm库轻松使用此预训练模型进行图像分析和嵌入生成。
rexnet_100.nav_in1k - 轻量级ReXNet图像分类模型 为资源受限场景提供高效解决方案
模型图像分类ReXNet模型比较GithubImageNet-1k特征提取开源项目Huggingface
rexnet_100.nav_in1k是一款基于ReXNet架构的轻量级图像分类模型,在ImageNet-1k数据集上进行了预训练。该模型仅有4.8M参数和0.4 GMACs,适合在计算资源有限的环境中部署。它支持图像分类、特征图提取和图像嵌入等功能,为开发者提供多样化的应用选择。在ImageNet-1k验证集上,该模型展现出77.832%的Top-1准确率和93.886%的Top-5准确率,在轻量级模型中表现优异。
spnasnet_100.rmsp_in1k - 使用Single-Path NAS技术设计的轻量级图像分类模型
SPNasNetImageNet模型图像分类神经网络架构搜索GithubtimmHuggingface开源项目
spnasnet_100.rmsp_in1k是基于Single-Path NAS技术的轻量级图像分类模型,在ImageNet-1k数据集上训练。模型仅有440万参数和0.3 GMACs,适合资源受限场景。支持图像分类、特征图提取和图像嵌入等应用。通过timm库可轻松加载此预训练模型进行推理或微调。模型采用RMSProp优化器和指数衰减学习率调度,在保持高效性的同时确保了分类性能。
clip-vit-base-patch16 - CLIP-ViT:基于Transformers的零样本图像分类模型
模型开源项目文本嵌入Huggingface图像分类Transformers.js视觉嵌入GithubONNX
clip-vit-base-patch16是OpenAI CLIP模型的一个变种,专注于零样本图像分类任务。这个模型使用ONNX格式的权重,可与Transformers.js库无缝集成,方便在Web环境中应用。它不仅提供了易用的pipeline API用于图像分类,还支持独立的文本和图像嵌入计算功能。该模型在处理各种图像分析和跨模态任务时,能够在性能和计算效率之间保持良好平衡。
levit_128.fb_dist_in1k - LeViT-128 轻量级卷积视觉Transformer实现快速图像分类
LeViT开源项目模型比较Huggingface图像分类Github模型预训练模型ImageNet-1k
levit_128.fb_dist_in1k是基于LeViT架构的轻量级图像分类模型,采用卷积模式实现。该模型在ImageNet-1k数据集上经过预训练和蒸馏,拥有920万参数,处理224x224尺寸图像。在0.4 GMACs计算量下实现78.474%的Top-1准确率,体现了高效能与低复杂度的平衡。模型可用于图像分类和特征提取,适合需要快速推理的视觉任务。
cait_m36_384.fb_dist_in1k - CaiT图像分类模型:ImageNet-1k预训练的类注意力转换器
图像转换器GithubCaiT模型ImageNet-1k开源项目Huggingface图像分类模型预训练
cait_m36_384.fb_dist_in1k是一个基于类注意力图像转换器(CaiT)的图像分类模型,由Facebook研究团队开发。该模型在ImageNet-1k数据集上进行预训练和蒸馏,包含2.712亿个参数,支持384x384像素的输入图像。通过timm库,它可以轻松应用于图像分类和特征提取等计算机视觉任务。
vit_small_patch16_224.dino - DINO训练的小型Vision Transformer图像特征模型
模型开源项目Huggingface自监督学习图像分类特征提取Vision TransformerGithubtimm
vit_small_patch16_224.dino是一个采用DINO自监督方法训练的小型Vision Transformer模型。该模型拥有2170万参数,支持224x224像素图像输入,可用于图像分类和特征提取。通过timm库可快速部署,在ImageNet-1k数据集预训练后,为多种计算机视觉任务提供高质量的特征表示。
siglip-base-patch16-256 - 改进CLIP的多模态预训练模型SigLIP
多模态模型SigLIP计算机视觉图像分类Huggingface模型Github开源项目自然语言处理
SigLIP是一个基于CLIP改进的多模态预训练模型。它使用Sigmoid损失函数,在WebLI数据集上以256x256分辨率训练。相比CLIP,SigLIP在小批量和大规模批处理中都表现更好,适用于零样本图像分类和图像-文本检索任务。模型在多个基准测试中超越了CLIP,为图像-文本预训练领域带来了新进展。
res2net50_14w_8s.in1k - Res2Net架构的多尺度骨干网络实现高效图像分类
模型开源项目Huggingface图像分类ImageNet深度学习模型GithubtimmRes2Net
res2net50_14w_8s.in1k是基于Res2Net架构的图像分类模型,在ImageNet-1k数据集上训练。该模型采用多尺度ResNet结构,具有2510万参数,计算复杂度为4.2 GMACs。除图像分类外,还可作为特征提取器应用于其他计算机视觉任务。模型接受224x224像素的输入图像,并提供API支持图像分类、特征图提取和图像嵌入等功能。其高效的多尺度结构使其在保持准确性的同时降低了计算成本。
deep-learning-for-image-processing - 涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练的介绍深度学习在图像处理中的应用的教程
深度学习图像处理PytorchTensorflow图像分类Github开源项目
本教程介绍深度学习在图像处理中的应用,涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练。课程内容包括图像分类、目标检测、语义分割、实例分割和关键点检测,适合研究生和深度学习爱好者。所有PPT和源码均可下载,助力学习和研究。