#ImageNet
vit_tiny_patch16_224.augreg_in21k_ft_in1k - 基于ViT架构的轻量级图像分类与特征提取模型
ImageNet模型图像分类GithubtimmVision Transformer特征提取开源项目Huggingface
vit_tiny_patch16_224.augreg_in21k_ft_in1k是一个轻量级Vision Transformer模型,专为图像分类和特征提取而设计。该模型在ImageNet-21k上预训练,并在ImageNet-1k上微调,采用了增强的数据增强和正则化技术。它拥有570万参数,能处理224x224尺寸的图像,在保持高效性能的同时提供准确的视觉分析能力。
eva_large_patch14_196.in22k_ft_in22k_in1k - EVA大型图像分类模型适用于多种计算机视觉应用
模型神经网络开源项目Huggingface图像分类ImageNetGithub深度学习EVA
eva_large_patch14_196.in22k_ft_in22k_in1k是基于EVA架构的图像分类模型。该模型在ImageNet-22k数据集上预训练和微调,最后在ImageNet-1k上微调,达到88.592%的Top-1准确率。模型包含3.04亿参数,支持处理196x196像素的图像,可用于图像分类和特征提取等计算机视觉任务。其性能和versatility使其成为视觉项目的有力工具。
resnest101e.in1k - ResNeSt101e 基于ResNet架构的高性能分离注意力图像分类模型
模型神经网络开源项目Huggingface图像分类ImageNetResNeStGithub深度学习
ResNeSt101e.in1k是一个基于ResNet架构的分离注意力网络图像分类模型,在ImageNet-1k数据集上训练。该模型拥有4830万参数,13.4 GMACs计算复杂度,支持图像分类、特征提取和图像嵌入等功能。ResNeSt101e在保持较低计算复杂度的同时提供优秀性能,适用于多种计算机视觉应用场景。
vit_base_r50_s16_384.orig_in21k_ft_in1k - ResNet-Vision Transformer混合模型用于高精度图像分类
模型开源项目ResNetHuggingface图像分类Vision TransformerImageNetGithubtimm
本模型结合ResNet与Vision Transformer优势,在大规模ImageNet-21k数据集上预训练,并在ImageNet-1k上微调,实现高效准确的图像分类。具备9900万参数,支持384x384像素输入,可用于分类任务和特征提取。研究人员可通过timm库轻松应用此模型,进行推理或深入研究。
twins_pcpvt_base.in1k - Twins-PCPVT基础模型在ImageNet-1k上的图像分类应用
Huggingface图像分类模型timmImageNetTwins-PCPVTGithub深度学习模型开源项目
twins_pcpvt_base.in1k是基于Twins-PCPVT架构的图像分类模型,在ImageNet-1k数据集上训练。该模型拥有4380万参数,采用创新的空间注意力机制,适用于图像分类和特征提取任务。模型可通过timm库加载,支持直接推理或进一步微调。其在224x224图像输入下的计算量为6.7 GMACs,激活量为2520万。
mixer_b16_224.goog_in21k_ft_in1k - MLP-Mixer架构的ImageNet预训练模型实现图像分类与特征提取
模型神经网络开源项目HuggingfaceMLP-Mixer图像分类ImageNetGithubtimm
mixer_b16_224.goog_in21k_ft_in1k是一个基于MLP-Mixer架构的图像分类模型,在ImageNet-21k预训练后在ImageNet-1k微调。该模型拥有5990万参数,处理224x224图像输入,可用于图像分类和特征提取。项目提供了简洁的代码示例,展示了模型在图像分类和特征提取任务中的应用。这个模型为计算机视觉研究提供了有力工具。
xcit_large_24_p8_224.fb_in1k - XCiT大型模型提供强大的图像分类和特征提取能力
ImageNet模型图像分类Github神经网络深度学习XCiTHuggingface开源项目
xcit_large_24_p8_224.fb_in1k是一个基于XCiT架构的预训练模型,专注于图像分类和特征提取。该模型在ImageNet-1k数据集上训练,拥有1.889亿参数,处理224x224像素的图像。它在图像分类和特征嵌入任务中表现出色,适用于多种计算机视觉应用。借助timm库,研究人员和开发者可以方便地使用此模型进行推理或迁移学习。
tf_mixnet_l.in1k - MixNet架构的轻量级图像分类模型
PyTorch模型开源项目Huggingface图像分类ImageNetGithubtimmMixNet
tf_mixnet_l.in1k是一个基于MixNet架构的图像分类模型,在ImageNet-1k数据集上训练。该模型采用混合深度卷积核,参数量为7.3M,计算量为0.6 GMACs。它支持图像分类、特征图提取和图像嵌入等功能,适用于224x224像素的输入图像。tf_mixnet_l.in1k在保持较小模型规模的同时,为多种计算机视觉任务提供了有效的解决方案。
vit_small_patch16_224.augreg_in21k_ft_in1k - 视觉Transformer模型实现图像分类与特征提取
模型ViT神经网络开源项目Huggingface图像分类ImageNetGithub深度学习
vit_small_patch16_224.augreg_in21k_ft_in1k是一个经过ImageNet-21k预训练和ImageNet-1k微调的Vision Transformer模型。它采用额外数据增强和正则化技术,适用于图像分类和特征提取。该模型拥有2210万参数,支持224x224图像输入,可通过timm库轻松加载使用。模型原始在JAX训练,后由Ross Wightman移植至PyTorch,为计算机视觉任务提供了强大的基础工具。
edgenext_small.usi_in1k - 轻量级CNN-Transformer混合模型EdgeNeXt用于移动视觉应用
ImageNet模型EdgeNeXt图像分类Github神经网络特征提取开源项目Huggingface
edgenext_small.usi_in1k是一款轻量级CNN-Transformer混合模型,针对移动视觉应用优化。该模型在ImageNet-1k数据集上训练,参数量为5.6M,GMACs为1.3。它支持图像分类、特征图提取和图像嵌入等功能,结合CNN和Transformer优势,在保持性能的同时减少计算资源需求,适合在资源受限的移动设备上运行。
mobilenet_v2_1.0_224 - 轻量级移动设备图像分类神经网络MobileNet V2
ImageNet模型图像分类计算机视觉Github神经网络MobileNet V2Huggingface开源项目
MobileNet V2是一款针对移动设备优化的图像分类神经网络模型,在ImageNet-1k数据集上进行预训练。该模型以低延迟和低功耗著称,适用于资源受限的环境。MobileNet V2支持多种分辨率和深度配置,在模型大小、推理速度和准确性之间实现了良好平衡。除图像分类外,它还可应用于目标检测、特征嵌入和图像分割等计算机视觉任务,为移动端应用提供了versatile的解决方案。
vit_base_patch8_224.augreg2_in21k_ft_in1k - 基于Vision Transformer的ImageNet预训练图像分类模型
ImageNet模型图像分类Githubtimm神经网络Vision TransformerHuggingface开源项目
vit_base_patch8_224.augreg2_in21k_ft_in1k是一个基于Vision Transformer架构的图像分类模型。该模型在ImageNet-21k上预训练,并在ImageNet-1k上微调,采用了增强的数据增强和正则化技术。模型包含8665万个参数,支持224x224像素的输入图像,可用于图像分类和特征提取。通过timm库,用户可以便捷地加载和使用该模型进行推理或继续训练。
dla102.in1k - 深层聚合架构的图像分类模型 支持多种计算机视觉应用
ImageNet模型图像分类Githubtimm深度层聚合特征提取开源项目Huggingface
dla102.in1k是基于深层聚合架构的图像分类模型,在ImageNet-1k数据集上训练。模型拥有3330万参数,支持224x224像素输入。除图像分类外,还可用于特征图提取和图像嵌入。通过timm库可方便地调用此预训练模型,为计算机视觉应用提供灵活基础。模型在图像分类、特征提取等任务中表现出色,适用于多种视觉分析场景。
deit-base-patch16-224 - DeiT高效视觉Transformer 创新图像分类模型
ImageNet模型图像分类DeiTGithub深度学习Vision TransformerHuggingface开源项目
DeiT是一种高效训练的视觉Transformer模型,在ImageNet-1k数据集上预训练和微调。采用创新的数据高效方法,以较少计算资源实现出色图像分类性能。支持224x224分辨率输入,Top-1准确率达81.8%。可直接用于图像分类或作为下游视觉任务的特征提取器。该模型在保持ViT架构优势的同时,显著提高了训练效率和分类精度。
convnext_base.fb_in22k_ft_in1k - ConvNeXt图像分类模型:ImageNet-22k预训练和ImageNet-1k微调
Huggingface图像分类模型ImageNettimmGithubConvNeXt预训练模型开源项目
convnext_base.fb_in22k_ft_in1k是Facebook研究团队开发的ConvNeXt图像分类模型。该模型在ImageNet-22k上预训练,ImageNet-1k上微调,拥有8860万参数。适用于图像分类、特征提取和图像嵌入,在ImageNet-1k验证集上达到85.8%的top-1准确率。模型采用ConvNeXt架构,为计算机视觉任务提供了有力支持。
resmlp_12_224.fb_in1k - ResMLP架构的数据高效图像分类模型
ResMLP神经网络深度学习Huggingface开源项目ImageNet模型图像分类Github
resmlp_12_224.fb_in1k是Facebook Research团队基于ResMLP架构开发的图像分类模型,在ImageNet-1k数据集上训练。该模型采用前馈网络结构,拥有1540万参数,支持224x224像素图像处理。除图像分类外,还可作为特征提取骨干网络使用。通过timm库,研究者可方便地加载预训练模型进行图像分类或特征提取。该模型展现了数据高效训练在视觉任务中的潜力,为计算机视觉领域提供了新的解决方案。
maxvit_nano_rw_256.sw_in1k - 轻量级MaxViT图像分类模型 适合边缘计算
Huggingface图像分类模型ImageNet模型比较Github预训练模型开源项目MaxViT
maxvit_nano_rw_256.sw_in1k是一款轻量级图像分类模型,由Ross Wightman基于MaxViT架构设计并在ImageNet-1k数据集上训练。该模型结合MBConv卷积和自注意力机制,参数量15.45M,GMAC 4.46,在256x256输入下Top-1准确率达82.93%。其高效设计适合在边缘设备上进行快速准确的图像分类。
resnet-18 - 深度残差学习实现图像识别突破
模型Github开源项目ResNetHuggingface图像分类ImageNet计算机视觉深度学习
ResNet-18是一种基于深度残差学习的图像分类模型,在ImageNet-1k数据集上训练。通过引入残差连接,该模型突破了深度网络训练的限制,实现了高达1000层的网络结构。ResNet-18在2015年ILSVRC和COCO竞赛中的胜利,标志着计算机视觉领域的重要进展。这个模型适用于多种图像分类任务,并支持快速部署和微调。研究者和开发者可以通过Hugging Face的transformers库轻松使用ResNet-18进行图像识别研究和应用开发。
cvt-13 - 融合CNN和ViT优势的创新图像分类模型
模型CvT开源项目Huggingface图像分类ImageNet视觉转换器Github深度学习
CvT-13是一款结合卷积神经网络(CNN)和视觉变换器(ViT)优势的图像分类模型。该模型在ImageNet-1k数据集上预训练,可处理224x224分辨率图像。CvT-13融合了CNN的局部特征提取和ViT的全局建模能力,在图像分类任务中表现出色。研究者可通过Hugging Face的transformers库轻松应用此模型于不同的图像分类项目中。
convnext_tiny.in12k_ft_in1k - ConvNeXt微型模型基于ImageNet-12k预训练和ImageNet-1k微调
模型预训练模型开源项目Huggingface图像分类ImageNetConvNeXtGithubtimm
ConvNeXt微型图像分类模型在ImageNet-12k数据集上预训练,并在ImageNet-1k上微调。模型采用最新ConvNeXt架构,参数量28.59M,GMACs 4.47,激活量13.44M。224x224输入时Top-1准确率84.186%,384x384输入时达85.118%。适用于图像分类、特征提取和图像嵌入等计算机视觉任务。
inception_v3.tv_in1k - Inception-v3图像分类与特征提取深度学习模型
特征提取Huggingface图像分类模型timmImageNetGithub开源项目Inception-v3
inception_v3.tv_in1k是基于Inception-v3架构的图像分类模型,通过ImageNet-1k数据集训练。该模型可用于图像分类和特征提取,参数量为23.8M,GMACs为5.7,适用于299x299分辨率图像。通过timm库,研究者可便捷加载预训练模型,执行图像分类、特征图提取和图像嵌入等任务,为计算机视觉研究提供有力工具。
spnasnet_100.rmsp_in1k - 使用Single-Path NAS技术设计的轻量级图像分类模型
SPNasNetImageNet模型图像分类神经网络架构搜索GithubtimmHuggingface开源项目
spnasnet_100.rmsp_in1k是基于Single-Path NAS技术的轻量级图像分类模型,在ImageNet-1k数据集上训练。模型仅有440万参数和0.3 GMACs,适合资源受限场景。支持图像分类、特征图提取和图像嵌入等应用。通过timm库可轻松加载此预训练模型进行推理或微调。模型采用RMSProp优化器和指数衰减学习率调度,在保持高效性的同时确保了分类性能。
convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_320 - ConvNeXt大型图像分类模型 LAION-2B预训练 ImageNet微调
模型开源项目Huggingface图像分类LAION-2BImageNetConvNeXtGithubtimm
ConvNeXt大型图像分类模型采用CLIP方法在LAION-2B数据集上预训练,并在ImageNet-12k和ImageNet-1k上微调。模型包含2亿参数,320x320输入下top-1准确率达87.968%。支持图像分类、特征提取和嵌入等任务,可应用于多种计算机视觉场景。
res2net50_14w_8s.in1k - Res2Net架构的多尺度骨干网络实现高效图像分类
模型开源项目Huggingface图像分类ImageNet深度学习模型GithubtimmRes2Net
res2net50_14w_8s.in1k是基于Res2Net架构的图像分类模型,在ImageNet-1k数据集上训练。该模型采用多尺度ResNet结构,具有2510万参数,计算复杂度为4.2 GMACs。除图像分类外,还可作为特征提取器应用于其他计算机视觉任务。模型接受224x224像素的输入图像,并提供API支持图像分类、特征图提取和图像嵌入等功能。其高效的多尺度结构使其在保持准确性的同时降低了计算成本。
beitv2_base_patch16_224.in1k_ft_in22k - BEiT-v2架构的ImageNet-22k微调图像分类与特征提取模型
模型开源项目Huggingface图像分类ImageNet机器学习模型GithubtimmBEiT-v2
beitv2_base_patch16_224.in1k_ft_in22k是基于BEiT-v2架构的图像分类模型,在ImageNet-1k上进行自监督预训练,并在ImageNet-22k上微调。该模型拥有1.026亿参数,支持224x224像素输入,适用于图像分类和特征提取。通过timm库可轻松加载,为计算机视觉研究和应用提供强大工具。
convnextv2_tiny.fcmae_ft_in22k_in1k - ConvNeXt-V2图像分类模型 FCMAE预训练与ImageNet微调
ConvNeXt-V2模型开源项目Huggingface图像分类特征提取ImageNet卷积神经网络Github
ConvNeXt-V2架构的图像分类模型采用全卷积掩码自编码器(FCMAE)预训练,并在ImageNet-22k和ImageNet-1k数据集上微调。该模型拥有2860万参数,224x224输入尺寸下达到83.894%的top1准确率。适用于图像分类、特征提取和图像嵌入等计算机视觉任务,为高效图像处理提供了强大支持。
tf_efficientnetv2_b0.in1k - 轻量高效的图像分类解决方案
ImageNet模型图像分类GithubtimmEfficientNet-v2特征提取开源项目Huggingface
EfficientNetV2-B0是EfficientNet-v2系列中的轻量级模型,由谷歌研究团队开发并在ImageNet-1k数据集上训练。模型参数仅7.1M,GMACs为0.5,在保持较高准确率的同时大幅降低计算复杂度。除图像分类外,还可用于特征提取和生成图像嵌入。该模型适用于资源受限的环境,如移动设备和边缘计算场景,为开发者提供了高效的图像处理解决方案。
beit_base_patch16_224.in22k_ft_in22k_in1k - BEiT模型:基于ImageNet数据集的高效图像分类与特征提取
ImageNet模型图像分类Githubtimm预训练模型BEiTHuggingface开源项目
beit_base_patch16_224.in22k_ft_in22k_in1k是一个强大的图像分类模型,基于BEiT架构设计。该模型在ImageNet-22k数据集上进行自监督掩码图像建模预训练,并在ImageNet-22k和ImageNet-1k上微调,具有8650万个参数。它支持224x224像素的输入图像,可用于图像分类和特征提取,为计算机视觉任务提供高效解决方案。
vit_large_patch16_224.augreg_in21k_ft_in1k - 预训练ViT大模型实现高性能图像分类与特征提取
ImageNet模型视觉转换器图像分类迁移学习GithubtimmHuggingface开源项目
这是一个基于Vision Transformer (ViT)架构的大型图像处理模型,在ImageNet-21k数据集上预训练,并在ImageNet-1k上微调。模型采用了先进的数据增强和正则化技术,适用于图像分类和特征提取任务。它包含3.04亿参数,处理224x224尺寸的输入图像。通过TIMM库,用户可以方便地使用该模型进行图像分类和特征嵌入提取。由于在大规模数据集上训练,该模型展现出卓越的图像理解能力。
repvgg_a2.rvgg_in1k - RepVGG架构的轻量级图像分类模型支持多种视觉应用
模型预训练模型开源项目Huggingface图像分类ImageNet卷积神经网络RepVGGGithub
repvgg_a2.rvgg_in1k是基于RepVGG架构的图像分类模型,通过ImageNet-1k数据集训练。该模型利用timm库的BYOBNet实现,允许自定义网络结构。模型参数量为28.2M,GMACs为5.7,处理224x224像素的输入图像。除图像分类外,还支持特征图提取和图像嵌入,可应用于多种计算机视觉任务。
tf_efficientnetv2_s.in21k_ft_in1k - EfficientNet-v2图像分类模型 基于双重ImageNet数据集训练
模型EfficientNet-v2开源项目Huggingface图像分类ImageNet特征提取Githubtimm
这是一个基于EfficientNet-v2架构的图像分类模型,采用ImageNet-21k预训练和ImageNet-1k微调策略。模型参数量为2150万,计算量为5.4 GMACs,支持图像分类、特征提取和图像嵌入等多种应用。训练采用300x300分辨率,测试时提升至384x384,在性能和效率之间实现良好平衡。该模型最初由论文作者在Tensorflow中实现,后由Ross Wightman移植至PyTorch框架。
vit_base_patch16_224.mae - 采用MAE预训练的Vision Transformer图像特征模型
模型开源项目Huggingface自监督学习图像分类特征提取Vision TransformerImageNetGithub
vit_base_patch16_224.mae是一个基于Vision Transformer架构的图像特征模型,通过自监督掩码自编码器(MAE)方法在ImageNet-1k数据集上预训练。该模型适用于图像分类和特征提取,拥有8580万参数,处理224x224像素的输入图像。它提供简洁的API,便于获取分类结果和提取图像嵌入。这个模型融合了ViT的出色表征能力和MAE的自监督学习优势,为多种计算机视觉任务提供了有力的预训练基础。
ese_vovnet19b_dw.ra_in1k - VoVNet-v2轻量级图像分类模型 兼顾性能与能效
模型VoVNet开源项目Huggingface图像分类特征提取ImageNetGithubtimm
ese_vovnet19b_dw.ra_in1k是基于VoVNet-v2架构的图像分类模型,在ImageNet-1k数据集上使用RandAugment技术预训练。该模型参数量为6.5M,计算量为1.3 GMACs,适用于多种图像分类任务。除了高效的分类功能,它还可作为特征提取骨干网络,支持特征图提取和图像嵌入。模型在保持高性能的同时,优化了能耗和GPU计算效率,是一个兼顾性能与效率的轻量级选择。
gmlp_s16_224.ra3_in1k - gMLP架构的ImageNet-1k图像分类模型
ImageNet模型图像分类Githubtimm深度学习模型gMLP开源项目Huggingface
gmlp_s16_224.ra3_in1k是一个基于gMLP架构的图像分类模型,在ImageNet-1k数据集上训练。该模型在timm库中实现,参数量为1940万,计算量为4.4 GMACs,适用于224x224像素的图像输入。模型可用于图像分类和特征提取,支持top-5预测和图像嵌入生成。这一模型源自'Pay Attention to MLPs'研究,为计算机视觉领域提供了一种高效的MLP架构方案。
cspdarknet53.ra_in1k - CSP-DarkNet架构的图像分类和特征提取模型
CSPDarkNetHuggingface图像分类模型深度学习ImageNettimmGithub开源项目
cspdarknet53.ra_in1k是基于CSP-DarkNet架构的图像分类模型,在ImageNet-1k数据集上训练。模型采用RandAugment数据增强和RMSProp优化器,拥有27.6M参数。支持256x256输入图像,可用于图像分类、特征图提取和图像嵌入。该模型在timm库中实现,为计算机视觉任务提供便捷解决方案。
swin_tiny_patch4_window7_224.ms_in1k - Swin Transformer: 基于移位窗口的层级视觉模型
ImageNet模型图像分类Swin TransformerGithubtimm特征提取开源项目Huggingface
swin_tiny_patch4_window7_224.ms_in1k是一个基于Swin Transformer架构的图像分类模型,在ImageNet-1k数据集上预训练。该模型包含2830万参数,支持224x224像素输入,可用于图像分类和特征提取。它采用分层视觉Transformer结构和移位窗口技术,提高了效率和性能。研究者可通过timm库便捷地使用此模型进行推理或进一步训练,适用于各种计算机视觉任务。
相关文章
DenseNet: 深度学习中的密集连接卷积网络
2024年08月30日
Stylized-ImageNet: 突破传统CNN对纹理的依赖,引导模型学习更多形状信息
2024年09月04日
使用MTT实现数据集蒸馏:通过匹配训练轨迹生成小规模高质量合成数据集
2024年09月04日
HorNet: 高效高阶空间交互的递归门控卷积网络
2024年09月04日
AMC: 移动设备上模型压缩与加速的自动机器学习解决方案
2024年09月05日
从零开始实现扩散模型:深入理解 DDPM、DDIM 和无分类器引导
2024年09月05日
SRe2L: 大规模数据集蒸馏的新视角
2024年09月05日
TransferAttackEval:重新审视可迁移对抗性图像的研究
2024年09月05日
MoCo: 自监督视觉表示学习的里程碑
2024年09月05日