#图像分类

efficientnet-b0 - EfficientNet的复合系数法在资源有限设备上提升图像分类效果
EfficientNet卷积神经网络模型缩放ImageNet模型Github开源项目图像分类Huggingface
EfficientNet是一种训练于ImageNet-1k数据集、分辨率为224x224的卷积模型。该模型提出了复合系数方法,以均衡缩放模型的深度、宽度和分辨率。在移动设备上表现卓越,适用于图像分类。同时,用户可在Hugging Face平台上获取特定任务的微调版本。
pnasnet5large.tf_in1k - PNASNet大规模图像分类与特征提取模型
模型PNasNetImageNet-1k开源项目Huggingface图像分类特征提取Github深度学习
pnasnet5large.tf_in1k是基于Progressive Neural Architecture Search技术开发的图像分类模型,在ImageNet-1k数据集上训练而成。该模型拥有8610万参数,计算量为25.0 GMACs,支持331x331像素的图像输入。它不仅可用于图像分类,还能进行特征图提取和图像嵌入。研究人员和开发者可通过timm库轻松调用此预训练模型,提高图像处理效率。
nest_base_jx.goog_in1k - NesT模型:高精度图像分类的嵌套层次Transformer架构
模型Github神经网络开源项目Huggingface图像分类ImageNetNesT深度学习
NesT (Nested Hierarchical Transformer) 是一种创新的图像分类模型,在ImageNet-1k数据集上训练。该模型拥有6770万参数,支持图像分类、特征提取和图像嵌入等多种应用。NesT模型在JAX中原始训练,后被移植到PyTorch,展现出优秀的准确性、数据效率和可解释性,为计算机视觉领域提供了新的研究方向。
convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_320 - ConvNeXt大型图像分类模型 LAION-2B预训练 ImageNet微调
模型开源项目Huggingface图像分类LAION-2BImageNetConvNeXtGithubtimm
ConvNeXt大型图像分类模型采用CLIP方法在LAION-2B数据集上预训练,并在ImageNet-12k和ImageNet-1k上微调。模型包含2亿参数,320x320输入下top-1准确率达87.968%。支持图像分类、特征提取和嵌入等任务,可应用于多种计算机视觉场景。
poolformer_m36.sail_in1k - MetaFormer架构的PoolFormer图像分类与特征提取模型
模型ImageNet-1kPoolFormer开源项目Huggingface图像分类MetaFormerGithubtimm
poolformer_m36.sail_in1k是一个基于MetaFormer架构的PoolFormer图像分类模型,在ImageNet-1k数据集上训练。该模型拥有5620万参数,支持图像分类、特征图提取和图像嵌入等功能。它能高效处理224x224大小的图像,在保持性能的同时降低计算复杂度。研究人员和开发者可通过timm库轻松使用这一预训练模型,应用于多种计算机视觉任务。
vit_tiny_patch16_224.augreg_in21k_ft_in1k - 基于ViT架构的轻量级图像分类与特征提取模型
ImageNet模型图像分类GithubtimmVision Transformer特征提取开源项目Huggingface
vit_tiny_patch16_224.augreg_in21k_ft_in1k是一个轻量级Vision Transformer模型,专为图像分类和特征提取而设计。该模型在ImageNet-21k上预训练,并在ImageNet-1k上微调,采用了增强的数据增强和正则化技术。它拥有570万参数,能处理224x224尺寸的图像,在保持高效性能的同时提供准确的视觉分析能力。
vit_small_patch14_dinov2.lvd142m - 基于Vision Transformer的自监督图像特征提取模型
模型图像分类GithubtimmDINOv2Vision Transformer特征提取开源项目Huggingface
这是一个基于Vision Transformer架构的图像特征提取模型。该模型采用DINOv2自监督学习方法,在LVD-142M数据集上预训练,拥有2210万参数,支持处理518x518尺寸的图像。模型可应用于图像分类和特征提取任务,并提供了相关的使用示例代码。作为一个无监督学习的视觉模型,它能够提取稳健的图像特征表示。
hrnet_w18.ms_aug_in1k - HRNet W18图像分类模型 基于ImageNet-1k训练
模型图像分类GithubtimmImageNet-1kHRNet特征提取开源项目Huggingface
hrnet_w18.ms_aug_in1k是HRNet团队开发的图像分类模型,在ImageNet-1k数据集上训练。该模型拥有2130万参数,4.3 GMACs计算复杂度,可用于图像分类、特征图提取和图像嵌入。模型提供高分辨率视觉表征,适用于多种计算机视觉任务。通过timm库可方便地加载和使用这一预训练模型。
convnext_tiny.in12k - ConvNeXt架构图像分类模型 适用于多种视觉任务
模型图像分类ImageNet-12k模型比较GithubtimmConvNeXtHuggingface开源项目
convnext_tiny.in12k是基于ConvNeXt架构的图像分类模型,在ImageNet-12k数据集上训练。该模型支持图像分类、特征图提取和图像嵌入等应用,参数量36.9M,GMACs 4.5,224x224分辨率下Top1精度84.186%。性能与效率均衡,适用于多种计算机视觉任务。
selecsls42b.in1k - SelecSLS图像分类模型实现实时多人3D动作捕捉
模型ImageNet-1k开源项目HuggingfaceSelecSLS图像分类特征提取Githubtimm
selecsls42b.in1k是基于ImageNet-1k数据集训练的SelecSLS图像分类模型,拥有3200万参数和3.0 GMACs计算量。该模型支持224x224图像输入,可用于图像分类、特征提取和嵌入生成。其独特之处在于能利用单个RGB相机实现实时多人3D动作捕捉,在效率和性能方面表现优异。模型源自XNect项目,代码已在GitHub开源。
MambaVision-S-1K - MambaVision融合Mamba与Transformer的计算机视觉新型架构
模型Github开源项目Huggingface图像分类特征提取深度学习模型计算机视觉MambaVision
MambaVision-S-1K是一种新型计算机视觉模型,首次融合了Mamba和Transformer的设计理念。研究者通过改进Mamba结构增强了其视觉特征建模能力,并验证了与Vision Transformer的有效集成。在ImageNet-1K基准测试中,该模型在准确率和效率方面取得了平衡。MambaVision可用于图像分类和特征提取任务,提供了简洁的调用接口。这一创新架构为计算机视觉领域带来了新的研究思路和应用前景。
resnest101e.in1k - ResNeSt101e 基于ResNet架构的高性能分离注意力图像分类模型
模型神经网络开源项目Huggingface图像分类ImageNetResNeStGithub深度学习
ResNeSt101e.in1k是一个基于ResNet架构的分离注意力网络图像分类模型,在ImageNet-1k数据集上训练。该模型拥有4830万参数,13.4 GMACs计算复杂度,支持图像分类、特征提取和图像嵌入等功能。ResNeSt101e在保持较低计算复杂度的同时提供优秀性能,适用于多种计算机视觉应用场景。
eca_botnext26ts_256.c1_in1k - 基于ResNeXt架构的BotNet高效图像分类模型
特征提取BotNet图像分类Huggingface模型timmGithub开源项目ImageNet-1k
这是一个基于ResNeXt架构的BotNet图像分类模型,采用高效通道注意力机制。该模型在ImageNet-1k数据集上训练,使用SGD优化器和自适应梯度裁剪技术。模型包含1060万参数,支持256x256像素图像处理。除图像分类外,还可用于特征图提取和图像嵌入,适用于多种计算机视觉任务。
vit_base_r50_s16_384.orig_in21k_ft_in1k - ResNet-Vision Transformer混合模型用于高精度图像分类
模型开源项目ResNetHuggingface图像分类Vision TransformerImageNetGithubtimm
本模型结合ResNet与Vision Transformer优势,在大规模ImageNet-21k数据集上预训练,并在ImageNet-1k上微调,实现高效准确的图像分类。具备9900万参数,支持384x384像素输入,可用于分类任务和特征提取。研究人员可通过timm库轻松应用此模型,进行推理或深入研究。
nfnet_l0.ra2_in1k - 轻量级NFNet模型:无需规范化层的高效图像识别
模型ImageNet-1kNFNet开源项目Huggingface图像分类特征提取Githubtimm
nfnet_l0.ra2_in1k是一种创新的轻量级NFNet图像分类模型,摒弃了传统的规范化层。它通过Scaled Weight Standardization和策略性放置的标量增益,实现了高效的大规模图像识别。基于ImageNet-1k数据集训练,该模型拥有3510万参数,适用于图像分类、特征提取和嵌入任务。这种无需常规规范化层的设计,为高性能图像处理提供了新的可能。
lcnet_050.ra2_in1k - LCNet轻量级神经网络模型实现高效图像分类和特征提取
LCNet特征提取Huggingface图像分类模型timmGithub开源项目ImageNet-1k
lcnet_050.ra2_in1k是基于LCNet架构的轻量级图像分类模型,在ImageNet-1k数据集上训练。模型采用RandAugment增强和RMSProp优化,参数量仅1.9M,支持224x224输入。可用于图像分类、特征提取和嵌入生成,适合CPU运行,为计算资源有限的场景提供高效解决方案。
resnext101_32x16d.fb_swsl_ig1b_ft_in1k - Instagram预训练的ResNeXt模型用于图像分类和特征提取
Huggingface图像分类模型深度学习ResNeXttimmGithub预训练模型开源项目
该模型基于ResNeXt-B架构,在Instagram-1B数据集上进行半监督预训练,并在ImageNet-1k上微调。模型拥有1.94亿参数,接受224x224像素输入图像,适用于图像分类、特征图提取和图像嵌入任务。它采用ReLU激活函数、单层7x7卷积和池化,以及1x1卷积的shortcut连接。在ImageNet验证集上,模型达到83.35%的Top-1准确率,展现出优秀的性能。
res2net101_26w_4s.in1k - Res2Net101多尺度骨干网络实现高效图像分类和特征提取
特征提取Huggingface图像分类模型Res2NettimmGithub开源项目ImageNet-1k
res2net101_26w_4s.in1k是基于Res2Net架构的图像分类模型,通过ImageNet-1k数据集训练而成。该模型采用多尺度设计,在图像分类和特征提取方面表现优异。它拥有4520万个参数,适用于224x224尺寸的图像处理。除图像分类外,还支持特征图提取和图像嵌入功能。研究人员和开发者可通过timm库便捷地将此模型应用于多种计算机视觉任务。
tf_efficientnetv2_s.in21k - EfficientNetV2图像分类模型 支持多种计算机视觉应用
模型图像分类ImageNet-21kGithubtimmEfficientNet-v2特征提取开源项目Huggingface
tf_efficientnetv2_s.in21k是一个基于EfficientNet-v2架构的图像分类模型,在ImageNet-21k数据集上训练。该模型由TensorFlow原始训练,后移植至PyTorch,拥有4820万参数。模型支持图像分类、特征提取和图像嵌入等功能,适用于多种计算机视觉应用场景。通过timm库,开发者可以便捷地加载此预训练模型,实现图像分类、特征图提取或生成图像嵌入等任务。
siglip-large-patch16-256 - SigLIP模型采用优化损失函数实现图像文本多模态任务
模型多模态模型图像分类计算机视觉GithubSigLIPHuggingface开源项目自然语言处理
SigLIP是CLIP模型的改进版本,使用sigmoid损失函数进行语言-图像预训练。该模型在WebLI数据集上以256x256分辨率预训练,适用于零样本图像分类和图像-文本检索任务。通过优化损失函数,SigLIP实现了更高性能和更大批量规模。模型支持原始使用和pipeline API调用,在多项评估中展现出优于CLIP的表现。SigLIP为图像-文本多模态任务提供了新的解决方案。
twins_pcpvt_base.in1k - Twins-PCPVT基础模型在ImageNet-1k上的图像分类应用
Huggingface图像分类模型timmImageNetTwins-PCPVTGithub深度学习模型开源项目
twins_pcpvt_base.in1k是基于Twins-PCPVT架构的图像分类模型,在ImageNet-1k数据集上训练。该模型拥有4380万参数,采用创新的空间注意力机制,适用于图像分类和特征提取任务。模型可通过timm库加载,支持直接推理或进一步微调。其在224x224图像输入下的计算量为6.7 GMACs,激活量为2520万。
resnet-152-text-detector - 基于ResNet-152的高效图像文本检测深度学习模型
文本检测计算机视觉图像分类Huggingface深度学习模型Github开源项目ResNet-152
ResNet-152 Text Detector是一个基于ResNet-152架构的深度学习模型,用于快速判断图像是否包含可读文本。该模型在COCO-Text和LLaVAR数据集上训练,使用约14万张图像,其中50%含文本,50%不含文本。模型采用300x300输入分辨率,使用AdamW优化器,学习率为5e-5,训练3个epochs。通过简单的Python代码,开发者可以轻松集成此模型,实现二元分类的图像文本检测功能。
mobilenetv2_100.ra_in1k - 轻量级CNN模型实现图像分类与特征提取
特征提取MobileNetV2Huggingface图像分类模型timmGithub开源项目ImageNet-1k
MobileNetV2是为移动和嵌入式视觉应用设计的轻量级卷积神经网络。该模型在ImageNet-1k数据集上训练,采用RandAugment数据增强和EMA权重平均技术。MobileNetV2在低计算复杂度下实现了高效的图像分类和特征提取。通过timm库,开发者可以便捷地加载预训练模型,实现图像分类、特征图提取和图像嵌入等功能。
mixer_b16_224.goog_in21k_ft_in1k - MLP-Mixer架构的ImageNet预训练模型实现图像分类与特征提取
模型神经网络开源项目HuggingfaceMLP-Mixer图像分类ImageNetGithubtimm
mixer_b16_224.goog_in21k_ft_in1k是一个基于MLP-Mixer架构的图像分类模型,在ImageNet-21k预训练后在ImageNet-1k微调。该模型拥有5990万参数,处理224x224图像输入,可用于图像分类和特征提取。项目提供了简洁的代码示例,展示了模型在图像分类和特征提取任务中的应用。这个模型为计算机视觉研究提供了有力工具。
xcit_large_24_p8_224.fb_in1k - XCiT大型模型提供强大的图像分类和特征提取能力
ImageNet模型图像分类Github神经网络深度学习XCiTHuggingface开源项目
xcit_large_24_p8_224.fb_in1k是一个基于XCiT架构的预训练模型,专注于图像分类和特征提取。该模型在ImageNet-1k数据集上训练,拥有1.889亿参数,处理224x224像素的图像。它在图像分类和特征嵌入任务中表现出色,适用于多种计算机视觉应用。借助timm库,研究人员和开发者可以方便地使用此模型进行推理或迁移学习。
tf_mixnet_l.in1k - MixNet架构的轻量级图像分类模型
PyTorch模型开源项目Huggingface图像分类ImageNetGithubtimmMixNet
tf_mixnet_l.in1k是一个基于MixNet架构的图像分类模型,在ImageNet-1k数据集上训练。该模型采用混合深度卷积核,参数量为7.3M,计算量为0.6 GMACs。它支持图像分类、特征图提取和图像嵌入等功能,适用于224x224像素的输入图像。tf_mixnet_l.in1k在保持较小模型规模的同时,为多种计算机视觉任务提供了有效的解决方案。
vit_small_patch16_224.augreg_in21k_ft_in1k - 视觉Transformer模型实现图像分类与特征提取
模型ViT神经网络开源项目Huggingface图像分类ImageNetGithub深度学习
vit_small_patch16_224.augreg_in21k_ft_in1k是一个经过ImageNet-21k预训练和ImageNet-1k微调的Vision Transformer模型。它采用额外数据增强和正则化技术,适用于图像分类和特征提取。该模型拥有2210万参数,支持224x224图像输入,可通过timm库轻松加载使用。模型原始在JAX训练,后由Ross Wightman移植至PyTorch,为计算机视觉任务提供了强大的基础工具。
gmixer_24_224.ra3_in1k - MLP-Mixer变体:采用SwiGLU的图像分类和特征提取模型
模型神经网络ImageNet-1k开源项目Huggingface图像分类机器学习模型Githubtimm
gmixer_24_224.ra3_in1k是一个基于MLP-Mixer架构的图像分类模型,在timm库中由Ross Wightman开发。该模型采用SwiGLU激活函数,在ImageNet-1k数据集上训练,拥有2470万参数,计算复杂度为5.3 GMACs。它支持224x224尺寸的图像输入,可用于图像分类和特征提取。模型提供简洁的API,便于进行图像分类和嵌入提取,适用于多种计算机视觉应用场景。
swinv2_tiny_window8_256.ms_in1k - Swin Transformer V2轻量级图像分类与特征提取模型
模型ImageNet-1k开源项目Huggingface图像分类特征提取Swin Transformer V2Githubtimm
swinv2_tiny_window8_256.ms_in1k是基于Swin Transformer V2架构的轻量级图像分类模型,在ImageNet-1k数据集上预训练。该模型拥有2830万参数,6.0 GMACs计算量,支持256x256像素输入。它可用于图像分类、特征图提取和图像嵌入等任务,提供高效的视觉特征提取能力。研究人员和开发者可通过timm库轻松加载此预训练模型,应用于多种计算机视觉项目。
inception_v3.tf_adv_in1k - Inception-v3对抗训练图像分类模型
模型ImageNet-1k开源项目HuggingfaceInception-v3图像分类特征提取Githubtimm
inception_v3.tf_adv_in1k是一个基于Inception-v3架构的图像分类模型,通过对抗训练提高了抗干扰能力。该模型在ImageNet-1k数据集上训练,参数量为23.8M,适用于299x299像素的图像输入。它可用于图像分类、特征提取和嵌入生成,为计算机视觉任务提供了versatile工具。
swin-tiny-patch4-window7-224 - 层级结构的视觉Transformer模型
模型Github神经网络开源项目Huggingface图像分类机器学习计算机视觉Swin Transformer
Swin Transformer模型通过层级特征图和局部注意力机制实现线性计算复杂度。在ImageNet-1k数据集上以224x224分辨率训练后,可作为图像分类和密集识别任务的骨干网络。采用shifted windows技术平衡效率与性能,适用于图像分类或特定任务微调。
DFN5B-CLIP-ViT-H-14 - 高性能图像-文本对比学习模型
CLIP模型图像分类计算机视觉DFN-5BGithub深度学习Huggingface开源项目
DFN5B-CLIP-ViT-H-14是一个基于CLIP架构的图像-文本对比学习模型,通过DFN技术从430亿图像-文本对中筛选出50亿高质量样本进行训练。模型在39个图像分类基准测试中表现优异,平均准确率达69.8%。支持零样本图像分类和跨模态检索,可与OpenCLIP无缝集成。这一模型为计算机视觉和自然语言处理领域提供了有力支持,适用于多种研究和应用场景。
edgenext_small.usi_in1k - 轻量级CNN-Transformer混合模型EdgeNeXt用于移动视觉应用
ImageNet模型EdgeNeXt图像分类Github神经网络特征提取开源项目Huggingface
edgenext_small.usi_in1k是一款轻量级CNN-Transformer混合模型,针对移动视觉应用优化。该模型在ImageNet-1k数据集上训练,参数量为5.6M,GMACs为1.3。它支持图像分类、特征图提取和图像嵌入等功能,结合CNN和Transformer优势,在保持性能的同时减少计算资源需求,适合在资源受限的移动设备上运行。
sebotnet33ts_256.a1h_in1k - 结合ResNet与自注意力的高性能图像分类模型
模型图像分类GithubtimmImageNet-1k深度学习BotNetHuggingface开源项目
sebotnet33ts_256.a1h_in1k是一个融合ResNet架构和BotNet设计的图像分类模型,整合了Squeeze-and-Excitation通道注意力机制。该模型在ImageNet-1k数据集上训练,通过timm库实现。它采用LAMB优化器、强化的dropout和随机深度技术,以及余弦学习率调度。模型提供灵活的配置选项,包括块/阶段布局和注意力层等,适用于图像分类和特征提取任务。其平衡了性能和训练效率,为计算机视觉领域提供了实用的解决方案。
mit-b5 - SegFormer层次化Transformer编码器预训练模型
模型语义分割图像分类Github预训练模型TransformerSegFormer开源项目Huggingface
SegFormer (b5-sized) encoder是一个在ImageNet-1k上预训练的语义分割模型。它采用层次化Transformer编码器结构,为下游任务微调提供基础。该模型在ADE20K和Cityscapes等语义分割基准测试中表现优异,同时也适用于图像分类等相关任务。用户可通过简洁的Python代码轻松调用此模型进行实验和应用开发。
deep-learning-for-image-processing - 涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练的介绍深度学习在图像处理中的应用的教程
深度学习图像处理PytorchTensorflow图像分类Github开源项目
本教程介绍深度学习在图像处理中的应用,涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练。课程内容包括图像分类、目标检测、语义分割、实例分割和关键点检测,适合研究生和深度学习爱好者。所有PPT和源码均可下载,助力学习和研究。