#ImageNet

convnextv2_base.fcmae_ft_in22k_in1k - 多功能图像分类与特征提取模型
ImageNet模型图像分类Githubtimm预训练模型开源项目HuggingfaceConvNeXt-V2
ConvNeXt-V2是一款先进的图像分类模型,通过全卷积掩码自编码器框架(FCMAE)预训练,并在ImageNet-22k和ImageNet-1k数据集上微调。除图像分类外,该模型还可用于特征图提取和图像嵌入。拥有8870万参数,ConvNeXt-V2在ImageNet-1k验证集上实现86.74%的Top-1准确率。凭借在多项基准测试中的卓越表现,ConvNeXt-V2成为各类计算机视觉任务的优秀选择。
swin_large_patch4_window7_224.ms_in22k_ft_in1k - 分层视觉Transformer模型 基于ImageNet-22k预训练和ImageNet-1k微调
特征提取Huggingface图像分类模型timmImageNetGithub开源项目Swin Transformer
swin_large_patch4_window7_224.ms_in22k_ft_in1k是基于Swin Transformer架构的图像分类模型。该模型在ImageNet-22k上预训练,ImageNet-1k上微调,拥有1.965亿参数,34.5 GMACs计算量。它支持224x224输入图像,适用于图像分类、特征提取和图像嵌入。模型采用分层结构和移位窗口机制,平衡了计算效率和性能。
mit-b4 - 使用SegFormer预训练模型提升语义分割效率
Hugging FaceImageNetTransformer开源项目模型Huggingface语义分割GithubSegFormer
此项目提供SegFormer的b4-sized预训练模型,具有分层Transformer和轻量级MLP解码头,在ADE20K和Cityscapes等基准上展现出色性能。经过ImageNet-1k预训练的SegFormer可用于下游任务微调,满足多种应用需求。用户可在[模型库](https://huggingface.co/models?other=segformer)中根据任务需求选择合适版本,优化图像分割效果。
inception_v3.gluon_in1k - Inception-v3架构的图像分类与特征提取模型
模型开源项目HuggingfaceInception-v3图像分类ImageNet特征提取Githubtimm
该模型基于Inception-v3架构,在ImageNet-1k数据集上训练,拥有2380万参数,支持299x299图像输入。除图像分类外,还可用于特征图提取和图像嵌入。通过timm库,研究者和开发者可轻松应用此预训练模型于各类计算机视觉任务。模型由MxNet GLUON团队开发,为图像处理领域提供了强大工具。
tinynet_a.in1k - 轻量级图像分类模型 TinyNet 实现高效特征提取
ImageNet模型图像分类TinyNetGithub神经网络深度学习Huggingface开源项目
tinynet_a.in1k是基于ImageNet-1k数据集训练的轻量级图像分类模型。它仅有6.2M参数和0.3 GMACs,适用于192x192像素的图像处理。该模型可用于图像分类、特征图提取和图像嵌入,在资源受限环境中表现出色。通过timm库,开发者可以方便地使用预训练模型进行各种计算机视觉任务。tinynet_a.in1k在保持高效性能的同时,为图像处理应用提供了一个轻量化解决方案。
volo_d1_224.sail_in1k - VOLO D1 224模型 基于ImageNet-1k训练的视觉识别工具
VOLO模型开源项目Huggingface图像分类ImageNetGithub深度学习timm
VOLO D1 224是一款基于Vision Outlooker架构的图像分类模型,在ImageNet-1k数据集上训练。该模型参数量为26.6M,GMACs为6.9,适用于224x224像素的图像输入。作为timm库的一部分,VOLO D1 224不仅支持图像分类,还可作为特征提取的骨干网络,为计算机视觉任务提供了灵活的解决方案。其简单的使用方法和多功能性使其成为视觉识别领域的实用工具。
convnextv2-base-22k-384 - 基于ImageNet-22K数据集的ConvNeXt V2全卷积模型
Github模型ImageNet开源项目图像分类视觉Huggingface自动编码器ConvNeXt V2
ConvNeXt V2模型通过FCMAE框架和新引入的GRN层提高卷积网络在图像分类中的效果,基于ImageNet-22K数据集训练,支持高分辨率和出色性能表现,适用于多种识别任务,可用于直接应用或微调以满足特定需求。
resnetrs152.tf_in1k - ResNetRS-B模型提供的图像信息处理新选择
ResNetRS-B开源项目图像分类timmTensorflowHuggingfaceGithub模型ImageNet
ResNetRS-B是一款图像分类模型,具备ReLU激活、单层7x7卷积池化和1x1卷积下采样功能。该模型由论文作者在ImageNet-1k上使用Tensorflow训练,拥有86.6M的参数量,支持320x320图像测试。其多功能性使其适用于图像分类、特征提取和图像嵌入任务,通过timm库可便捷地在Python中实现应用。
convnextv2_tiny.fcmae_ft_in22k_in1k_384 - ConvNeXt-V2:精准高效的图像分类模型
ImageNetConvNeXt V2图像分类开源项目模型Huggingface卷积网络自动编码器Github
ConvNeXt-V2 模型具备高效的图像分类能力,通过全卷积掩码自编码器架构进行预训练,并在 ImageNet-22k 和 ImageNet-1k 数据集上进行精调。该模型具备 28.6M 参数量、13.1 GMACs 计算量,支持 384x384 的图像尺寸。通过 timm 库使用,支持图像分类、特征图提取和图像嵌入等多种视觉任务。
efficientnet_b4.ra2_in1k - EfficientNet B4图像分类模型 ImageNet-1k数据集训练
模型开源项目Huggingface图像分类EfficientNetImageNet深度学习Githubtimm
efficientnet_b4.ra2_in1k是基于EfficientNet架构的图像分类模型,在ImageNet-1k数据集上训练。该模型采用RandAugment RA2增强方法,使用RMSProp优化器,具有1930万参数和3.1 GMACs计算量。支持320x320训练图像和384x384测试图像,可用于图像分类、特征提取和嵌入等任务,为计算机视觉领域提供高效解决方案。
vit_base_patch16_clip_384.laion2b_ft_in12k_in1k - LAION-2B预训练的Vision Transformer图像分类模型
LAION-2BGithub图像分类HuggingfaceVision TransformerImageNet深度学习开源项目模型
该模型基于Vision Transformer架构,在LAION-2B数据集上预训练,随后在ImageNet-12k和ImageNet-1k上微调。模型接受384x384像素的输入图像,包含8690万个参数。除图像分类外,还可用于生成图像特征嵌入。通过timm框架实现,提供灵活配置和简便使用,适用于多种计算机视觉任务。
swin-base-patch4-window7-224 - 微软开源分层视觉Transformer图像分类模型
开源项目深度学习模型视觉模型ImageNetSwin Transformer图像分类GithubHuggingface
Swin Transformer是Microsoft开发的图像分类模型,通过层级特征图构建和局部窗口注意力机制实现线性计算复杂度。模型在ImageNet-1k数据集上完成224x224分辨率训练,可作为通用主干网络支持图像分类和密集识别任务。其创新的窗口划分策略使模型在处理大尺寸图像时具有更高的效率。
convnext_base.fb_in22k_ft_in1k_384 - 高效的ConvNeXt图像分类解决方案
图像分类Huggingface特征提取开源项目模型GithubImageNetConvNeXt模型对比
ConvNeXt图像分类模型经过ImageNet-22k的预训练和ImageNet-1k的微调,以384x384分辨率高效执行分类任务。拥有88.6M参数和45.2 GMACs,支持图像分类、特征提取和图像嵌入等功能。适用于多种机器学习任务,其高分辨率处理能力使其在深度学习领域具有良好表现。
tf_efficientnet_b7.ns_jft_in1k - EfficientNet B7图像分类模型 基于Noisy Student半监督学习
Huggingface开源项目模型卡模型EfficientNetImageNet图像分类Githubtimm
模型采用EfficientNet B7架构,结合Noisy Student半监督学习,在ImageNet-1k和JFT-300m数据集上训练。参数量66.3M,输入图像尺寸600x600,支持图像分类、特征提取和嵌入向量生成。已从TensorFlow移植至PyTorch,可应用于高精度图像识别任务。
vgg16.tv_in1k - 基于ImageNet-1k训练的VGG16图像分类模型
神经网络开源项目深度学习模型ImageNet图像分类VGGGithubHuggingface
VGG16是一个经典的深度学习图像分类模型,基于ImageNet-1k数据集训练而成。模型包含1.384亿个参数,处理224x224像素输入图像,支持图像分类、特征图提取和图像嵌入等功能。借助timm库可实现模型的快速部署,广泛应用于计算机视觉领域。
convnext_small.fb_in22k_ft_in1k_384 - ConvNeXt模型提升图像分类精度的预训练与微调方案
特征提取ImageNet模型比较模型Github开源项目图像分类ConvNeXtHuggingface
ConvNeXt是一款用于图像分类的模型,于ImageNet-22k数据集预训练,并在ImageNet-1k上微调。该模型拥有50.2百万参数和25.6 GMACs,支持384x384尺寸的图像处理。除了图像分类外,它还支持特征图和图像嵌入提取。凭借其优异的性能和高效的图像处理能力,ConvNeXt被广泛应用于复杂的图像识别任务。通过timm库可实现模型便捷的加载与应用,适用于各种研究与工程需求。
dpn98.mx_in1k - 基于DPN架构的ImageNet图像分类深度学习模型
ImageNet图像分类模型深度学习GithubDPN机器学习开源项目Huggingface
DPN98是一个在ImageNet-1k数据集上训练的图像分类模型,采用双路径网络架构,具有6160万参数规模。该模型支持224x224像素输入,可用于图像分类、特征提取和图像嵌入。模型已从MXNet迁移至PyTorch框架,并提供预训练权重,适合进行计算机视觉研究和应用开发。
vit-large-patch16-224 - 大型视觉Transformer模型在ImageNet数据集上的图像分类实现
Github图像分类HuggingfaceVision Transformer深度学习ImageNet开源项目模型计算机视觉
Vision Transformer大型模型在ImageNet-21k数据集上完成预训练,包含1400万张图像和21,843个分类。模型通过将图像分割为16x16像素块进行处理,支持224x224分辨率输入,并在ImageNet 2012数据集上进行微调。该模型基于PyTorch框架实现,可用于图像分类等视觉任务。
convnext_small.in12k_ft_in1k_384 - 高效的ConvNeXt图像分类与特征提取预训练模型介绍
开源项目模型timmImageNetGithubHuggingfaceConvNeXt预训练图像分类
ConvNeXt图像分类模型,通过timm库在ImageNet-12k及ImageNet-1k上进行预训练与微调,提供图像特征提取与分类功能。支持TPU和8xGPU训练方式,适合大规模数据集处理。模型拥有50.2M参数和25.6 GMACs,支持384x384图像输入,并兼具特征图提取与图像嵌入功能,适用于高效图像处理需求。更多性能数据及结果可在timm库查阅。
vit_base_patch32_clip_448.laion2b_ft_in12k_in1k - LAION-2B预训练的ViT图像分类模型
ImageNetGithub开源项目图像分类LAION-2BtimmHuggingface视觉Transformer模型
这是一个基于Vision Transformer架构的图像分类模型,在LAION-2B数据集预训练后在ImageNet-12k和ImageNet-1k上微调。模型包含8830万参数,支持448x448输入图像,可用于图像分类和特征提取。该模型通过timm库实现,提供简单使用示例,采用Apache-2.0许可。
densenet201.tv_in1k - DenseNet图像分类模型实现高效特征提取与精准分类
ImageNetDenseNetGithub开源项目图像分类计算机视觉Huggingface深度学习模型
DenseNet201是一个在ImageNet-1k数据集上训练的图像分类模型。该模型拥有2000万参数,支持224x224像素输入,适用于图像分类、特征图提取和图像嵌入等任务。其密集连接的卷积网络结构不仅提供准确的分类结果,还能生成丰富的特征表示。模型通过timm库提供预训练权重,便于快速部署和使用。
tf_efficientnet_l2.ns_jft_in1k - EfficientNet架构的大规模图像识别与特征提取模型
ImageNetGithub开源项目图像分类EfficientNetHuggingface神经网络深度学习模型
基于EfficientNet架构开发的图像分类模型,采用Noisy Student半监督学习方法,结合ImageNet-1k和JFT-300m数据集进行训练。模型支持800x800分辨率输入,包含4.8亿参数,可用于图像分类、特征提取和嵌入向量生成。借助timm库实现模型的快速部署,适用于各类图像识别任务。
beit-base-patch16-224 - 基于BERT架构的图像分类模型BEiT在视觉特征学习的应用
BEiTImageNetGithub开源项目图像分类图像预处理Huggingface机器学习模型
BEiT是一个Vision Transformer架构的图像分类模型,通过在ImageNet-21k数据集进行自监督预训练并在ImageNet-1k上微调而来。模型采用BERT风格的预训练方法处理224x224分辨率图像,结合16x16像素块嵌入和视觉token预测机制,实现了图像特征的提取。其特点是使用相对位置编码替代绝对位置编码,并通过patch特征平均池化完成分类任务。
densenet121.ra_in1k - 基于RandAugment优化的DenseNet图像分类预训练模型
ImageNet图像分类开源项目模型Huggingface特征提取深度学习DenseNetGithub
DenseNet121是一个在ImageNet-1k数据集上预训练的图像分类模型,采用RandAugment数据增强策略优化。模型参数量为800万,支持多种输入分辨率,可用于图像分类、特征提取和embedding生成等计算机视觉任务。
xcit_nano_12_p8_224.fb_in1k - 基于跨协方差转换器的轻量级图像分类模型
ImageNetGithub开源项目图像分类计算机视觉Huggingface神经网络深度学习模型
xcit_nano_12_p8_224.fb_in1k采用跨协方差图像转换器(XCiT)架构,是一个参数量为3.0M的轻量级图像分类模型。模型在ImageNet-1k数据集上完成预训练,支持224x224尺寸的图像输入,可应用于图像分类和特征提取。模型通过跨协方差注意力机制降低计算复杂度,适合实际部署应用。
xcit_small_12_p16_224.fb_in1k - 跨协方差图像Transformer的高效视觉分类与特征提取模型
ImageNet计算机视觉图像分类Github开源项目模型Huggingface深度学习XCiT
XCiT (Cross-Covariance Image Transformer)是Facebook Research开发的视觉分类模型,采用创新的跨协方差注意力机制。模型在ImageNet-1k数据集预训练,包含2630万参数,处理224x224图像输入。通过优化计算效率,该模型在图像分类和特征提取任务中展现出稳定性能。
deit_tiny_patch16_224.fb_in1k - 高效数据处理的DeiT图像分类和特征提取模型
ImageNetTransformerDeiT图像分类开源项目timm模型HuggingfaceGithub
DeiT图像分类模型经过在ImageNet-1k数据集上的训练,通过注意力机制提高数据处理效率。它的紧凑架构具有5.7百万参数和1.3 GMACs,适用于224x224像素图像,可用于图像分类和嵌入生成。此项目具备广泛的库支持,易于集成,是研究者获取高效图像处理能力的理想工具。
vit_small_r26_s32_384.augreg_in21k_ft_in1k - ResNet与Vision Transformer结合的图像分类模型解析
ImageNetGithub开源项目图像分类timmViTHuggingface增广正则化模型
该模型结合ResNet与Vision Transformer(ViT)的特点,专用于图像分类。最初在ImageNet-21k上训练,后在ImageNet-1k上微调,并在JAX中创建,由Ross Wightman移植到PyTorch环境中。模型采用了36.5M参数和27.7M激活,针对384x384图像进行了优化,通过增强和正则化技术提升了处理复杂图像任务的能力,适用于多种图像识别应用。
deit-tiny-patch16-224 - 高效小型视觉Transformer模型用于图像分类
ImageNet图像处理Github开源项目图像分类HuggingfaceDeiT深度学习模型
DeiT-tiny-patch16-224是一个在ImageNet-1k数据集上训练的高效视觉Transformer模型。该模型仅有5M参数,却在ImageNet top-1分类准确率上达到72.2%。它可处理224x224分辨率的图像输入,输出1000个ImageNet类别的预测结果,适用于各种图像分类任务。
resnet101.tv_in1k - 采用ResNet101架构的高效图像分类和特征提取模型
ImageNet图像分类开源项目模型resnet101.tv_in1kHuggingface特征提取深度学习Github
resnet101.tv_in1k是一个基于ResNet101架构的图像分类模型,搭载ReLU激活、单层7x7卷积池化和1x1卷积下采样等特性,经过ImageNet-1k数据集训练,可用于图像特征提取和分类。在深度残差学习的加持下,该模型在特征提取和分类任务中表现突出,适合用于学术研究和商用产品开发。
swinv2-tiny-patch4-window8-256 - 基于分层特征图的轻量级视觉Transformer模型
深度学习图像分类HuggingfaceSwin Transformer v2开源项目计算机视觉模型GithubImageNet
Swin Transformer V2是一个在ImageNet-1k数据集上预训练的视觉模型,采用分层特征图结构和局部窗口注意力机制,实现线性计算复杂度。模型整合了残差后归一化和余弦注意力等技术,在保持256x256分辨率输入的同时,提供了稳定的图像分类和特征提取能力。
convnextv2-tiny-1k-224 - 基于全新框架节点,优化卷积网络的性能
Github模型卷积神经网络ImageNet开源项目图像分类FCMAEHuggingfaceConvNeXt V2
ConvNeXt V2引入了全新的全卷积掩码自动编码器框架及全局响应归一化层,提升卷积网络在多种识别基准的表现,经过ImageNet-1K数据集微调,适合高精度图像分类任务及视觉识别应用。
maxvit_base_tf_512.in21k_ft_in1k - MaxViT图像分类模型支持多尺寸特征提取和深度学习训练
GithubMaxViT模型ImageNet开源项目图像分类深度学习Huggingface人工智能
MaxViT是谷歌研究团队开发的图像分类模型,通过ImageNet-21k预训练和ImageNet-1k微调实现。模型集成多轴注意力机制,总参数量119.9M,支持512x512分辨率输入。除图像分类外,还可输出多尺度特征图和嵌入向量,便于迁移至其他视觉任务。模型在ImageNet-1k测试中取得88.20%的分类准确率。
efficientnetv2_rw_s.ra2_in1k - EfficientNetV2架构的轻量级图像分类模型
ImageNetGithub开源项目图像分类机器学习模型EfficientNetV2Huggingface深度学习模型
基于EfficientNetV2架构的图像分类模型,通过timm框架实现,使用RandAugment数据增强和RMSProp优化器在ImageNet-1k数据集训练。模型参数量23.9M,计算量4.9 GMACs,训练分辨率288x288,测试分辨率384x384。支持图像分类、特征图提取和图像嵌入等功能。
vision-perceiver-conv - Perceiver IO模型:灵活应用于图像分类的优化架构
自注意力机制图像分类Huggingface开源项目模型GithubPerceiver IO模型预训练ImageNet
Perceiver IO是一个适用于多种模态的transformer编码器模型,通过自注意力机制在固定的计算资源下实现更高效的处理。该模型在ImageNet上进行了预训练,能够通过像素级处理进行准确的图像分类。模型结合了卷积和maxpool预处理,可以生成多尺寸和多语义的输出结果,并在ImageNet-1k中实现了82.1的顶级精度。这一模型不仅可用于高效的标准图像分类,还能通过替换分类解码器实现灵活的应用扩展,适用于多种任务的特征提取。
tf_efficientnet_b3.ns_jft_in1k - 结合EfficientNet架构的神经网络图像处理模型
深度学习图像分类Huggingface特征提取开源项目模型GithubEfficientNetImageNet
该模型采用EfficientNet架构,通过Noisy Student半监督学习方法在ImageNet-1k和JFT-300m数据集训练。模型参数量1220万,支持300x300分辨率图像处理,可实现图像分类、特征提取和图像嵌入等功能。模型结合高效的网络架构和半监督学习技术,在图像处理任务中表现出色。