#ImageNet-21k

tf_efficientnetv2_xl.in21k_ft_in1k - EfficientNet-v2开源图像分类与特征抽取模型

开源项目模型timmGithubHuggingfaceEfficientNet-v2TensorFlowImageNet-21k图像分类

EfficientNet-v2模型在ImageNet-21k上预训练并在ImageNet-1k上微调，具备图像分类、特征提取与图像嵌入功能。初始使用Tensorflow训练，后由Ross Wightman移植至PyTorch。模型拥有208.1百万参数与52.8 GMACs计算量，支持训练时384x384与测试时512x512的图像尺寸。通过timm库，便可创建预训练模型，用于图像分类及特征映射。本模型在研究与应用中表现出强大的性能及灵活性。

vit_tiny_patch16_224.augreg_in21k - 增强与正则化的ViT图像分类模型

开源项目特征骨干模型GithubHuggingfaceVision TransformerImageNet-21k图像分类数据增强

这是一个高效的Vision Transformer（ViT）图像分类模型，经过增强和正则化，在ImageNet-21k上进行了训练。由论文作者在JAX中开发，并由Ross Wightman移植到PyTorch。模型的类型包括图像分类和特征提取，参数量为9.7百万，1.1 GMACs，处理图像尺寸为224x224。项目中有图像分类和嵌入的代码示例，以及支持特定数据转换的功能，提升模型性能。该模型适用于高效图像识别应用，并提供开发者比较参考的方法。

vit-base-patch32-224-in21k - Vision Transformer模型在2100万图像数据集上预训练

Vision Transformer计算机视觉图像识别ImageNet-21k深度学习模型Github开源项目Huggingface

Vision Transformer (ViT) 是一种基于transformer架构的视觉模型，在ImageNet-21k数据集上预训练。该模型将图像转换为固定大小的patch序列，通过线性嵌入和位置编码输入transformer编码器。ViT可应用于图像分类等多种视觉任务，只需在预训练编码器上添加任务特定层。模型在224x224分辨率下训练，批量大小为4096，在多项图像分类基准测试中展现出优秀性能。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号