项目介绍
这是一个名为vit_base_r50_s16_384.orig_in21k_ft_in1k的图像分类模型项目。该模型是一个ResNet-Vision Transformer (ViT)混合模型,结合了传统卷积神经网络和Transformer的优势。
模型背景
该模型由Google Research团队开发,最初在JAX框架中训练,后来由Ross Wightman移植到PyTorch框架。它基于"An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale"这篇论文的研究成果。
模型特点
- 模型类型:图像分类/特征提取骨干网络
- 参数量:9900万
- GMACs:61.3
- 激活量:8180万
- 输入图像尺寸:384 x 384像素
训练数据
该模型采用了两阶段训练策略:
- 在ImageNet-21k数据集上进行预训练
- 在ImageNet-1k数据集上进行微调
这种策略有助于模型学习更广泛的视觉特征,并在特定任务上取得更好的性能。
使用方法
该模型可以通过timm库轻松调用,主要有两种使用场景:
-
图像分类:可以直接使用模型进行图像分类,输出前5个最可能的类别及其概率。
-
图像特征提取:通过移除分类器层,可以获取图像的高维特征表示,这对于下游任务如图像检索、迁移学习等非常有用。
性能对比
用户可以在timm库的model results页面查看该模型与其他模型的性能对比,包括准确率、推理速度等指标。
开源贡献
该项目采用Apache-2.0开源协议,欢迎研究者和开发者使用和改进。如果在研究中使用了该模型,请引用相关论文和timm库。
总结
vit_base_r50_s16_384.orig_in21k_ft_in1k是一个强大的图像分类和特征提取模型,结合了CNN和Transformer的优势。它在大规模数据集上进行了训练,可以应用于各种计算机视觉任务。通过timm库,研究者和开发者可以方便地使用该模型,为自己的项目赋能。