项目概述
这是一个名为maxvit_base_tf_512.in21k_ft_in1k的图像分类模型项目,它是一个基于MaxViT架构的官方图像分类模型。该模型首先在ImageNet-21k数据集上进行了预训练,然后在ImageNet-1k数据集上进行了微调。由Google Research的研究团队在TensorFlow框架下开发,后由Ross Wightman移植到PyTorch框架。
模型特点
- 架构创新: 模型采用了MaxViT(Multi-Axis Vision Transformer)架构,结合了MBConv卷积块和两种不同分区方案的自注意力块(窗口和网格)
- 性能指标:
- 模型参数量: 119.9M
- GMACs: 138.0
- 激活值: 704.0M
- 输入图像尺寸: 512 x 512
- 精度表现: 在ImageNet-1k数据集上实现了88.20%的Top-1准确率和98.53%的Top-5准确率
应用场景
该模型可以应用在以下几个主要场景:
- 图像分类任务:可以对输入图像进行1000类的分类预测
- 特征图提取:可以提取多尺度的特征图,用于下游视觉任务
- 图像特征提取:可以提取图像的embedding特征向量,用于图像检索等任务
技术优势
- 双重预训练:先在大规模的ImageNet-21k数据集预训练,再在ImageNet-1k数据集微调,确保了模型的强大特征提取能力
- 混合架构设计:结合了卷积神经网络和transformer的优势,提升了模型的性能
- 灵活应用:支持多种使用方式,包括分类预测、特征提取等,适应不同应用场景需求
使用便利性
该模型提供了完整的使用示例代码,通过timm库可以轻松加载和使用模型,支持以下功能:
- 图像分类预测
- 特征图提取
- 图像嵌入向量提取
以上功能都可以通过简单的Python代码实现,极大地方便了开发者的使用。