项目简介: tf_efficientnetv2_m.in21k_ft_in1k
概述
tf_efficientnetv2_m.in21k_ft_in1k 是一款用于图像分类的深度学习模型。此模型基于EfficientNet-V2架构,最初是在TensorFlow中由论文作者进行训练的,并经过Ross Wightman移植至PyTorch中使用。此模型在ImageNet-21k数据集上预训练,随后在ImageNet-1k数据集上进行了微调。
模型细节
- 模型类型: 图像分类 / 特征提取骨干网
- 参数详情:
- 参数数量(百万): 54.1
- GMACs: 15.9
- 激活数(百万): 57.5
- 图像尺寸:训练时为384 x 384,测试时为480 x 480
- 相关论文:
- EfficientNetV2: Smaller Models and Faster Training. 论文链接: arXiv
- 使用数据集: ImageNet-1k
- 预训练数据集: ImageNet-21k
- 原始模型来源: GitHub链接
模型使用方法
图像分类
首先,用户可以使用timm库创建并加载预训练好的EfficientNet-V2 M模型来进行图像分类。执行过程包括下载和预处理输入图像,然后将其通过模型进行推理,得到预测分类的概率。
特征图提取
模型也支持特征图提取功能。用户可以使用此功能获取图像的特征表示,通过这种方式了解模型如何在不同的特征图层中看待输入图像。
图像嵌入
除了以上功能,用户还可以提取图像嵌入,适用于不需要分类层的应用场景。这种用法的核心思想是获取输入图像的特征表示,而不进行特定的图像分类。
模型比较
对于有兴趣深入了解该模型在数据集和运行时性能上的表现的用户,可以在timm库的模型结果页面进行探索。这个资源提供了其他相关模型的详细比较,可以帮助用户更好的选择适合自己需求的模型。
引用文献
用户可以参考相关的学术论文与文献,在研究中适当地引用这些资料。这些文献详细记录了EfficientNetV2模型的理论背景、实现细节和实验结果。