eva02_base_patch14_448.mim_in22k_ft_in22k_in1k项目介绍
项目背景
eva02_base_patch14_448.mim_in22k_ft_in22k_in1k是一个图像分类模型,属于EVA02系列。这一系列的模型是视觉Transformer,通过使用EVA-CLIP作为掩码图像建模(MIM)的教师模型进行了预训练,并先后在ImageNet-22k和ImageNet-1k数据集上进行了微调。
模型细节
这个模型主要用于图像分类,作为特征提取的骨架。模型的参数数量为87.1百万,浮点运算数(GMACs)为107.1,激活函数数为259.1,输入图像尺寸为448x448。该模型结合了一些创新的技术特性,如均值池化、SwiGLU激活函数、旋转位置嵌入(ROPE)以及在MLP中的额外层归一化(LN)。
数据集
- 预训练数据集:ImageNet-22k
- 微调数据集:ImageNet-1k
模型使用方法
图像分类
用户可以通过Python代码使用timm
库对图像进行分类。模型提供了预训练权重,并且包含用于图像标准化和尺寸调整的特定转换。
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://example.com/image.png'))
model = timm.create_model('eva02_base_patch14_448.mim_in22k_ft_in22k_in1k', pretrained=True)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # 转换单张图像并预测
图像嵌入
模型也可以生成图像的特征嵌入,这对于需要图像表示的任务很有用。
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://example.com/image.png'))
model = timm.create_model('eva02_base_patch14_448.mim_in22k_ft_in22k_in1k', pretrained=True, num_classes=0)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0)) # 输出为特征嵌入
模型对比
在https://github.com/huggingface/pytorch-image-models/tree/main/results
页面上,可以找到与其他模型进行对比的数据和运行指标。针对不同的模型配置及尺寸,eva02系列提供了多种选择,适应不同的需求。
引用
如需引用此项目,可以使用以下Bibtex格式:
@article{EVA02,
title={EVA-02: A Visual Representation for Neon Genesis},
author={Fang, Yuxin and Sun, Quan and Wang, Xinggang and Huang, Tiejun and Wang, Xinlong and Cao, Yue},
journal={arXiv preprint arXiv:2303.11331},
year={2023}
}
@article{EVA-CLIP,
title={EVA-02: A Visual Representation for Neon Genesis},
author={Sun, Quan and Fang, Yuxin and Wu, Ledell and Wang, Xinlong and Cao, Yue},
journal={arXiv preprint arXiv:2303.15389},
year={2023}
}
以上信息展示了eva02_base_patch14_448.mim_in22k_ft_in22k_in1k的优势和应用场景,让用户可以方便的将其用于图像分类和嵌入任务中。