eva02_base_patch14_224.mim_in22k项目介绍
项目背景
eva02_base_patch14_224.mim_in22k是一个强大的图像特征提取模型,预训练于ImageNet-22k数据集,并使用了掩码图像建模技术。该模型以EVA-CLIP作为基准教师模型,由研究该领域的学者提出,用于改善视觉表示。eva02系列的模型采用了先进的视觉Transformer架构,并结合了多种最新技术,如平均池化、SwiGLU、旋转位置嵌入和在多层感知器中的额外LN,确保了其卓越的性能。
模型详情
- 模型类型:图像分类/特征骨干
- 模型参数:
- 参数数量(百万):85.8
- GMACs:23.2(表示模型计算量)
- 激活数量(百万):36.6
- 输入图像尺寸:224 x 224
- 相关文献:
- EVA-02: https://arxiv.org/abs/2303.11331
- EVA-CLIP: https://arxiv.org/abs/2303.15389
- 开源地址:
- GitHub: https://github.com/baaivision/EVA
- Hugging Face: https://huggingface.co/Yuxin-CV/EVA-02
模型使用方法
图像分类
用户可以通过简单的Python代码来实现图像分类。代码主要涉及图像的预处理和使用预训练模型进行分类,最后输出模型预测的最可能类别。
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('eva02_base_patch14_224.mim_in22k', pretrained=True)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
图像嵌入
模型还能用于提取图像特征嵌入。此功能可用于更复杂的视觉应用,如跨模态检索等。以下代码展示了如何从图像中提取特征向量。
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'eva02_base_patch14_224.mim_in22k',
pretrained=True,
num_classes=0
)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
output = model.forward_features(transforms(img).unsqueeze(0))
output = model.forward_head(output, pre_logits=True)
模型比较
该模型在与其他模型的对比中,显示了卓越的性能和较高的参数效率。表格中提供了与其他模型的一些重要指标的对比,供研究者选择最合适的模型。
引用
研究者可以使用以下BibTeX格式的引用文献来引用本项目及其相关工作:
@article{EVA02,
title={EVA-02: A Visual Representation for Neon Genesis},
author={Fang, Yuxin et al.},
journal={arXiv preprint arXiv:2303.11331},
year={2023}
}
总的来说,eva02_base_patch14_224.mim_in22k模型凭借其先进的技术和出色的性能,为学术界和工业界的图像理解任务提供了一个重要的发展工具。通过其强大的图像理解能力,用户能够在多个领域中实现出色的视觉应用。