项目介绍:vit_base_patch32_clip_384.openai_ft_in12k_in1k
项目背景
vit_base_patch32_clip_384.openai_ft_in12k_in1k 是一种基于视觉转换器(Vision Transformer)的图像分类模型。该模型最初由 OpenAI 使用 CLIP 在 WIT-400M 图像-文本配对数据集上进行预训练,随后在 ImageNet-12k 和 ImageNet-1k 数据集上进行了微调。
模型详情
模型类别
该模型属于图像分类与特征骨干模型。
模型参数
- 参数数量:88.3M
- GMACs(乘加运算数):12.7
- 激活数:12.1M
- 图像尺寸:384 x 384
相关论文
- "Learning Transferable Visual Models From Natural Language Supervision": 讨论了如何从自然语言监督中学习可迁移的视觉模型。
- "Reproducible scaling laws for contrastive language-image learning": 研究对比语言-图像学习的可复现性扩展。
- "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale": 探讨了利用变换器进行大规模图像识别的技术。
数据集
模型训练使用了以下数据集:
- 微调数据集:ImageNet-1k
- 预训练数据集:WIT-400M、ImageNet-12k
模型使用
图像分类
模型可以用于识别并分类输入图像中的内容。通过特定的 Python 代码,可以利用 timm 库加载和应用此模型进行图像分类。
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://example.image.url/beignets-task-guide.png'))
model = timm.create_model('vit_base_patch32_clip_384.openai_ft_in12k_in1k', pretrained=True)
model = model.eval()
# 获取模型特定的变换(归一化,调整尺寸)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
图像嵌入
模型也可用于生成图像的特征嵌入,这在图像检索和相似性检测中非常有用。
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://example.image.url/beignets-task-guide.png'))
model = timm.create_model('vit_base_patch32_clip_384.openai_ft_in12k_in1k', pretrained=True, num_classes=0)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
模型比较
用户可以在 timm 的 model results 页面中进一步探索该模型的详细数据集和运行时指标。
引用
如果在学术或项目中使用了该模型,请参照以下格式进行引用:
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
...
}
该项目介绍展示了 vit_base_patch32_clip_384.openai_ft_in12k_in1k 的全面信息,适合各类对图像分类和特征提取有兴趣的用户。模型的强大性能和广泛的应用场景使其成为图像处理领域的一个重要工具。