项目介绍:convnext_atto_ols.a2_in1k
convnext_atto_ols.a2_in1k项目是一个以图像分类为主的深度学习模型,由Ross Wightman在timm
库中训练而成,在ImageNet-1k数据集上进行训练。这个项目旨在通过先进的神经网络结构来提高图像分类的准确性和效率。
模型概述
- 模型类型: 图像分类/特征骨架
- 模型参数:
- 参数数量(百万):3.7
- GMACs(十亿乘加运算):0.6
- 激活数(百万):4.1
- 图像尺寸:训练时为224 x 224,测试时为288 x 288
- 相关论文:
- 《适用于2020年代的卷积神经网络》论文链接
- 开源地址: GitHub链接
- 数据集: ImageNet-1k
模型使用
图像分类
模型支持将图像输入经过一系列转换处理后进行分类预测,可以得到图像所属类别的概率预测。
示例代码:
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen('https://example.com/image.png'))
model = timm.create_model('convnext_atto_ols.a2_in1k', pretrained=True)
model.eval()
transforms = timm.data.create_transform(is_training=False)
output = model(transforms(img).unsqueeze(0))
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
特征图提取
用户可以通过调整模型使用模式,以提取输入图像的多层特征图。特征图是深度学习模型内部用于分析图像特征的中间表示。
model = timm.create_model('convnext_atto_ols.a2_in1k', pretrained=True, features_only=True)
图像嵌入
该模型还支持获取输入图像的嵌入向量,即将图像转换为特定维度的特征表示,这对于图像检索或聚类任务非常有用。
model = timm.create_model('convnext_atto_ols.a2_in1k', pretrained=True, num_classes=0)
模型比较
convnext_atto_ols.a2_in1k在ImageNet-1k数据集上的验证准确率(Top-1)为75.88%,Top-5准确率为92.846%。其参数量低,计算量较小,因而可在较低的硬件配置上高效运行。
对于图像分类任务,相较于其他更大的模型,这个模型在保证一定准确率的同时,提供了显著的速度优势,其秒处理图像样本数可以达到7963.16张。
总结
convnext_atto_ols.a2_in1k是一个高效、轻量化的图像分类模型,适用于不同的计算条件下的图像识别应用。通过预训练的权重和灵活的特征提取功能,用户可以将此模型应用于多种计算机视觉任务。