项目介绍:ConvNeXt V2 - Base Model in CV领域的创新
项目背景
ConvNeXt V2是一个基于卷积神经网络(ConvNet)的模型,它在图像分类领域具有显著的性能提升。此模型由Woo等人在论文“ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders”中提出,并首次在Facebook研究部门的开源库中发布。该模型经过FCMAE框架预训练,并在ImageNet-22K数据集上以384x384的分辨率进行微调。
模型描述
ConvNeXt V2模型是一个全卷积模型,引入了全卷积遮盖自动编码器框架(FCMAE)和新的全局响应归一化(GRN)层,以增强传统ConvNet的能力。通过这些创新,ConvNeXt V2模型在多种识别基准测试中的表现有了显著改善。
应用场景及局限性
ConvNeXt V2模型主要用于图像分类任务。用户可以使用该模型的原始版本进行图片分类操作。此外,还可以在模型集线上查找适合特定任务的微调版本。
如何使用
以下是如何利用ConvNeXt V2模型将COCO 2017数据集中的图像分类为1,000个ImageNet类别之一的示例:
from transformers import AutoImageProcessor, ConvNextV2ForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-base-22k-384")
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-base-22k-384")
inputs = preprocessor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
# 模型预测出1,000个ImageNet类别中的一个
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
更多代码示例可以参考详细文档。
论文引用信息
欲引用该模型的相关工作,请参见以下BibTeX条目:
@article{DBLP:journals/corr/abs-2301-00808,
author = {Sanghyun Woo and
Shoubhik Debnath and
Ronghang Hu and
Xinlei Chen and
Zhuang Liu and
In So Kweon and
Saining Xie},
title = {ConvNeXt {V2:} Co-designing and Scaling ConvNets with Masked Autoencoders},
journal = {CoRR},
volume = {abs/2301.00808},
year = {2023},
url = {https://doi.org/10.48550/arXiv.2301.00808},
doi = {10.48550/arXiv.2301.00808},
eprinttype = {arXiv},
eprint = {2301.00808},
timestamp = {Tue, 10 Jan 2023 15:10:12 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2301-00808.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
ConvNeXt V2通过对传统卷积网络的创新设计,展示了其在大规模数据集上的卓越性能,为视觉识别任务提供了一个强有力的工具。