项目介绍
CLIP-convnext_base_w-laion2B-s13B-b82K-augreg是一个基于CLIP(Contrastive Language-Image Pre-training)技术的图像分类模型。该项目由LAION研究团队开发,旨在探索一种替代ViT和ResNet的CLIP模型,能够更好地随着模型规模和图像分辨率的增加而扩展。
模型特点
该模型使用ConvNeXt-Base作为图像塔,文本塔与OpenAI CLIP的RN50x4模型相同。主要特点包括:
- 首次在大规模数据集上训练ConvNeXt架构的CLIP模型
- 首次发布探索增强图像塔数据增强和正则化的模型权重
- 在256x256和320x320两种图像分辨率下进行训练
- 在13B样本的训练后,ImageNet零样本top-1准确率达到70.8%以上
- 相比ViT-B/16模型,在相似计算量下表现出更好的样本效率
训练数据
模型使用了两个数据集进行训练:
- LAION-2B:LAION-5B的20亿样本英文子集
- LAION-Aesthetic:LAION-2B的9亿样本子集,经过pHash去重和美学评分过滤
需要注意的是,这些数据集是未经筛选的大规模互联网爬取数据,可能包含不适当内容。
应用场景
该模型主要用于研究目的,可应用于:
- 零样本图像分类
- 图像和文本检索
- 图像分类和其他图像任务的微调
- 图像生成的引导和条件控制
评估结果
在ImageNet-1k上,该系列模型的零样本top-1准确率在70.8%到71.7%之间。在更广泛的数据集上也进行了基准测试,结果显示性能良好。
局限性
该模型目前不建议直接部署到实际应用中,仅限于研究用途。同时,由于仅在英语数据上训练,也仅限于英语场景使用。
总的来说,CLIP-convnext_base_w-laion2B-s13B-b82K-augreg项目为研究人员提供了一个强大的工具,用于探索零样本图像分类和其他相关任务,推动了CLIP技术的发展。