CLIP-ViT-B-16-DataComp.XL-s13B-b90K项目介绍
项目概述
CLIP ViT-B-16-DataComp.XL-s13B-b90K 是一个基于 OpenCLIP 工具构建的模型,采用名为 DataComp-1B 的数据集进行训练,旨在实现零样本图片分类。在训练中使用了由 stability.ai 提供的计算资源。
模型用途
这个模型的主要用途是面向研究社区的研究成果,希望能够帮助研究人员更好地理解和探索零样本的任意图像分类。同时,也可以用于跨学科研究,以评估这类模型带来的潜在影响。
直接用途
- 零样本图片分类
- 图片和文本检索
后续应用
- 图像分类及其他与图像相关任务的微调
- 线性探测图片分类
- 图像生成的引导和调节
使用限制
注意,任何商业或非商业领域内部署模型的应用目前都不在推荐使用范围内。模型未经充分测试,安全性无法得到保证,故不建议在未严格限定的条件下部署使用。此外,涉及监控和面部识别的使用情境始终在禁用范围内。
训练细节
训练数据
模型训练使用的数据集为 DataComp-1B,收集了来自互联网的 14 亿条样本。由于数据集未经过筛选和整理,其中可能含有令用户不适的内容。因此,建议在研究目的下使用数据集,并在使用演示链接时格外注意。
训练过程
训练详细过程请参考相关文献(https://arxiv.org/abs/2304.14108)。
模型评估
在 LAION CLIP 基准数据集以及其他 38 个数据集上进行了评估。结果显示,模型在 ImageNet-1k 上的零样本 top-1 准确率达到 73.5%。
鸣谢
感谢 stability.ai 提供用于训练本模型的计算资源。
引用文献
如需引用本项目及其相关软件,请参考以下 BibTeX 格式提供的参考文献。
如何开始
欲开始使用该模型,请参考 GitHub 上的相关资源(https://github.com/mlfoundations/open_clip)。