项目介绍:CLIP-ViT-g-14-laion2B-s12B-b42K
模型详情
CLIP-ViT-g-14-laion2B-s12B-b42K是一种基于CLIP架构的模型,使用LAION-2B数据集的英文子集进行训练。LAION全称为Large-scale Artificial Intelligence Open Network,是一个致力于大规模多模态模型训练的开源项目。该模型由Romain Beaumont在stability.ai的集群上完成训练。
使用说明
根据OpenAI CLIP模型的初衷,该模型主要用于研究目的。希望研究人员能够利用这个模型更好地理解和探索零样本图像分类,以及其在不同领域的潜在影响。这包括跨学科研究,尤其是关于这种模型可能带来的成败得失的分析。
直接使用
可用于零样本图像分类、图像与文本检索等。
下游使用
该模型可以用于图像分类与其他图像任务的精调工作,例如线性探测器图像分类、图像生成引导与条件设置等。
超出范围的使用
当前,该模型不建议用于任何实际部署的情况,无论是商业用途还是非商业用途。在一个限制性的环境中进行的图像搜索等非部署用途也不推荐,除非进行了专门化的内域测试。尤其是在不同分类体系中CLIP表现的变动较大,这种情况下未经测试的自由使用可能会带来潜在的伤害。
另外,任何涉及监控与人脸识别的用例无论模型表现如何都不在推荐范围内。这主要是因为这些领域的人工智能任务目前缺乏足够的测试标准和检查,以确保公平使用。
训练详情
训练数据
此模型的训练数据来源于2亿个样本的LAION-5B的英文子集。LAION-5B数据集致力于开放研究与实验,以更好地理解和处理从公共网络爬取的未经筛选的大型数据集。
训练过程
评估
该模型的评估使用了LAION CLIP Benchmark套件。测试数据包括用于分类的VTAB+数据集和用于检索的COCO与Flickr数据集。
结果
模型在ImageNet-1k上获得了76.6%的零样本Top-1准确率。目前,已在更大范围的数据集进行了初步的基准测试,结果可以查看这里。
致谢
特别感谢stability.ai提供的计算资源支持该模型的训练。
引用
关于此模型的更多信息,以及如何引用该模型在文献中的使用,请参阅OpenAI CLIP论文和OpenCLIP软件的相关文献记录。