项目介绍
CLIP-ViT-H-14-frozen-xlm-roberta-large-laion5B-s13B-b90k是一个强大的多模态模型,它结合了计算机视觉和自然语言处理的能力。该模型由Romain Beaumont在stability.ai的集群上训练完成,是基于OpenCLIP框架开发的。
模型架构
该模型采用了冻结的ViT-H/14视觉编码器和xlm-roberta-large文本编码器。视觉编码器初始化自LAION-2B数据集上预训练的CLIP ViT-H/14模型,并在训练过程中保持冻结。文本编码器则使用了预训练的xlm-roberta-large权重进行初始化。
训练数据
模型使用了完整的LAION-5B数据集进行训练,这是一个包含50亿图像-文本对的大规模数据集。训练采用了90k的批量大小,总共训练了130亿个样本。
模型能力
这个模型展现了出色的零样本图像分类能力,不仅在英语上表现优异,在其他语言上也达到了很高的准确率。例如,在ImageNet 1k数据集上达到了77.0%的准确率,与英语版本的78%相当接近。在其他语言上的表现也很突出,如意大利语56%、日语53%和中文55.7%的准确率。
应用场景
该模型可以直接用于零样本图像分类、图像和文本检索等任务。此外,它还可以用于下游任务的微调,如图像分类、线性探针分类、图像生成引导等。
评估结果
模型在VTAB+数据集上进行了分类评估,在COCO和Flickr数据集上进行了检索评估。结果显示,该模型在英语和其他语言上都达到了很强的性能。
开源贡献
该项目采用MIT许可证,模型代码和权重都是开源的。研究者们可以通过OpenCLIP框架来使用这个模型,进行进一步的研究和应用开发。
总的来说,CLIP-ViT-H-14-frozen-xlm-roberta-large-laion5B-s13B-b90k是一个强大的多语言多模态模型,在图像理解和跨语言应用方面展现出了巨大的潜力。它为计算机视觉和自然语言处理的结合开辟了新的可能性。