#WebLI
ViT-B-16-SigLIP-256 - WebLI数据集训练的SigLIP图像-文本对比学习模型
Github开源项目模型图像分类Huggingface模型使用SigLIPWebLI图像文本对比
ViT-B-16-SigLIP-256是基于WebLI数据集训练的SigLIP模型,支持零样本图像分类。该模型兼容OpenCLIP和timm库,通过对比学习生成图像和文本特征表示。它能够计算图像与文本标签的相似度,适用于灵活的图像分类和检索应用。SigLIP采用Sigmoid损失函数进行语言-图像预训练,提高了模型性能。
ViT-L-16-SigLIP-256 - 用于零样本图像分类的对比式图像文本模型
Github开源项目模型Huggingface对比学习零样本图像分类SigLIPWebLI语言图像预训练
模型以WebLI数据集进行训练,兼容OpenCLIP与timm库,支持图像与文本的任务。通过SigLIP方法增强语言与图像的预训练能力,实现零样本图像分类。该模型由JAX格式转为PyTorch,更易集成至现有机器学习流程,具备多平台适应性。
siglip-so400m-patch14-224 - 增强图像文本任务的性能,探索形状优化模型
Github开源项目模型Huggingface对比学习零样本图像分类视觉SigLIPWebLI
SigLIP通过sigmoid损失函数优化了CLIP模型的图像和文本匹配性能。此模型在WebLi数据集上预训练,可实现更大的批量训练,同时在小批量下表现出色。适用于零样本图像分类和图像文本检索任务,能在不同环境下获得高效结果。该模型在16个TPU-v4芯片上训练三天,而图像预处理中使用标准化和归一化,提升了计算效率。