#WebLI
ViT-B-16-SigLIP - 基于WebLI数据集的SigLIP视觉语言模型
ViT-B-16图像文本对比Huggingface开源项目WebLI模型零样本图像分类GithubSigLIP
ViT-B-16-SigLIP是一个在WebLI数据集上训练的视觉语言模型,使用Sigmoid损失函数进行预训练。该模型支持对比学习和零样本图像分类任务,可通过OpenCLIP和timm库使用。ViT-B-16-SigLIP在图像-文本对齐和特征提取方面具有良好性能,适用于计算机视觉和自然语言处理的交叉应用研究。
ViT-SO400M-14-SigLIP-384 - 采用SigLIP技术的大规模视觉-语言预训练模型
模型图像文本对比WebLI开源项目HuggingfaceViT-SO400M-14零样本图像分类SigLIPGithub
ViT-SO400M-14-SigLIP-384是一个在WebLI数据集上训练的大规模视觉-语言预训练模型。该模型采用SigLIP(Sigmoid Loss for Language-Image Pre-training)技术,适用于对比学习和零样本图像分类任务。模型提供了与OpenCLIP和timm库的兼容性,支持图像和文本编码。研究人员可将其应用于图像分类、检索等多种视觉-语言任务中。
ViT-B-16-SigLIP-256 - WebLI数据集训练的SigLIP图像-文本对比学习模型
模型图像文本对比WebLI开源项目Huggingface图像分类SigLIPGithub模型使用
ViT-B-16-SigLIP-256是基于WebLI数据集训练的SigLIP模型,支持零样本图像分类。该模型兼容OpenCLIP和timm库,通过对比学习生成图像和文本特征表示。它能够计算图像与文本标签的相似度,适用于灵活的图像分类和检索应用。SigLIP采用Sigmoid损失函数进行语言-图像预训练,提高了模型性能。
ViT-L-16-SigLIP-256 - 用于零样本图像分类的对比式图像文本模型
Huggingface零样本图像分类语言图像预训练开源项目模型GithubSigLIPWebLI对比学习
模型以WebLI数据集进行训练,兼容OpenCLIP与timm库,支持图像与文本的任务。通过SigLIP方法增强语言与图像的预训练能力,实现零样本图像分类。该模型由JAX格式转为PyTorch,更易集成至现有机器学习流程,具备多平台适应性。
siglip-so400m-patch14-224 - 增强图像文本任务的性能,探索形状优化模型
Github零样本图像分类视觉开源项目对比学习WebLIHuggingfaceSigLIP模型
SigLIP通过sigmoid损失函数优化了CLIP模型的图像和文本匹配性能。此模型在WebLi数据集上预训练,可实现更大的批量训练,同时在小批量下表现出色。适用于零样本图像分类和图像文本检索任务,能在不同环境下获得高效结果。该模型在16个TPU-v4芯片上训练三天,而图像预处理中使用标准化和归一化,提升了计算效率。