#SigLIP

ViT-B-16-SigLIP-256 - WebLI数据集训练的SigLIP图像-文本对比学习模型
模型图像文本对比WebLI开源项目Huggingface图像分类SigLIPGithub模型使用
ViT-B-16-SigLIP-256是基于WebLI数据集训练的SigLIP模型,支持零样本图像分类。该模型兼容OpenCLIP和timm库,通过对比学习生成图像和文本特征表示。它能够计算图像与文本标签的相似度,适用于灵活的图像分类和检索应用。SigLIP采用Sigmoid损失函数进行语言-图像预训练,提高了模型性能。
siglip-base-patch16-384 - 改进型CLIP架构的图像文本预训练模型
计算机视觉开源项目深度学习模型图像分类SigLIP多模态模型GithubHuggingface
SigLIP是基于CLIP架构的多模态模型,通过Sigmoid损失函数优化了图像文本预训练过程。模型在WebLI数据集完成预训练,支持零样本图像分类和文本检索任务。其特点是无需全局相似度标准化,既可支持大规模批量训练,也适用于小批量场景。
ViT-L-16-SigLIP-256 - 用于零样本图像分类的对比式图像文本模型
Huggingface零样本图像分类语言图像预训练开源项目模型GithubSigLIPWebLI对比学习
模型以WebLI数据集进行训练,兼容OpenCLIP与timm库,支持图像与文本的任务。通过SigLIP方法增强语言与图像的预训练能力,实现零样本图像分类。该模型由JAX格式转为PyTorch,更易集成至现有机器学习流程,具备多平台适应性。
siglip-large-patch16-384 - 通过改进的损失函数提升多模态图像和文本的匹配效率
开源项目模型GithubHuggingfaceSigLIP多模态模型零样本学习预训练图像分类
SigLIP模型通过改进的sigmoid损失函数在图像文本配对任务中表现优异,无需成对相似性的全局视图归一化,使批量处理更加灵活高效。适用于零样本图像分类和图像文本检索等任务,展现出优秀的可用性和扩展性。在WebLI数据集上预训练,有效提升多模态任务表现,同时保持在较低复杂性问题中的有效性。了解更多,请访问模型文档。
marqo-fashionSigLIP - 基于SigLIP的时尚图像搜索模型实现多模态检索精准度提升
Github模型开源项目图像分类SigLIP深度学习Huggingface时尚检索产品搜索
Marqo-FashionSigLIP是一个时尚领域多模态嵌入模型,针对服装图像的文本描述、类别、风格等特征进行训练。该模型在检索准确度上较传统fashion-clip提升57%,支持主流深度学习框架,适用于电商图像搜索和商品分类场景。
siglip-base-patch16-512 - 采用Sigmoid损失函数的开源计算机视觉模型
Github模型开源项目图像分类SigLIP深度学习Huggingface计算机视觉图文匹配
SigLIP在CLIP架构基础上改进了损失函数设计,使用Sigmoid损失函数处理图像-文本对训练。该模型在WebLI数据集上预训练,支持512x512分辨率的图像输入,主要应用于零样本图像分类和图文检索。相比CLIP,新的损失函数无需全局相似度归一化,使模型在不同批量规模下都能保持稳定表现。
siglip-base-patch16-256-multilingual - 基于Sigmoid损失函数的多语言视觉语言模型
图像分类Huggingface开源项目模型WebLI数据集Github零样本学习多模态模型SigLIP
SigLIP是一个基于CLIP架构的多语言视觉语言模型,通过Sigmoid损失函数优化训练效果。模型在WebLI数据集上以256x256分辨率预训练,实现零样本图像分类和图文检索功能。相比CLIP模型,在批量处理和整体性能上都有提升。模型经过16个TPU-v4芯片训练,支持多语言处理,主要应用于图像分类和跨模态检索任务。
siglip-so400m-patch14-224 - 增强图像文本任务的性能,探索形状优化模型
Github零样本图像分类视觉开源项目对比学习WebLIHuggingfaceSigLIP模型
SigLIP通过sigmoid损失函数优化了CLIP模型的图像和文本匹配性能。此模型在WebLi数据集上预训练,可实现更大的批量训练,同时在小批量下表现出色。适用于零样本图像分类和图像文本检索任务,能在不同环境下获得高效结果。该模型在16个TPU-v4芯片上训练三天,而图像预处理中使用标准化和归一化,提升了计算效率。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号