项目概述
Marqo-FashionSigLIP是一个多模态嵌入模型,它在时尚领域的搜索和识别方面取得了显著的性能提升。相比于传统的fashion clip模型,该模型在MRR(平均倒数排名)和召回率方面提升了高达57%的性能。
核心技术特点
该模型基于广义对比学习(GCL)技术开发,不仅可以处理文本描述,还能识别类别、风格、颜色、材质、关键词等多维度的时尚产品特征。它是在ViT-B-16-SigLIP (webli)的基础上进行微调得到的。
使用方式
这个模型提供了多种使用方式:
- 可以通过Hugging Face的AutoModel加载使用
- 支持OpenCLIP框架直接调用
- 提供JavaScript版本,可以通过Transformers.js库在浏览器端运行
每种使用方式都提供了完整的代码示例,开发者可以根据具体需求选择合适的使用方式。
性能表现
模型在6个公共多模态时尚数据集上进行了全面的评测,包括Atlas、DeepFashion、Fashion200k等。评测结果显示:
- 在文本到图像检索任务中,平均召回率达到0.231,远超其他对标模型
- 在类别到产品匹配方面,精确率达到0.737
- 在子类别到产品匹配任务中,精确率达到0.725
这些数据都显著优于FashionCLIP2.0、OpenFashionCLIP等主流模型。
应用价值
该模型特别适合应用于:
- 电商平台的商品搜索优化
- 时尚产品的智能推荐系统
- 商品分类自动化
- 视觉搜索系统
其优异的性能和多样的部署方式,使其成为时尚电商领域的重要工具。
技术支持
项目在GitHub上开源,并提供详细的技术文档和使用说明。同时,Marqo官方博客也提供了深入的技术解析文章,帮助开发者更好地理解和使用该模型。