#图像文本模型

CoCa-pytorch: 图像-文本基础模型的强大实现

2024年09月05日

CoCa 图像文本模型 Pytorch实现对比学习 transformer架构 Github 开源项目

2024年09月05日

相关项目

CoCa-pytorch

CoCa-pytorch项目提供了CoCa(Contrastive Captioners)模型的PyTorch实现。该项目将对比学习融入传统的编码器/解码器transformer，优化了图像到文本的转换。项目采用PaLM的transformer架构，包含单模态、多模态transformers和交叉注意力模块。这一实现为研究和开发图像-文本基础模型提供了有力工具。

MobileCLIP-S2-OpenCLIP

MobileCLIP-S2-OpenCLIP是一款基于多模态强化训练的高效图像-文本模型。相比SigLIP的ViT-B/16模型，它在性能上有所超越，同时速度提升2.3倍，模型体积缩小2.1倍，且仅使用了1/3的训练样本。在ImageNet零样本分类任务中，该模型达到74.4%的Top-1准确率，在38个数据集上的平均性能为63.7%，体现了出色的效率与性能平衡。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com