#视觉语言预训练

Awesome Matching, Pretraining and Transfering: 多模态学习的前沿进展与应用

3 个月前

多模态模型参数高效微调视觉语言预训练图像文本匹配大型模型 Github 开源项目

3 个月前

相关项目

Awesome_Matching_Pretraining_Transfering

该项目汇总了多模态模型、参数高效微调、视觉语言预训练和图像-文本匹配领域的研究进展。内容涵盖大语言模型、视频多模态模型等多个方向，定期更新最新论文和资源。项目为相关领域的研究人员和开发者提供了系统的学习参考。

TinyCLIP-ViT-8M-16-Text-3M-YFCC15M

TinyCLIP是一种创新的跨模态蒸馏方法，专门用于压缩大规模语言-图像预训练模型。该方法通过亲和力模仿和权重继承两项核心技术，有效利用大规模模型和预训练数据的优势。TinyCLIP在保持comparable零样本性能的同时，显著减少了模型参数，实现了速度和精度的最佳平衡。这一技术为高效部署CLIP模型提供了实用解决方案，在计算资源受限的场景下尤其有价值。

blip-itm-base-coco

BLIP是一个创新的视觉语言预训练框架，通过引导式方法有效利用网络数据。该模型在图像-文本检索、图像描述和视觉问答等任务上表现出色，并能零样本迁移到视频-语言任务。BLIP不仅提高了视觉语言理解和生成的性能，还为这一领域的统一应用开创了新的可能性。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com