#多向量表示
colqwen2-v0.1 - ColQwen2:结合ColBERT策略的先进视觉语言检索模型
模型多向量表示开源项目HuggingfaceQwen2-VL文档检索ColQwen2Github视觉语言模型
ColQwen2是一种基于Qwen2-VL-2B的创新视觉语言模型,结合ColBERT策略实现高效文档检索。它支持动态图像分辨率输入,最多处理768个图像patch,在性能和内存需求间取得平衡。模型通过127,460对查询-页面数据训练,涵盖学术和合成数据集,重点关注英语内容,探索零样本跨语言泛化能力。ColQwen2为文本-图像检索任务提供了先进的解决方案,展现了在效率和准确性方面的显著优势。
colpali - 基于PaliGemma-3B的多向量文档检索模型
模型PaliGemma多向量表示开源项目Huggingface文档检索GithubColPali视觉语言模型
ColPali是一个基于PaliGemma-3B的文档检索模型,结合了ColBERT策略生成文本和图像的多向量表示。该模型将SigLIP的图像块嵌入输入到语言模型中,实现文本与图像的深度交互,从而提升检索效果。尽管主要在英语数据集上训练,ColPali展现出对其他语言的零样本泛化能力。这一创新设计为多模态文档检索领域带来了新的技术方案。