#图像检索

fromage - 支持多模态输入输出的语言模型
Github开源项目预训练模型多模态FROMAGe图像检索
该页面介绍了FROMAGe项目,为其多模态输入输出任务提供代码和模型权重。包含详细的设置指南、预训练检查点、图像检索预计算嵌入、推理和训练示例以及评估脚本。研究人员可使用这些资源在视觉故事讲述和对话生成等任务中实现突破。欢迎访问项目主页和在线演示参与讨论。
Hierarchical-Localization - 模块化的6自由度视觉定位工具箱实现分层定位方法
Github开源项目图像检索特征匹配特征提取视觉定位hloc
这是一个用于6自由度视觉定位的开源工具箱。它采用分层定位方法,结合图像检索和特征匹配技术,提供快速、准确和可扩展的定位能力。该工具箱整合了图像匹配和运动恢复结构(SfM)领域的研究成果,可重现多个室内外视觉定位基准的最佳结果,并支持实现和调试新的定位流程。
Battle-of-the-Backbones - 预训练模型在多种计算机视觉任务中的大规模性能评估
Github开源项目预训练模型目标检测计算机视觉图像分类图像检索
Battle-of-the-Backbones项目进行了预训练模型和随机初始化基线的大规模比较。研究涵盖多种计算机视觉任务,包括自然、医疗和卫星图像分类,目标检测与分割,分布外泛化和图像检索。项目提供详细实验结果和源代码,为计算机视觉研究提供了全面的模型性能评估参考。
meme_search - 基于人工智能的表情包索引和检索系统
Github开源项目AI语义搜索图像检索开源组件Meme Search
Meme Search是一个开源的表情包索引和检索系统。该项目利用Python和人工智能技术,实现了表情包的内容和文本索引功能。系统采用开源组件构建,包括图像文本提取、向量嵌入和搜索等功能,全部在本地处理。用户可以添加自己的表情包,通过语义搜索快速找到所需内容,并支持直接从应用程序拖放分享到其他应用。该系统为表情包管理和使用提供了一种新的解决方案。
clip-rsicd-v2 - 专为遥感图像优化的零样本分类和检索模型
Github开源项目Transformer模型CLIPHuggingface零样本分类图像检索遥感图像
clip-rsicd-v2是一个基于CLIP的微调模型,专注于提升遥感图像的零样本分类和检索能力。该模型采用ViT-B/32架构和掩码自注意力Transformer分别作为图像和文本编码器。通过在RSICD、UCM和Sydney等遥感数据集上训练,clip-rsicd-v2在多项检索任务中显著超越原始CLIP模型。研究人员可利用此模型深入探究计算机视觉模型的鲁棒性和泛化能力。
jina-clip-v1 - 集成文本图像检索与文本相似度分析的多模态嵌入模型
Github开源项目模型CLIPHuggingfaceJina AI文本检索图像检索多模态嵌入
jina-clip-v1是Jina AI开发的英语多模态嵌入模型,支持高效文本-图像和文本-文本检索。它结合了传统文本嵌入和跨模态模型的优势,适用于多模态检索增强生成应用。该模型在Flickr和MSCOCO跨模态检索任务中表现出色,文本相似度评估能力也与专业文本嵌入模型相当。