#多模态检索

基于细粒度后期交互的多模态检索增强视觉问答系统

3 个月前

FLMR 视觉问答多模态检索预训练模型基准测试 Github 开源项目

3 个月前

Retrieval-Augmented Visual Question Answering:一种基于多模态检索的视觉问答新方法

3 个月前

FLMR 视觉问答多模态检索预训练模型基准测试 Github 开源项目

3 个月前

OpenShape: 开创3D形状表示的新纪元

3 个月前

OpenShape 3D形状表示开放世界理解零样本分类多模态检索 Github 开源项目

3 个月前

相关项目

OpenShape_code

该项目开发了新型3D形状表示方法，通过大规模训练实现开放世界理解。这一技术在零样本3D形状分类、检索和语义理解任务中表现优异，支持多模态交互并能进行点云描述和图像生成。提供的在线演示、预训练模型和训练代码为3D视觉研究与应用拓展了新方向。

Retrieval-Augmented-Visual-Question-Answering

这个项目开发了一个基于细粒度后期交互多模态检索的视觉问答系统。系统在OK-VQA等多个基准数据集上实现了先进的检索和问答性能。它采用模块化架构,包含预训练映射网络、FLMR检索器和BLIP2读取器等关键组件。项目提供完整的代码库,支持训练和评估,并发布了预训练模型和处理后的数据集,便于研究人员进行后续研究。

chinese-clip-vit-base-patch16

项目通过ViT和RoBERTa实现了中文CLIP模型，支持图像和文本的嵌入计算及相似性分析，具备零样本学习和图文检索功能。该模型在多项基准测试中表现优秀，包括MUGE、Flickr30K-CN等。结合其官方API，用户可轻松实现多场景中的图文转换与识别。详细信息和实施教程可在GitHub获取。

marqo-fashionCLIP

Marqo-FashionCLIP是一个基于CLIP架构的时尚图像检索和分类模型。模型采用广义对比学习技术，支持处理文本描述、类别、风格、颜色和材质等多维度特征。在Atlas、DeepFashion等6个公开数据集的评测中，该模型在文本到图像检索、类别分类等任务上取得了优异表现。开发者可通过Hugging Face、OpenCLIP或Transformers.js等框架使用此模型。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com