#多模态检索

OpenShape_code - 革新3D形状表示方法 实现开放世界理解
OpenShape3D形状表示开放世界理解零样本分类多模态检索Github开源项目
该项目开发了新型3D形状表示方法,通过大规模训练实现开放世界理解。这一技术在零样本3D形状分类、检索和语义理解任务中表现优异,支持多模态交互并能进行点云描述和图像生成。提供的在线演示、预训练模型和训练代码为3D视觉研究与应用拓展了新方向。
Retrieval-Augmented-Visual-Question-Answering - 细粒度后期交互多模态检索视觉问答系统
FLMR视觉问答多模态检索预训练模型基准测试Github开源项目
这个项目开发了一个基于细粒度后期交互多模态检索的视觉问答系统。系统在OK-VQA等多个基准数据集上实现了先进的检索和问答性能。它采用模块化架构,包含预训练映射网络、FLMR检索器和BLIP2读取器等关键组件。项目提供完整的代码库,支持训练和评估,并发布了预训练模型和处理后的数据集,便于研究人员进行后续研究。
chinese-clip-vit-base-patch16 - 中文数据驱动的多模态对比学习工具
Github模型开源项目零样本学习深度学习Chinese-CLIP图像识别Huggingface多模态检索
项目通过ViT和RoBERTa实现了中文CLIP模型,支持图像和文本的嵌入计算及相似性分析,具备零样本学习和图文检索功能。该模型在多项基准测试中表现优秀,包括MUGE、Flickr30K-CN等。结合其官方API,用户可轻松实现多场景中的图文转换与识别。详细信息和实施教程可在GitHub获取。
marqo-fashionCLIP - 基于CLIP的时尚图像检索与分类开源模型
GithubMarqo-FashionCLIP多模态检索开源项目图像分类时尚搜索Huggingface性能评估模型
Marqo-FashionCLIP是一个基于CLIP架构的时尚图像检索和分类模型。模型采用广义对比学习技术,支持处理文本描述、类别、风格、颜色和材质等多维度特征。在Atlas、DeepFashion等6个公开数据集的评测中,该模型在文本到图像检索、类别分类等任务上取得了优异表现。开发者可通过Hugging Face、OpenCLIP或Transformers.js等框架使用此模型。