#多模态检索
相关项目
OpenShape_code
该项目开发了新型3D形状表示方法,通过大规模训练实现开放世界理解。这一技术在零样本3D形状分类、检索和语义理解任务中表现优异,支持多模态交互并能进行点云描述和图像生成。提供的在线演示、预训练模型和训练代码为3D视觉研究与应用拓展了新方向。
Retrieval-Augmented-Visual-Question-Answering
这个项目开发了一个基于细粒度后期交互多模态检索的视觉问答系统。系统在OK-VQA等多个基准数据集上实现了先进的检索和问答性能。它采用模块化架构,包含预训练映射网络、FLMR检索器和BLIP2读取器等关键组件。项目提供完整的代码库,支持训练和评估,并发布了预训练模型和处理后的数据集,便于研究人员进行后续研究。