热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#FLMR
基于细粒度后期交互的多模态检索增强视觉问答系统
2 个月前
本文介绍了一种新型的视觉问答系统FLMR,它通过细粒度的后期多模态交互检索来增强视觉问答能力。该系统在OK-VQA等基准测试中取得了显著的性能提升,为知识密集型视觉问答任务提供了新的解决方案。
FLMR
视觉问答
多模态检索
预训练模型
基准测试
Github
开源项目
2 个月前
Retrieval-Augmented Visual Question Answering:一种基于多模态检索的视觉问答新方法
2 个月前
Retrieval-Augmented Visual Question Answering (RA-VQA)是一种新型的视觉问答方法,通过引入外部知识和多模态检索来提升问答性能。本文介绍了RA-VQA的最新进展,包括Fine-grained Late-interaction Multi-modal Retrieval (FLMR)等技术,并提供了详细的实现指南。
FLMR
视觉问答
多模态检索
预训练模型
基准测试
Github
开源项目
2 个月前
相关项目
Retrieval-Augmented-Visual-Question-Answering
这个项目开发了一个基于细粒度后期交互多模态检索的视觉问答系统。系统在OK-VQA等多个基准数据集上实现了先进的检索和问答性能。它采用模块化架构,包含预训练映射网络、FLMR检索器和BLIP2读取器等关键组件。项目提供完整的代码库,支持训练和评估,并发布了预训练模型和处理后的数据集,便于研究人员进行后续研究。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号