热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#多模态理解
MMMU
MMMU是一个新型基准测试,设计用于评估多模态模型在多学科任务中的表现,特别是需要大学水平的学科知识和深思熟虑的推理能力。该基准包含11.5K道来自大学考试、测验和教材的多模态题目,覆盖艺术设计、商业、科学、健康医学、人文社会科学及技术工程六大领域。不同于现有基准,MMMU专注于高级感知和领域特定知识的推理,挑战模型执行专家级任务。评估14个开源LMM和GPT-4V(ision)显示,即使是最先进的模型其准确率仅为56%,表明有巨大改进空间。
DeepSeek-VL
DeepSeek-VL是一个开源视觉语言模型,为实际应用场景而设计。它能处理逻辑图表、网页、公式、科学文献、自然图像等,并在复杂场景中展现智能。模型提供1.3B和7B两种参数规模,支持基础和对话应用,可用于学术研究和商业用途。DeepSeek-VL采用MIT许可证,为研究人员和开发者提供了强大的视觉语言处理工具。
InternVideo
InternVideo项目致力于开发通用视频基础模型,提升多模态视频理解能力。项目包含InternVideo和InternVideo2两个主要版本,以及大规模视频-文本数据集InternVid。InternVideo2采用生成式和判别式学习方法,在多模态视频理解任务中表现突出。项目不断更新,提供多种规模的模型和丰富的视频注释数据,为研究和开发提供有力支持。
相关文章
MMMU: 推动人工智能迈向专家级多模态理解与推理的里程碑
2 个月前
DeepSeek-VL: 引领真实世界视觉语言理解的开源模型
2 个月前
InternVideo: 开创视频理解新时代的基础模型
2 个月前
MMMU学习资料汇总 - 全面评估多模态AI模型能力的基准测试
1 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号