#多模态理解

MMMU学习资料汇总 - 全面评估多模态AI模型能力的基准测试

1 个月前

Cover of MMMU学习资料汇总 - 全面评估多模态AI模型能力的基准测试

MMMU (Massive Multi-discipline Multimodal Understanding and Reasoning) 是一个旨在评估多模态AI模型在多学科领域理解和推理能力的基准测试。本文汇总了MMMU相关的学习资料,帮助读者快速了解和使用这一重要的评估工具。

MMMU 多模态理解专家AGI 基准测试 GPT-4V(ision)Github 开源项目

1 个月前

Cover of MMMU学习资料汇总 - 全面评估多模态AI模型能力的基准测试

DeepSeek-VL: 引领真实世界视觉语言理解的开源模型

2 个月前

Cover of DeepSeek-VL: 引领真实世界视觉语言理解的开源模型

DeepSeek-VL是一个开源的视觉语言模型,专为真实世界的视觉和语言理解应用而设计。它具有强大的多模态理解能力,能处理逻辑图表、网页、公式识别、科学文献、自然图像等复杂场景,为人工智能研究和应用开辟了新的可能。

DeepSeek-VL 视觉语言模型多模态理解开源人工智能 Github 开源项目

2 个月前

Cover of DeepSeek-VL: 引领真实世界视觉语言理解的开源模型

InternVideo: 开创视频理解新时代的基础模型

2 个月前

Cover of InternVideo: 开创视频理解新时代的基础模型

InternVideo是一个由上海人工智能实验室开发的视频基础模型系列,通过生成式和判别式学习相结合的方法,实现了多模态视频理解的重大突破。

InternVideo 视频基础模型多模态理解视频文本数据集模型更新 Github 开源项目

2 个月前

Cover of InternVideo: 开创视频理解新时代的基础模型

MMMU: 推动人工智能迈向专家级多模态理解与推理的里程碑

2 个月前

Cover of MMMU: 推动人工智能迈向专家级多模态理解与推理的里程碑

MMMU是一个创新的多学科多模态理解与推理基准测试,旨在评估人工智能模型在专家级任务中的表现。它涵盖了从艺术设计到工程技术的广泛学科,包含11.5K精心设计的多模态问题,为下一代AI模型的发展提供了新的方向和挑战。

MMMU 多模态理解专家AGI 基准测试 GPT-4V(ision)Github 开源项目

2 个月前

Cover of MMMU: 推动人工智能迈向专家级多模态理解与推理的里程碑

相关项目

Project Cover

MMMU是一个新型基准测试，设计用于评估多模态模型在多学科任务中的表现，特别是需要大学水平的学科知识和深思熟虑的推理能力。该基准包含11.5K道来自大学考试、测验和教材的多模态题目，覆盖艺术设计、商业、科学、健康医学、人文社会科学及技术工程六大领域。不同于现有基准，MMMU专注于高级感知和领域特定知识的推理，挑战模型执行专家级任务。评估14个开源LMM和GPT-4V(ision)显示，即使是最先进的模型其准确率仅为56%，表明有巨大改进空间。

Project Cover

DeepSeek-VL是一个开源视觉语言模型，为实际应用场景而设计。它能处理逻辑图表、网页、公式、科学文献、自然图像等，并在复杂场景中展现智能。模型提供1.3B和7B两种参数规模，支持基础和对话应用，可用于学术研究和商业用途。DeepSeek-VL采用MIT许可证，为研究人员和开发者提供了强大的视觉语言处理工具。

Project Cover

InternVideo项目致力于开发通用视频基础模型，提升多模态视频理解能力。项目包含InternVideo和InternVideo2两个主要版本，以及大规模视频-文本数据集InternVid。InternVideo2采用生成式和判别式学习方法，在多模态视频理解任务中表现突出。项目不断更新，提供多种规模的模型和丰富的视频注释数据，为研究和开发提供有力支持。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号