#GPT-4V(ision)
相关项目
MMMU
MMMU是一个新型基准测试,设计用于评估多模态模型在多学科任务中的表现,特别是需要大学水平的学科知识和深思熟虑的推理能力。该基准包含11.5K道来自大学考试、测验和教材的多模态题目,覆盖艺术设计、商业、科学、健康医学、人文社会科学及技术工程六大领域。不同于现有基准,MMMU专注于高级感知和领域特定知识的推理,挑战模型执行专家级任务。评估14个开源LMM和GPT-4V(ision)显示,即使是最先进的模型其准确率仅为56%,表明有巨大改进空间。
SeeAct
SeeAct采用多模态GPT模型(如GPT-4V(ision)),提供网页任务自动化的解决方案,支持OpenAI和Google的多种语言模型,并与Playwright浏览器无缝集成。适用于网页代理测试与评估,支持多种配置和自定义任务,实现安全操作和实时监控。Multimodal-Mind2Web数据集提供丰富的网页截图和HTML文本,便于实验和评估。