AGIEval
本仓库包含有关AGIEval的信息、数据、代码以及基准系统的输出结果。
简介
AGIEval是一个以人为中心的基准测试,专门设计用于评估基础模型在与人类认知和问题解决相关任务中的通用能力。 该基准测试源自20个面向普通人类考生的官方、公开、高标准的入学和资格考试,如普通大学入学考试(例如中国高考和美国SAT)、法学院入学考试、数学竞赛、律师资格考试和国家公务员考试。 有关该基准测试的完整描述,请参阅我们的论文:AGIEval:评估基础模型的以人为中心的基准测试。
任务和数据
我们已将数据集更新至1.1版本。新版本更新了2023年的中国高考(化学、生物、物理)数据集,并解决了注释问题。为了便于评估,现在所有多项选择题(MCQ)任务只有一个答案(高考物理和JEC-QA以前有多标签答案)。AGIEval-en数据集与1.0版本保持不变。新版本的统计数据如下:
AGIEval v1.1包含20个任务,其中18个MCQ任务和两个完形填空任务(高考数学完形填空和MATH)。您可以在下表中找到完整的任务列表。
您可以在data/v1_1文件夹中下载所有后处理的数据。所有数据的使用都应遵循原始数据集的许可。
所有数据集的数据格式如下:
{
"passage": null,
"question": "设集合 $A=\\{x \\mid x \\geq 1\\}, B=\\{x \\mid-1<x<2\\}$, 则 $A \\cap B=$ ($\\quad$)\\\\\n",
"options": ["(A)$\\{x \\mid x>-1\\}$",
"(B)$\\{x \\mid x \\geq 1\\}$",
"(C)$\\{x \\mid-1<x<1\\}$",
"(D)$\\{x \\mid 1 \\leq x<2\\}$"
],
"label": "D",
"answer": null
}
passage
字段适用于高考语文、高考英语、两个logiqa、所有LSAT和SAT。多项选择题的答案保存在label
字段中。完形填空题的答案保存在answer
字段中。
我们在data/few_shot_prompts文件中提供了少样本学习的提示。
基准系统
我们评估了基准系统(gpt-3.5-turbo和GPT-4o)在AGIEval v1.1上的性能。 结果如下:
您可以按照以下步骤复现结果:
- 在openai_api.py文件中更新您的OpenAI API。
- 运行run_prediction.py脚本以获取结果。
评估
您可以运行post_process_and_evaluation.py文件以获取评估结果。
排行榜
我们报告了AGIEval v1.1的排行榜。排行榜包含两个子集AGIEval-en和AGIEval-zh。这两个子集排行榜仅包含MCQ任务。排行榜如下:
AGIEval-en 少样本
模型 | 来源 | 平均分 |
---|---|---|
GPT-4o | 链接 | 71.4 |
Llama 3 400B+ | 链接 | 69.9 |
Llama 3 70B | 链接 | 63 |
Mixtral 8x22B | 链接 | 61.2 |
GPT-3.5-Turbo | 链接 | 52.7 |
Llama 3 8B | 链接 | 45.9 |
Gemma 7B | 链接 | 44.9 |
Mistral 7B | 链接 | 44 |
AGIEval-zh 少样本
AGIEval-all 少样本
AGIEval-en 零样本
AGIEval-zh 零样本测试
AGIEval-all 零样本测试
(带星号的结果为AGIEval v1.0版本的报告结果。)
模型 | 来源 | 平均分 |
---|---|---|
GPT-4o | 链接 | 62.3 |
InternLM2-20B* | 链接 | 53.0 |
Qwen-14B* | 链接 | 52.0 |
Phi-3-medium 14b* | 链接 | 50.2 |
InternLM2-Chat-7B-SFT* | 链接 | 49.0 |
GPT-3.5-Turbo | 链接 | 46.0 |
Qwen-7B* | 链接 | 45.6 |
Mixtral 8x7b* | 链接 | 45.2 |
Phi-3-small 7b* | 链接 | 45.1 |
Gemma 7b* | 链接 | 42.1 |
Llama-3-In* | 链接 | 42.0 |
Phi-3-mini 3.8b* | 链接 | 37.5 |
Mistral 7b* | 链接 | 35.1 |
Phi-2 2.7b* | 链接 | 29.8 |
引用
如果您在研究中使用了AGIEval基准测试或相关代码,请引用我们的论文:
@misc{zhong2023agieval,
title={AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models},
author={Wanjun Zhong and Ruixiang Cui and Yiduo Guo and Yaobo Liang and Shuai Lu and Yanlin Wang and Amin Saied and Weizhu Chen and Nan Duan},
year={2023},
eprint={2304.06364},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
贡献
本项目欢迎贡献和建议。大多数贡献都要求您同意贡献者许可协议(CLA),声明您有权并确实授予我们使用您贡献的权利。有关详细信息,请访问 https://cla.opensource.microsoft.com。
当您提交拉取请求时,CLA机器人会自动确定您是否需要提供CLA,并适当地修饰PR(例如,状态检查、评论)。只需按照机器人提供的说明操作即可。您只需在使用我们的CLA的所有存储库中执行一次此操作。
本项目已采用微软开源行为准则。 有关更多信息,请参阅行为准则常见问题解答或联系 opencode@microsoft.com 获取任何其他问题或意见。
商标
本项目可能包含项目、产品或服务的商标或标识。微软商标或标识的授权使用必须遵守并遵循微软商标和品牌指南。在本项目的修改版本中使用微软商标或标识不得造成混淆或暗示微软赞助。任何第三方商标或标识的使用均受这些第三方的政策约束。