与大型语言模型评估相关的论文和资源集合。
Yupeng Chang*1 Xu Wang*1 Jindong Wang#2 Yuan Wu#1 Kaijie Zhu3 Hao Chen4 Linyi Yang5 Xiaoyuan Yi2 Cunxiang Wang5 Yidong Wang6 Wei Ye6 Yue Zhang5 Yi Chang1 Philip S. Yu7 Qiang Yang8 Xing Xie2
1 吉林大学,
2 微软研究院,
3 中国科学院自动化研究所,
4 卡内基梅隆大学,
5 西湖大学,
6 北京大学,
7 伊利诺伊大学,
8 香港科技大学
(*: 共同第一作者, #: 共同通讯作者)
大型语言模型评估的论文和资源
这些论文是根据我们的调查《A Survey on Evaluation of Large Language Models》组织的:A Survey on Evaluation of Large Language Models.
注意: 由于我们无法实时更新arXiv论文,请参考这个仓库了解最新更新,论文可能会在以后更新。我们也欢迎任何拉取请求或问题,帮助我们完善此调查。您的贡献将在 致谢 中得到认可。
相关项目:
- 大型语言模型的提示基准:PromptBench: robustness evaluation of LLMs
- 大型语言模型的评估:LLM-eval
新闻和更新
- [2023年12月7日] 论文第二版在arXiv发布,同时发布了中文博客。
- [2023年7月7日] 论文第一版在arXiv发布:A Survey on Evaluation of Large Language Models。
评估什么
自然语言处理
自然语言理解
情感分析
- ChatGPT 在推理、幻觉和互动方面的多任务、多语言、多模态评估。Yejin Bang 等人. arXiv 2023. [论文]
- ChatGPT 在基准数据集上的系统研究和全面评估。Laskar 等人. ACL 2023(发现)。[论文]
- 语言模型的整体评估。Percy Liang 等人. arXiv 2022. [论文]
- ChatGPT 能预测股票价格走势吗?回报可预测性和大型语言模型。Alejandro Lopez-Lira 等人. SSRN 2023. [论文]
- ChatGPT 是通用自然语言处理任务求解器吗?Chengwei Qin 等人. arXiv 2023. [论文]
- ChatGPT 是一个好的情感分析器吗?初步研究。Zengzhi Wang 等人. arXiv 2023. [论文]
- 大型语言模型时代的情感分析:现实检验。Wenxuan Zhang 等人. arXiv 2023. [论文]
文本分类
- 语言模型的整体评估。Percy Liang 等人. arXiv 2022. [论文]
- 利用大型语言模型进行公共事务领域的主题分类。Alejandro Peña 等人. arXiv 2023. [论文]
- 大型语言模型可以评估新闻机构的可信度。Kai-Cheng Yang 等人. arXiv 2023. [论文]
自然语言推理
- ChatGPT 在基准数据集上的系统研究和全面评估。Laskar 等人. ACL 2023(发现)。[论文]
- 大型语言模型能像人类一样进行推理和分歧吗?Noah Lee 等人. arXiv 2023. [论文]
- ChatGPT 是通用自然语言处理任务求解器吗?Chengwei Qin 等人. arXiv 2023. [论文]
其他
- 大型语言模型理解社会知识吗?用SocKET基准评估模型的社会化能力。Minje Choi 等人. arXiv 2023. [论文]
- 两词测试:大型语言模型的语义基准。Nicholas Riccardi 等人. arXiv 2023. [论文]
- EvEval:大型语言模型的事件语义全面评估。Zhengwei Tao 等人. arXiv 2023. [论文]
推理
- ChatGPT 在推理、幻觉和互动方面的多任务、多语言、多模态评估。Yejin Bang 等人. arXiv 2023. [论文]
- ChatGPT 是一个知识渊博但缺乏经验的求解器:对大型语言模型中常识问题的调查。Ning Bian 等人. arXiv 2023. [论文]
- Chain-of-Thought 中心:持续衡量大型语言模型推理表现的努力。Yao Fu 等人. arXiv 2023. [论文]
- ChatGPT 在基准数据集上的系统研究和全面评估。Laskar 等人. ACL 2023(发现)。[论文]
- 大型语言模型不是抽象推理者。Gaël Gendron 等人. arXiv 2023. [论文]
- 大型语言模型能推理医疗问题吗?Valentin Liévin 等人. arXiv 2023. [论文]
- 评估 ChatGPT 和 GPT-4 的逻辑推理能力。Hanmeng Liu 等人. arXiv 2023. [论文]
- ChatGPT 的数学能力。Simon Frieder 等人. arXiv 2023. [论文]
- 使用 ChatGPT 的大型语言模型中的类人问题解决能力。Graziella Orrù 等人. Front. Artif. Intell. 2023 [论文]
- ChatGPT 是通用自然语言处理任务求解器吗?Chengwei Qin 等人. arXiv 2023. [论文]
- 使用 OOD 示例测试大型语言模型的一般演绎推理能力。Abulhair Saparov 等人. arXiv 2023. [论文]
- MindGames:利用动态认知模态逻辑针对大型语言模型的心智理论。Damien Sileo 等人. arXiv 2023. [论文]
- 推理还是背诵?通过反事实任务探索语言模型的能力和局限性。Zhaofeng Wu arXiv 2023. [论文]
- 大型语言模型真的擅长逻辑推理吗?从演绎、归纳和溯因视角的全面评估。Fangzhi Xu 等人. arXiv 2023. [论文]
- 高效测量LLM的认知能力:一种自适应测试视角。Yan Zhuang 等人. arXiv 2023. [论文]
- 用大型语言模型进行自动形式化。Yuhuai Wu 等人. NeurIPS 2022. [论文]
- 评估和改进工具增强的计算密集型数学推理。Beichen Zhang 等人. arXiv 2023. [论文]
- StructGPT:大型语言模型推理结构化数据的通用框架。Jinhao Jiang 等人. arXiv 2023. [论文]
- 统一大型语言模型和知识图谱:发展路线图。Shirui Pan 等人. arXiv 2023. [论文]
自然语言生成
总结
- 针对推理、幻觉和互动性的ChatGPT的多任务、多语种、多模态评估。Yejin Bang 等人. arXiv 2023. [论文]
- ChatGPT在基准数据集上的系统研究和全面评估,Laskar 等人. ACL 2023(研究成果)。[论文]
- 语言模型的全方位评估。Percy Liang 等人. arXiv 2022. [论文]
- ChatGPT vs 人类撰写的文本:可控文本摘要和句子风格转换的见解。Dongqi Pu 等人. arXiv 2023. [论文]
- ChatGPT是一个通用的自然语言处理任务解决者吗?Chengwei Qin 等人. arXiv 2023. [论文]
对话
- 针对推理、幻觉和互动性的ChatGPT的多任务、多语种、多模态评估。Yejin Bang 等人. arXiv 2023. [论文]
- LLM-Eval:使用大语言模型进行开放域对话的多维自动统一评估。Yen-Ting Lin 等人. arXiv 2023. [论文]
- ChatGPT是一个通用的自然语言处理任务解决者吗?Chengwei Qin 等人. arXiv 2023. [论文]
- LMSYS-Chat-1M:一个大型真实世界的大语言模型对话数据集。Lianmin Zheng 等人. arXiv 2023. [论文]
翻译
- 针对推理、幻觉和互动性的ChatGPT的多任务、多语种、多模态评估。Yejin Bang 等人. arXiv 2023. [论文]
- ChatGPT在基准数据集上的系统研究和全面评估,Laskar 等人. ACL 2023(研究成果)。[论文]
- 使用ChatGPT和GPT-4通过提示学习将放射学报告翻译成简明语言:有希望的结果、局限性和潜力。Qing Lyu 等人. arXiv 2023. [论文]
- 使用大语言模型进行文档级机器翻译。Longyue Wang 等人. arXiv 2023. [论文]
- 改善英语-阿拉伯语翻译的Transformer模型案例研究。Donia Gamal 等人. ijicis 2023. [论文]
- Taqyim:使用ChatGPT模型评估阿拉伯语NLP任务。Zaid Alyafeai 等人. arXiv 2023. [论文]
问答
- 使用语言模型作为考官对基础模型进行基准测试。Yushi Bai 等人. arXiv 2023. [论文]
- 针对推理、幻觉和互动性的ChatGPT的多任务、多语种、多模态评估。Yejin Bang 等人. arXiv 2023. [论文]
- ChatGPT是一个有知识却无经验的解决者:大语言模型中的常识问题研究。Ning Bian 等人. arXiv 2023. [论文]
- ChatGPT在基准数据集上的系统研究和全面评估,Laskar 等人. ACL 2023(研究成果)。[论文]
- 语言模型的全方位评估。Percy Liang 等人. arXiv 2022. [论文]
- ChatGPT是一个通用的自然语言处理任务解决者吗?Chengwei Qin 等人. arXiv 2023. [论文]
其他
- 探索使用大语言模型进行无参考文本质量评估:初步的实证研究。Yi Chen 等人. arXiv 2023. [论文]
- INSTRUCTEVAL:走向指令调优大语言模型的全方位评估。Yew Ken Chia 等人. arXiv 2023. [论文]
- ChatGPT vs 人类撰写的文本:可控文本摘要和句子风格转换的见解。Dongqi Pu 等人. arXiv 2023. [论文]
多语种任务
- 使用大语言模型对阿拉伯语人工智能进行基准测试。Ahmed Abdelali 等人. arXiv 2023. [论文]
- MEGA:生成型人工智能的多语种评估。Kabir Ahuja 等人. arXiv 2023. [论文]
- 针对推理、幻觉和互动性的ChatGPT的多任务、多语种、多模态评估。Yejin Bang 等人. arXiv 2023. [论文]
- 超越英语的ChatGPT:走向大语言模型在多语言学习中的全面评估。Viet Dac Lai 等人. arXiv 2023. [论文]
- ChatGPT在基准数据集上的系统研究和全面评估,Laskar 等人. ACL 2023(研究成果)。[论文]
- M3Exam:用于检查大语言模型的多语言、多模态、多层次的基准。Wenxuan Zhang 等人. arXiv 2023. [论文]
- 大规模多任务中文理解的测量。Hui Zeng 等人. arXiv 2023. [论文]
- CMMLU:中文大规模多任务语言理解的测量。Haonan Li 等人. arXiv 2023. [论文]
事实性
- TrueTeacher:使用大语言模型学习事实一致性评估。Zorik Gekhman 等人. arXiv 2023. [论文]
- TRUE:重新评估事实一致性评估。Or Honovich 等人. arXiv 2022. [论文]
- SelfCheckGPT:生成型大语言模型的零资源黑盒幻觉检测。Potsawee Manakul 等人. arXiv 2023. [论文]
- FActScore:长文本生成中事实精度的细粒度原子评估。Sewon Min 等人. arXiv 2023. [论文]
- 在大语言模型中测量和修改事实知识。Pouya Pezeshkpour arXiv 2023. [论文]
- 开放QA评估的评估。Cunxiang Wang arXiv 2023. [论文]
强健性
- 神经NLP模型的分布外评估调查。Xinzhe Li等人. arXiv 2023。[论文]
- 通过稳健指令调优缓解大型多模态模型中的幻觉。Fuxiao Liu等人. arXiv 2023。[论文]
- 领域泛化:领域泛化调查。Jindong Wang等人. TKDE 2022。[论文]
- ChatGPT的稳健性:对抗性和分布外的视角。Jindong Wang等人. arXiv 2023。[论文]
- GLUE-X:从分布外泛化视角评估自然语言理解模型。Linyi Yang等人. arXiv 2022。[论文]
- 评估大型视觉语言模型的对抗性稳健性。Yunqing Zhao等人. arXiv 2023。[论文]
- PromptBench:评估大型语言模型对抗性提示的稳健性。Kaijie Zhu等人. arXiv 2023。[论文]
- 基于提示的大型预训练语言模型的语义解析稳健性:对Codex的实证研究。Terry Yue Zhuo等人. arXiv 2023。[论文]
伦理和偏见
- 评估ChatGPT与人类社会跨文化一致性:一项实证研究。Yong Cao等人. C3NLP@EACL 2023。[论文]
- ChatGPT中的毒性分析:分析角色分配的语言模型。Ameet Deshpande等人. arXiv 2023。[论文]
- BOLD:开放式语言生成偏见测量的数据集和指标。Jwala Dhamala等人. FAccT 2021。[论文]
- ChatGPT应该有偏见吗?大型语言模型偏见的挑战和风险。Emilio Ferrara arXiv 2023。[论文]
- RealToxicityPrompts:评估语言模型中的神经毒性退化。Samuel Gehman等人. EMNLP 2020。[论文]
- 会话AI的政治意识形态:关于ChatGPT支持环保、左翼自由主义取向的证据汇总。Jochen Hartmann等人. arXiv 2023。[论文]
- 将AI与人类共享价值观对齐。Dan Hendrycks等人. arXiv 2023。[论文]
- ChatGPT在基准数据集上的系统研究和全面评估。Laskar等人. ACL 2023 (Findings)。[论文]
- BBQ:为问答构建的人工偏见基准。Alicia Parrish等人. ACL 2022。[论文]
- ChatGPT的自我认知和政治偏见。Jérôme Rutinowski等人. arXiv 2023。[论文]
- 语言生成中的社会偏见:进展与挑战。Emily Sheng等人. ACL-IJCNLP 2021。[论文]
- 道德模拟:大型语言模型生成符合政治身份的道德推理。Gabriel Simmons等人. arXiv 2022。[论文]
- 大型语言模型不是公平的评估者。Peiyi Wang等人. arXiv 2023。[论文]
- 探索ChatGPT的AI伦理:一项诊断分析。Terry Yue Zhuo等人. arXiv 2023。[论文]
- CHBias:中国会话语言模型的偏见评估和缓解。Jiaxu Zhao等人. ACL 2023。[论文]
可信度
- 语言模型中出现和消失的人类直观行为和推理偏见——以及在GPT-4中的消失。Thilo Hagendorff等人. arXiv 2023。[论文]
- 解码信任:对GPT模型可信度的全面评估。Boxin Wang等人. arXiv 2023。[论文]
- 通过稳健指令调优缓解大型多模态模型中的幻觉。Fuxiao Liu等人. arXiv 2023。[论文]
- 评估大型视觉语言模型中的对象幻觉。Yifan Li等人. arXiv 2023。[论文]
- 大型基础模型中的幻觉调查。Vipula Rawte等人. arXiv 2023。[论文]
- 再问一次,然后失败:大型语言模型在判断中的摇摆。Qiming Xie等人. arXiv 2023。[论文]
- AI海洋中的海妖之歌:大型语言模型中幻觉的调查。Yue Zhang等人. arXiv 2023。[论文]
社会科学
- 预训练抽象模型和LLMs为法律案件判决摘要准备得如何。Aniket Deroy等人. arXiv 2023。[论文]
- 评估大型语言模型能力的初步步骤。Michael C. Frank Nature Reviews Psychology 2023。[论文]
- 大型语言模型作为税务律师:法律能力出现的案例研究。John J. Nay等人. arXiv 2023。[论文]
- 大型语言模型可以在零样本学习设置中估算政治家意识形态。Patrick Y. Wu等人. arXiv 2023。[论文]
- 大型语言模型能否改变计算社会科学?Caleb Ziems等人. arXiv 2023。[论文]
自然科学与工程
数学
- LLMs是否足够先进?针对大型语言模型的具有挑战性的问题解决基准。Daman Arora等人. arXiv 2023。[论文]
- 通用人工智能的曙光:GPT-4的早期实验。Sébastien Bubeck等人. arXiv 2023。[论文]
- 通过交互评估语言模型的数学能力。Katherine M. Collins等人. arXiv 2023。[论文]
- 调查ChatGPT在数学推理和问题解决中的有效性:来自越南国家高中毕业考试的证据。Xuan-Quy Dao等人. arXiv 2023。[论文]
- 在基准数据集上对ChatGPT的系统研究和全面评估。Laskar等人. ACL 2023 (Findings)。[论文]
- CMATH:您的语言模型能通过中国小学数学考试吗?Tianwen Wei等人. arXiv 2023。[论文]
- 关于GPT-4解决具有挑战性的数学问题的实证研究。Yiran Wu等人. arXiv 2023。[论文]
- 大型语言模型在算术任务中的表现如何?Zheng Yuan等人. arXiv 2023。[论文]
- MetaMath:为大语言模型自举自己的数学问题。Longhui Yu等人. arXiv 2023。[论文]
一般科学
- LLMs是否足够先进?针对大型语言模型的具有挑战性的解决问题基准。Daman Arora等人. arXiv 2023。[论文]
- 大型语言模型是否理解化学?与ChatGPT的对话。Castro Nascimento CM等人. JCIM 2023。[论文]
- GPT模型在化学中究竟能做什么?关于八项任务的综合基准。Taicheng Guo等人. arXiv 2023。[论文][GitHub]
工程
- 通用人工智能的曙光:GPT-4的早期实验。Sébastien Bubeck等人. arXiv 2023。[论文]
- ChatGPT生成的代码真的正确吗?对代码生成的大型语言模型的严格评估。Jiawei Liu等人. arXiv 2023。[论文]
- 了解大型语言模型对自动规划的能力。Vishal Pallagani等人. arXiv 2023。[论文]
- ChatGPT:研究其在普遍软件工程任务中的实用性。Giriprasad Sridhara等人. arXiv 2023。[论文]
- 大型语言模型仍然不能规划(LLMs在规划和推理能力上的基准)。Karthik Valmeekam等人. arXiv 2022。[论文]
- 对大型语言模型规划能力的重要调查。Karthik Valmeekam等人. arXiv 2023。[论文]
- 高效测量大型语言模型认知能力:一种自适应测试视角。Yan Zhuang等人. arXiv 2023。[论文]
医疗应用
医学查询
- 使用大语言模型获取临床信息的承诺和危险:ChatGPT在生育咨询工具中的强大表现及其局限性。 Joseph Chervenak M.D. 等 《生育与不育》2023年。 [论文]
- 大语言模型与人类在遗传学问题上的表现分析。 Dat Duong 等 《欧洲人类遗传学杂志》2023年。 [论文]
- 针对患者特定电子病历问题评估AI聊天机器人的效果。 Alaleh Hamidi 等 arXiv 2023年。 [论文]
- 在高度专业化主题——放射肿瘤学物理学上评估大语言模型。 Jason Holmes 等 arXiv 2023年。 [论文]
- 对生物医学任务的ChatGPT评估:与微调生成变压器的零样本比较。 Israt Jahan 等 arXiv 2023年。 [论文]
- 评估AI生成的医学响应的准确性和可靠性:对Chat-GPT模型的评估。 Douglas Johnson 等 Residential Square 2023年。 [论文]
- 评估ChatGPT对减肥手术问题的回答准确性。 Jamil S. Samaan 等 《肥胖外科》2023年。 [论文]
- 在全科实践中试验大语言模型(ChatGPT)与应用知识测试:观察研究显示初级保健中的机会和局限性。 Arun James Thirunavukarasu 等 JMIR Med Educ. 2023年。 [论文]
- CARE-MI:产妇和婴幼儿护理中错误信息评估的中国基准。 Tong Xiang 等 arXiv 2023年。 [论文]
医学考试
- ChatGPT在美国医学执照考试中的表现如何?大语言模型对医学教育和知识评估的影响。 Aidan Gilson 等 JMIR Med Educ. 2023年。 [论文]
- ChatGPT在USMLE考试中的表现:使用大语言模型进行AI辅助医学教育的潜力。 Tiffany H. Kung 等 PLOS Digit Health. 2023年。 [论文]
医疗助手
- 评估ChatGPT在医疗保健中的可行性:多种临床和研究场景的分析。 Marco Cascella 等 《医学系统杂志》2023年。 [论文]
- covLLM:用于COVID-19生物医学文献的大语言模型。 Yousuf A. Khan 等 arXiv 2023年。 [论文]
- 评估大语言模型在胃肠病学顶级研究问题识别中的应用。 Adi Lahat 等 《科学报告》2023年。 [论文]
- 使用ChatGPT和GPT-4与提示学习将放射学报告翻译成简单语言:有希望的结果、局限性和潜力。 Qing Lyu 等 arXiv 2023年。 [论文]
- ChatGPT走进手术室:评估GPT-4在大语言模型时代的外科教育和培训中的表现及潜力。 Namkee Oh 等 《外科治疗研究年鉴》2023年。 [论文]
- 像GPT-4这样的LLM能否超越传统AI工具在痴呆诊断中的表现?可能,但不是现在。 Zhuo Wang 等 arXiv 2023年。 [论文]
代理应用
- 语言不是你所需要的一切:将感知与语言模型对齐。 Shaohan Huang 等 arXiv 2023年。 [论文]
- MRKL系统:一种模块化的神经符号架构,结合大语言模型、外部知识源和离散推理。 Ehud Karpas 等 [论文]
- 预训练视觉模型在控制中的意料之外的有效性。 Simone Parisi 等 ICMl 2022年。 [论文]
- 使用基础模型进行工具学习。 Qin 等 arXiv 2023年。 [论文]
- ToolLLM:促使大语言模型掌握16000多个现实世界的API。 Qin 等 arXiv 2023年。 [论文]
- Toolformer:语言模型可以自学使用工具。 Timo Schick 等 arXiv 2023年。 [论文]
- HuggingGPT:使用ChatGPT及其Hugging Face的朋友解决AI任务。 Yongliang Shen 等 arXiv 2023年。 [论文]
其他应用
教育
- 大语言模型能为学生提供反馈吗?关于ChatGPT的案例研究。 Wei Dai 等 ICALT 2023年。 [论文]
- ChatGPT能通过高中英语阅读理解考试吗? Joost de Winter Researchgate。 [论文]
- 探索大语言模型对初学编程者帮助请求的响应。 Arto Hellas 等 arXiv 2023年。 [论文]
- ChatGPT是一个好的教师教练吗?测量零样本表现以评分和提供课堂教学的可操作见解。 Rose E. Wang 等 arXiv 2023年。 [论文]
- CMATH:你的语言模型能通过中国小学数学测试吗? Tianwen Wei 等 arXiv 2023年。 [论文]
搜索和推荐
- 揭开ChatGPT在推荐系统中的能力。 Sunhao Dai 等 arXiv 2023年。 [论文]
- 大语言模型时代的推荐系统。 Wenqi Fan 等 Researchgate。 [论文]
- 使用大语言模型探索基于文本的协同过滤的上限:发现和见解。 Ruyu Li 等 arXiv 2023年。 [论文]
- ChatGPT在搜索中的表现如何?调查大语言模型作为重新排序代理的能力。 Weiwei Sun 等 arXiv 2023年。 [论文]
- ChatGPT与谷歌:搜索性能和用户体验的比较研究。 Ruiyun Xu 等 arXiv 2023年。 [论文]
- 推荐系统的未来方向是什么?基于ID与基于模态的推荐模型再探。 Zheng Yuan 等 arXiv 2023年。 [论文]
- ChatGPT的推荐公平吗?评估大语言模型推荐的公平性。 Jizhi Zhang 等 arXiv 2023年。 [论文]
- 零样本推荐作为语言建模。 Damien Sileo 等 ECIR 2022年。 [论文]
性格测试
- ChatGPT很有趣,但并不搞笑!幽默对大语言模型来说仍具挑战性。 Sophie Jentzsch 等 arXiv 2023年。 [论文]
- 利用猜词游戏评估大语言模型的智能。 Tian Liang 等 arXiv 2023年。 [论文]
- 大语言模型中的个性特质。 Mustafa Safdari 等 arXiv 2023年。 [论文]
- 大语言模型是否发展出了个性?自我评估测试在测量LLM个性中的适用性。 Xiaoyang Song 等 arXiv 2023年。 [论文]
- 大语言模型的情商。 Xuena Wang 等 arXiv 2023年。 [论文]
特定任务
- ChatGPT和其他大语言模型作为在线互动协作游戏设计的进化引擎。 Pier Luca Lanzi 等 arXiv 2023年。 [论文]
- ChatGPT日志解析评估。 Van-Hoang Le 等 arXiv 2023年。 [论文]
- PandaLM:LLM指令调整优化的自动评估基准。 Yidong Wang 等 arXiv 2023年。 [论文]
在哪里评估
该论文列出了一些流行的基准。为了更好地总结,这些基准分为两类:通用语言任务基准和特定下游任务基准。
注意: 我们可能遗漏了一些基准。非常欢迎您的建议!
基准 | 关注点 | 领域 | 评估标准 |
---|---|---|---|
SOCKET [论文] | 社交知识 | 特定下游任务 | 社交语言理解 |
MME [论文] | 多模态大型语言模型 | 多模态任务 | 感知和认知能力 |
燮智 [论文][GitHub] | 综合领域知识 | 通用语言任务 | 多基准测试的整体表现 |
Choice-75 [论文][GitHub] | 脚本学习 | 特定下游任务 | 大型语言模型的整体表现 |
CUAD [论文] | 法律合同审查 | 特定下游任务 | 法律合同理解 |
TRUSTGPT [论文] | 道德伦理 | 特定下游任务 | 毒性、偏见和值观对齐能力 |
MMLU [论文] | 文本模型 | 通用语言任务 | 多任务准确率 |
MATH [论文] | 数学问题 | 特定下游任务 | 数学能力 |
APPS [论文] | 编码挑战能力 | 特定下游任务 | 代码生成能力 |
CELLO [论文][GitHub] | 复杂指令 | 特定下游任务 | 计数限制、答案格式、任务规定短语和基于输入的查询 |
C-Eval [论文][GitHub] | 中文评估 | 通用语言任务 | 在中文环境下的52种考试 |
EmotionBench [论文] | 共情能力 | 特定下游任务 | 情感变化 |
OpenLLM [链接] | 聊天机器人 | 通用语言任务 | 排行榜排名 |
DynaBench [论文] | 动态评估 | 通用语言任务 | 自然语言推理、问答、情感和仇恨言论 |
Chatbot Arena [链接] | 聊天助手 | 通用语言任务 | 众包和Elo评级系统 |
AlpacaEval [GitHub] | 自动评估 | 通用语言任务 | 指标、稳健性和多样性 |
CMMLU [论文][GitHub] | 中文多任务处理 | 特定下游任务 | 多任务语言理解能力 |
HELM [论文][链接] | 全面评估 | 通用语言任务 | 多指标 |
API-Bank [论文] | 工具增强 | 特定下游任务 | API调用、响应和计划 |
M3KE [论文] | 多任务 | 特定下游任务 | 多任务准确率 |
MMBench [论文][GitHub] | 大型视觉语言模型 (LVLMs) | 多模态任务 | VLMs的多方面能力 |
SEED-Bench [论文][GitHub] | 多模态大型语言模型 | 多模态任务 | MLLMs 的生成理解 |
ARB [论文] | 高级推理能力 | 特定下游任务 | 多领域高级推理能力 |
BIG-bench [论文][GitHub] | 模型的能力和限制 | 通用语言任务 | 模型性能和校准 |
MultiMedQA [论文] | 医学问答 | 特定下游任务 | 准确性和人工评估 |
CVALUES [论文] [GitHub] | 安全和责任 | 特定下游任务 | 大型语言模型的对齐能力 |
LVLM-eHub [论文] | 大型视觉语言模型 | 多模态任务 | LVLMs 的多模态能力 |
ToolBench [GitHub] | 软件工具 | 特定下游任务 | 执行成功率 |
FRESHQA [论文] [GitHub] | 动态问答 | 特定下游任务 | 正确性和幻觉 |
CMB [论文] [链接] | 中文综合医学 | 特定下游任务 | 专家评估和自动评估 |
PandaLM [论文] [GitHub] | 指令调优 | 通用语言任务 | PandaLM 评判的胜率 |
MINT [论文] [GitHub] | 多轮交互、工具和语言反馈 | 特定下游任务 | 使用_k_次轮预算的成功率_SRk_ |
Dialogue CoT [论文] [GitHub] | 深度对话 | 特定下游任务 | 大型语言模型的帮助和接受度 |
BOSS [论文] [GitHub] | 自然语言处理中的OOD稳健性 | 通用语言任务 | OOD 稳健性 |
MM-Vet [论文] [GitHub] | 复杂多模态任务 | 多模态任务 | 视听一体能力 |
LAMM [论文] [GitHub] | 多模态点云 | 多模态任务 | 任务特定指标 |
GLUE-X [论文] [GitHub] | 自然语言理解任务的OOD稳健性 | 通用语言任务 | OOD 稳健性 |
KoLA [论文] | 知识导向评估 | 通用语言任务 | 自我对比指标 |
AGIEval [论文] | 以人为本的基础模型 | 通用语言任务 | 通用 |
PromptBench [论文] [GitHub] | 对抗提示弹性 | 通用语言任务 | 对抗稳健性 |
MT-Bench [论文] | 多轮对话 | 通用语言任务 | 由 GPT-4 判断的胜率 |
M3Exam [论文] [GitHub] | 多语言、多模态和多水平 | 特定下游任务 | 任务特定指标 |
GAOKAO-Bench [论文] | 中国高考试题 | 特定下游任务 | 准确性和评分率 |
SafetyBench [论文] [GitHub] | 安全 | 特定下游任务 | 大型语言模型的安全能力 |
LLMEval² [论文] [链接] | 大型语言模型评估器 | 通用语言任务 | 准确性、宏观F1分数和卡帕相关系数 |
FinanceBench [论文] [GitHub] | 金融问答 | 特定下游任务 | 与人工标注标签相比的准确性 |
贡献
我们欢迎向LLM-eval-survey项目贡献!如果您想要贡献,请按照以下步骤操作:
- Fork 本仓库。
- 创建一个有您修改内容的新分支。
- 提交一个包含清晰描述的拉取请求。
如果您有任何添加或评论,您也可以发起一个议题。
引用
如果您在研究或工作中发现本项目有用,请考虑引用它:
@article{chang2023survey,
title={A Survey on Evaluation of Large Language Models},
author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and Ye, Wei and Zhang, Yue and Chang, Yi and Yu, Philip S. and Yang, Qiang and Xie, Xing},
journal={arXiv preprint arXiv:2307.03109},
year={2023}
}
致谢
- Tahmid Rahman (@tahmedge) 感谢 PR#1。
- 感谢 Hao Zhao 提供有关新基准的建议。
- 感谢 Chenhui Zhang 提供关于鲁棒性、伦理和可信性的建议。
- Damien Sileo (@sileod) 感谢 PR#2。
- Peiyi Wang (@Wangpeiyi9979) 感谢 issue#3。
- 感谢 Zengzhi Wang 针对情感分析的贡献。
- Kenneth Leung (@kennethleungty) 感谢对多个 PR (#4, #5, #6) 的贡献。
- 感谢 @Aml-Hassan-Abd-El-hamid 提供的 PR#7。
- 感谢 @taichengguo 提供的 issue#9。