SuperCLUE

中文通用大模型综合性基准SuperCLUE

【2023-12-28】发布SuperCLUE-2023年12月榜单

【2023-10-19】 SuperCLUE-Agent：Agent智能体中文原生任务评估基准

【2023-9-12】 SuperCLUE-Safety：中文大模型多轮对抗安全基准

【2023-9-26】，SuperCLUE发布中文大模型9月榜单。

SuperCLUE是一个综合性大模型评测基准，本次评测主要聚焦于大模型的四个能力象限，包括语言理解与生成、专业技能与知识、Agent智能体和安全性，进而细化为12项基础能力。

相比与上月，新增了AI Agent智能体

SuperCLUE能力评估结构图

SuperCLUE多维度测评方案

为什么新增AI Agent智能体能力？

AI agent（智能体）是当前与大语言模型相关的前沿研究热点，拥有类似贾维斯等科幻电影中人类超级助手的能力，可以根据需求自主的完成任务。然而，面向AI agent智能体，缺乏针对中文大模型的广泛评估。为了解决这一问题，我们在SuperCLUE新的榜单中新增了AI agent智能体能力的测评。这个榜单将重点评估AI agent在【工具使用】和【任务规划】两个关键能力上的表现，这项工作旨在为评估中文大模型作为智能体的表现提供一个基础和可能。

SuperCLUE总排行榜（2023年12月）

排名	模型	机构	总分	OPEN多轮开放问题	OPT三大能力客观题	使用
-	GPT4-Turbo	OpenAI	90.63	90.89	90.03	API
-	GPT4(网页)	OpenAI	83.92	80.76	91.28	网页
-	GPT4(API)	OpenAI	79.84	76.24	88.24	API
🏅️	文心一言4.0(API)	百度	79.02	75.00	88.38	API
🥈	通义千问2.0	阿里巴巴	76.54	71.78	87.64	API
🥉	AndesGPT	OPPO	75.04	70.01	86.76	API
4	智谱清言	清华&智谱	74.11	69.91	83.92	网页
5	Moonshot(KimiChat)	月之暗面	71.92	67.25	82.81	网页
-	文心一言4.0(网页)	百度	70.28	62.59	88.22	网页
6	Qwen-72B-Chat	阿里巴巴	69.69	62.31	86.90	API
7	序列猴子	出门问问	68.98	61.01	87.59	API
8	Yi-34B-Chat	零一万物	68.46	61.99	83.56	模型
9	PCI-TransGPT	佳都科技	68.33	60.41	86.81	API
9	360GPT_Pro	360	68.32	61.36	84.56	API
-	Claude2	Anthropic	67.43	65.14	72.77	API
11	云雀大模型(豆包)	字节跳动	66.35	58.53	84.60	网页
-	Gemini-pro	Google	65.29	59.33	79.20	API
-	GPT3.5-Turbo	OpenAI	61.44	55.63	74.98	API
12	Qwen-14B-Chat	阿里巴巴	61.27	52.04	82.81	API
13	Baichuan2-13B-Chat	百川智能	61.12	54.45	76.67	模型
14	XVERSE-13B-2-Chat	元象科技	60.46	53.00	77.87	模型
15	讯飞星火V3.0	科大讯飞	59.33	51.74	77.03	API
16	Minimax(应事)	稀宇科技	58.91	50.00	79.69	网页
17	ChatGLM3-6B	清华&智谱	49.50	42.30	66.31	模型
18	Chinese-Alpaca-2-13B	yiming cui	45.36	38.91	60.40	模型
-	Llama_2_13B_Chat	Meta	37.36	34.91	43.09	模型

注：处于前列的模型，如果分数比较接近（小于0.03分），在排名时会被记为并列的名称。

SuperCLUE-OPEN多轮开放问题排行榜（2023年12月）

排名	模型	机构	OPEN多轮开放问题	语言与知识	专业与技能	工具使用	传统安全	使用
-	GPT4-Turbo	OpenAI	90.89	90.21	97.00	100.00	62.75	API
-	GPT4(网页)	OpenAI	80.76	79.49	82.87	94.63	64.71	网页
-	GPT4(API)	OpenAI	76.24	73.96	81.15	93.34	53.92	API
🏅️	文心一言4.0(API)	百度	75.00	69.54	79.62	80.92	68.00	API
🥈	通义千问2.0	阿里巴巴	71.78	71.58	73.40	76.32	52.94	API
🥉	AndesGPT	OPPO	70.01	72.23	68.80	70.71	55.88	API
4	智谱清言	清华&智谱	69.91	66.98	68.63	83.78	65.31	网页
5	Moonshot(KimiChat)	月之暗面	67.25	69.72	72.57	62.19	43.14	网页
-	Claude2	Anthropic	65.14	55.28	73.27	65.13	83.00	API
-	文心一言4.0(网页)	百度	62.59	65.05	63.26	47.37	64.00	网页
6	Qwen-72B-Chat	阿里巴巴	62.31	59.43	65.59	60.67	52.00	API
7	Yi-34B-Chat	零一万物	61.99	63.90	54.55	71.05	65.31	模型
8	360GPT_Pro	360	61.36	62.09	58.70	69.33	60.00	API
9	序列猴子	出门问问	61.01	65.81	59.99	56.58	45.10	API
10	PCI-TransGPT	佳都科技	60.41	60.39	61.56	64.66	50.98	API
-	Gemini-pro	Google	59.33	60.50	61.43	46.53	62.50	API
11	云雀大模型(豆包)	字节跳动	58.53	57.75	56.42	55.26	67.65	网页
-	GPT3.5-Turbo	OpenAI	55.63	55.30	56.24	55.26	52.00	API
12	Baichuan2-13B-Chat	百川智能	54.45	57.35	48.69	56.58	54.90	模型
13	XVERSE-13B-2-Chat	元象科技	53.00	54.63	45.82	63.33	57.84	模型
14	Qwen-14B-Chat	阿里巴巴	52.04	54.29	48.38	45.33	56.86	API
15	讯飞星火V3.0	科大讯飞	51.74	57.40	48.41	44.00	43.14	API
16	Minimax(应事)	稀宇科技	50.00	53.54	45.05	40.13	50.00	网页
17	ChatGLM3-6B	清华&智谱	42.30	46.67	36.15	34.25	53.92	模型
18	Chinese-Alpaca-2-13B	yiming cui	38.91	46.46	29.35	27.63	46.94	模型
-	Llama_2_13B_Chat	Meta	34.91	36.55	30.21	32.67	53.92	模型

SuperCLUE-OPT三大能力客观题排行榜（2023年12月）

排名	模型	机构	OPT分数	基础能力	中文特性	学术专业能力	使用
-	GPT4(网页)	OpenAI	91.28	97.62	82.38	93.85	网页
-	GPT4-Turbo	OpenAI	90.03	96.99	79.16	93.93	API
🏅️	文心一言4.0(API)	百度	88.38	91.65	86.18	87.32	API
-	GPT4(API)	OpenAI	88.24	92.92	81.84	89.95	API
-	文心一言4.0(网页)	百度	88.22	76.48	78.32	57.05	网页
🥈	通义千问2.0	阿里巴巴	87.64	78.65	81.28	63.48	API
🥉	序列猴子	出门问问	87.59	91.46	80.28	90.57	API
4	Qwen-72B-Chat	阿里巴巴	86.90	92.21	76.65	91.05	API
5	PCI-TransGPT	佳都科技	86.81	90.76	80.88	88.42	API
6	AndesGPT	OPPO	86.76	92.55	76.17	90.81	API
7	云雀大模型(豆包)	字节跳动	84.60	88.75	70.89	93.06	网页
8	360GPT_Pro	360	84.56	91.70	73.32	87.93	API
9	智谱清言	清华&智谱	83.92	89.14	73.10	88.72	网页
10	Yi-34B-Chat	零一万物	83.56	86.90	72.81	90.12	模型
11	Qwen-14B-Chat	阿里巴巴	82.81	91.14	68.67