🏆 LLM排行榜

一个联合社区的努力，创建一个为LLM提供的中心排行榜。欢迎贡献和纠正！
我们将能够本地部署并用于商业目的的模型视为“开放”模型。

交互式仪表盘

https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard

排行榜

<SOURCE_TEXT>

模型名称	发布者	是否公开	Chatbot Arena Elo	HellaSwag (few-shot)	HellaSwag (zero-shot)	HellaSwag (one-shot)	HumanEval-Python (pass@1)	LAMBADA (zero-shot)	LAMBADA (one-shot)	MMLU (zero-shot)	MMLU (few-shot)	TriviaQA (zero-shot)	TriviaQA (one-shot)	WinoGrande (zero-shot)	WinoGrande (one-shot)	WinoGrande (few-shot)
alpaca-7b	斯坦福大学	否			0.739									0.661
alpaca-13b	斯坦福大学	否	1008
bloom-176b	BigScience	是		0.744			0.155			0.299
cerebras-gpt-7b	Cerebras	是			0.636			0.636		0.259		0.141
cerebras-gpt-13b	Cerebras	是			0.635			0.635		0.258		0.146
chatglm-6b	ChatGLM	是	985
chinchilla-70b	DeepMind	否			0.808			0.774			0.675			0.749
codex-12b / code-cushman-001	OpenAI	否					0.317
codegen-16B-mono	Salesforce	是					0.293
codegen-16B-multi	Salesforce	是					0.183
codegx-13b	清华大学	否					0.229
dolly-v2-12b	Databricks	是	944		0.710									0.622
eleuther-pythia-7b	EleutherAI	是			0.667			0.667		0.265		0.198		0.661
eleuther-pythia-12b	EleutherAI	是			0.704			0.704		0.253		0.233		0.638
falcon-7b	TII	是		0.781							0.350
falcon-40b	TII	是		0.853							0.527
fastchat-t5-3b	Lmsys.org	是	951
gal-120b	Meta AI	否								0.526
gpt-3-7b / curie	OpenAI	否		0.682							0.243
gpt-3-175b / davinci	OpenAI	否		0.793	0.789						0.439			0.702
gpt-3.5-175b / text-davinci-003	OpenAI	否		0.822	0.834		0.481	0.762			0.569			0.758		0.816
gpt-3.5-175b / code-davinci-002	OpenAI	否					0.463
gpt-4	OpenAI	否		0.953			0.670				0.864					0.875
gpt4all-13b-snoozy	Nomic AI	是			0.750									0.713
gpt-neox-20b	EleutherAI	是		0.718	0.719			0.719		0.269	0.276	0.347
</SOURCE_TEXT>
gpt-j-6b	EleutherAI	yes		0.663	0.683			0.683		0.261	0.249	0.234
koala-13b	Berkeley BAIR	no	1082		0.726									0.688
llama-7b	Meta AI	no			0.738		0.105	0.738		0.302		0.443		0.701
llama-13b	Meta AI	no	932		0.792		0.158							0.730
llama-33b	Meta AI	no			0.828		0.217							0.760
llama-65b	Meta AI	no			0.842		0.237				0.634			0.770
llama-2-70b	Meta AI	yes		0.873							0.698
mpt-7b	MosaicML	yes			0.761			0.702		0.296		0.343
oasst-pythia-12b	Open Assistant	yes	1065		0.681									0.650
opt-7b	Meta AI	no			0.677			0.677		0.251		0.227
opt-13b	Meta AI	no			0.692			0.692		0.257		0.282
opt-66b	Meta AI	no		0.745							0.276
opt-175b	Meta AI	no		0.791							0.318
palm-62b	Google Research	no												0.770
palm-540b	Google Research	no		0.838	0.834	0.836	0.262	0.779	0.818		0.693		0.814	0.811	0.837	0.851
palm-coder-540b	Google Research	no					0.359
palm-2-s	Google Research	no				0.820			0.807				0.752		0.779
palm-2-s*	Google Research	no					0.376
palm-2-m	Google Research	no				0.840			0.837				0.817		0.792
palm-2-l	Google Research	no				0.868			0.869				0.861		0.830
palm-2-l-instruct	Google Research	no														0.909
replit-code-v1-3b	Replit	yes					0.219
stablelm-base-alpha-7b	Stability AI	yes			0.412			0.533		0.251		0.049		0.501
stablelm-tuned-alpha-7b	Stability AI	no	858		0.536									0.548
starcoder-base-16b	BigCode	yes					0.304
starcoder-16b	BigCode	是					0.336
vicuna-13b	Lmsys.org	否	1169

基准测试

基准测试名称	作者	链接	描述
Chatbot Arena Elo	LMSYS	https://lmsys.org/blog/2023-05-03-arena/	"在这篇博客文章中，我们介绍了Chatbot Arena，这是一个基于LLM的基准平台，采用匿名随机对战的方式进行群众外包。Chatbot Arena采用了Elo评分系统，这是一种在国际象棋和其他竞技游戏中广泛使用的评分系统。" (来源: https://lmsys.org/blog/2023-05-03-arena/)
HellaSwag	Zellers et al.	https://arxiv.org/abs/1905.07830v1	"HellaSwag是一个用于评估常识性自然语言推理的挑战数据集，这对最先进的模型来说特别困难，但对于人类来说其问题是微不足道的（>95%准确率）。" (来源: https://paperswithcode.com/dataset/hellaswag)
HumanEval	Chen et al.	https://arxiv.org/abs/2107.03374v2	"它用于评估从文档字符串中生成程序的功能正确性。它包含164个原始的编程问题，评估语言理解，算法和简单的数学，其中一些可与简单的软件面试问题相媲美。" (来源: https://paperswithcode.com/dataset/humaneval)
LAMBADA	Paperno et al.	https://arxiv.org/abs/1606.06031	"LAMBADA通过词语预测任务评估计算模型的文本理解能力。LAMBADA是叙述段落的集合，其特点是，如果人类受试者暴露于整个段落，他们可以猜到最后一个词语，但如果他们只看到目标词之前的最后一句话，就不能猜到。要在LAMBADA中取得成功，计算模型不仅不能简单地依赖于局部上下文，而且必须能够跟踪更广泛话语中的信息。" (来源: https://huggingface.co/datasets/lambada)
MMLU	Hendrycks et al.	https://github.com/hendrycks/test	"该基准测试涵盖57个学科，包括STEM、人文科学、社会科学等。其难度从小学水平到高级专业水平不等，并测试世界知识和解决问题的能力。学科范围从传统领域，如数学和历史，到更为专业的领域，如法律和伦理。学科的细粒度和广度使得该基准测试非常适合于识别模型的盲点。" (来源: "https://paperswithcode.com/dataset/mmlu")
TriviaQA	Joshi et al.	https://arxiv.org/abs/1705.03551v2	"我们提出了TriviaQA，这是一个具有挑战性的阅读理解数据集，包含超过65万个问题-答案-证据三元组。TriviaQA包括由冷门爱好者撰写的95K个问题-答案对，以及独立收集的证据文档，平均每个问题有六个，为回答这些问题提供高质量的远程监督。" (来源: https://arxiv.org/abs/1705.03551v2)
WinoGrande	Sakaguchi et al.	https://arxiv.org/abs/1907.10641v2	"一个由44k个[专家制作的代词解析]问题组成的大规模数据集，灵感来源于原始WSC设计，但经过调整以提高数据集的规模和难度。" (来源: https://arxiv.org/abs/1907.10641v2)