🏆 LLM排行榜
一个联合社区的努力,创建一个为LLM提供的中心排行榜。欢迎贡献和纠正!
我们将能够本地部署并用于商业目的的模型视为“开放”模型。
交互式仪表盘
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
排行榜
<SOURCE_TEXT>
基准测试
基准测试名称 | 作者 | 链接 | 描述 |
---|---|---|---|
Chatbot Arena Elo | LMSYS | https://lmsys.org/blog/2023-05-03-arena/ | "在这篇博客文章中,我们介绍了Chatbot Arena,这是一个基于LLM的基准平台,采用匿名随机对战的方式进行群众外包。Chatbot Arena采用了Elo评分系统,这是一种在国际象棋和其他竞技游戏中广泛使用的评分系统。" (来源: https://lmsys.org/blog/2023-05-03-arena/) |
HellaSwag | Zellers et al. | https://arxiv.org/abs/1905.07830v1 | "HellaSwag是一个用于评估常识性自然语言推理的挑战数据集,这对最先进的模型来说特别困难,但对于人类来说其问题是微不足道的(>95%准确率)。" (来源: https://paperswithcode.com/dataset/hellaswag) |
HumanEval | Chen et al. | https://arxiv.org/abs/2107.03374v2 | "它用于评估从文档字符串中生成程序的功能正确性。它包含164个原始的编程问题,评估语言理解,算法和简单的数学,其中一些可与简单的软件面试问题相媲美。" (来源: https://paperswithcode.com/dataset/humaneval) |
LAMBADA | Paperno et al. | https://arxiv.org/abs/1606.06031 | "LAMBADA通过词语预测任务评估计算模型的文本理解能力。LAMBADA是叙述段落的集合,其特点是,如果人类受试者暴露于整个段落,他们可以猜到最后一个词语,但如果他们只看到目标词之前的最后一句话,就不能猜到。要在LAMBADA中取得成功,计算模型不仅不能简单地依赖于局部上下文,而且必须能够跟踪更广泛话语中的信息。" (来源: https://huggingface.co/datasets/lambada) |
MMLU | Hendrycks et al. | https://github.com/hendrycks/test | "该基准测试涵盖57个学科,包括STEM、人文科学、社会科学等。其难度从小学水平到高级专业水平不等,并测试世界知识和解决问题的能力。学科范围从传统领域,如数学和历史,到更为专业的领域,如法律和伦理。学科的细粒度和广度使得该基准测试非常适合于识别模型的盲点。" (来源: "https://paperswithcode.com/dataset/mmlu") |
TriviaQA | Joshi et al. | https://arxiv.org/abs/1705.03551v2 | "我们提出了TriviaQA,这是一个具有挑战性的阅读理解数据集,包含超过65万个问题-答案-证据三元组。TriviaQA包括由冷门爱好者撰写的95K个问题-答案对,以及独立收集的证据文档,平均每个问题有六个,为回答这些问题提供高质量的远程监督。" (来源: https://arxiv.org/abs/1705.03551v2) |
WinoGrande | Sakaguchi et al. | https://arxiv.org/abs/1907.10641v2 | "一个由44k个[专家制作的代词解析]问题组成的大规模数据集,灵感来源于原始WSC设计,但经过调整以提高数据集的规模和难度。" (来源: https://arxiv.org/abs/1907.10641v2) |
如何贡献
我们一直欢迎贡献!您可以通过以下方式进行贡献:
- 表格工作(不要忘记链接):
- 填写缺失条目
- 将新模型作为新行添加到排行榜中。请保持字母顺序。
- 在排行榜中作为新列添加新的基准测试,并将基准测试添加到基准测试表中。请保持字母顺序。
- 代码工作:
- 改进现有代码
- 请求并实现新功能
未来的想法
- (待定)添加模型年份
- (待定)添加模型详细信息:
- 参数数量
- 训练期间看到的标记数量
- 上下文窗口长度
- 架构类型(transformer-decoder,transformer-encoder,transformer-encoder-decoder,……)
更多开放LLM
如果您对商业使用和微调的开放LLMs概览感兴趣,请查看open-llms库。
来源
该排行榜的结果是从个别论文和模型作者发布的结果中收集的。对于每个报告值,来源作为链接添加。
特别感谢以下页面:
- MosaicML - Model benchmarks
- lmsys.org - Chatbot Arena benchmarks
- Papers With Code
- Stanford HELM
- HF Open LLM Leaderboard
免责声明
上述信息可能有误。如果您希望将发布的模型用于商业用途,请联系律师。