项目介绍
LLM-Leaderboard 是一个由社区共同努力创建的,用于语言模型(LLMs)的集中排行榜。其目标是提供一个统一的展示平台,方便用户查看和比较各种语言模型的性能表现。此项目鼓励社区成员积极贡献和纠正信息,以确保数据的准确性和完整性。
互动仪表盘
项目提供了一个互动仪表盘,用户可以通过以下链接访问:
排行榜
LLM-Leaderboard 的核心部分是其排行榜,展示了多个语言模型的详细信息和性能指标。这包括模型的名称、发布者、是否为开放模型、在 Chatbot Arena Elo 等各类基准测试中的成绩。这些信息不仅帮助用户了解模型的基本属性,也为选择适合自己需求的模型提供了数据支持。
基准测试
排行榜中的模型性能通过多个基准测试进行评估,包括:
- Chatbot Arena Elo:采用广泛用于国际象棋和其他竞争游戏中的 Elo 评级系统,评估聊天机器人的表现。
- HellaSwag:专注于评估常识性自然语言推理的挑战性数据集。
- HumanEval:测量合成程序的功能正确性,包含一组编程问题。
- LAMBADA:通过文本理解能力测试语言模型的预测能力。
- MMLU:考察模型在STEM、人文学科和社会科学等57个学科中的知识及问题解决能力。
- TriviaQA:包含大量问答数据,用于阅读理解测试。
- WinoGrande:灵感来自WSC设计的大规模专家构建的代词解决问题数据集。
如何贡献
项目鼓励社区成员参与贡献,可以通过以下方式:
-
表格工作:
- 补充缺失的条目
- 在排行榜中以字母顺序添加新模型或新基准测试
-
代码工作:
- 改善现有代码
- 请求和实现新功能
未来计划
项目计划在未来添加更多模型的详细信息,例如模型年份、参数数量、训练时见过的词元数量、上下文窗口长度、架构类型等。
更多开放的 LLMs
对于希望了解能够用于商业用途和微调的开放语言模型的用户,可以查阅 open-llms 的仓库。
来源
排行榜中的数据来源于各模型作者的论文和发布结果。每个数据值都提供了来源链接,项目特别感谢 MosaicML、lmsys.org、Papers With Code 等网站提供的性能数据。
免责声明
以上信息可能会有误。如计划将某个发布的模型用于商业使用,请咨询法律专业人士获得法律意见。