Project Icon

llm-leaderboard

为LLM模型提供的全球性能排行榜

由社区合力打造的LLM模型排行榜,提供交互式仪表板和丰富的性能比较。用户可查看各模型在Chatbot Arena Elo、HellaSwag、HumanEval-Python、LAMBADA等指标上的表现。项目特别关注开源模型的本地部署和商业应用,欢迎各类贡献和修改。

项目介绍

LLM-Leaderboard 是一个由社区共同努力创建的,用于语言模型(LLMs)的集中排行榜。其目标是提供一个统一的展示平台,方便用户查看和比较各种语言模型的性能表现。此项目鼓励社区成员积极贡献和纠正信息,以确保数据的准确性和完整性。

互动仪表盘

项目提供了一个互动仪表盘,用户可以通过以下链接访问:

排行榜

LLM-Leaderboard 的核心部分是其排行榜,展示了多个语言模型的详细信息和性能指标。这包括模型的名称、发布者、是否为开放模型、在 Chatbot Arena Elo 等各类基准测试中的成绩。这些信息不仅帮助用户了解模型的基本属性,也为选择适合自己需求的模型提供了数据支持。

基准测试

排行榜中的模型性能通过多个基准测试进行评估,包括:

  • Chatbot Arena Elo:采用广泛用于国际象棋和其他竞争游戏中的 Elo 评级系统,评估聊天机器人的表现。
  • HellaSwag:专注于评估常识性自然语言推理的挑战性数据集。
  • HumanEval:测量合成程序的功能正确性,包含一组编程问题。
  • LAMBADA:通过文本理解能力测试语言模型的预测能力。
  • MMLU:考察模型在STEM、人文学科和社会科学等57个学科中的知识及问题解决能力。
  • TriviaQA:包含大量问答数据,用于阅读理解测试。
  • WinoGrande:灵感来自WSC设计的大规模专家构建的代词解决问题数据集。

如何贡献

项目鼓励社区成员参与贡献,可以通过以下方式:

  • 表格工作

    • 补充缺失的条目
    • 在排行榜中以字母顺序添加新模型或新基准测试
  • 代码工作

    • 改善现有代码
    • 请求和实现新功能

未来计划

项目计划在未来添加更多模型的详细信息,例如模型年份、参数数量、训练时见过的词元数量、上下文窗口长度、架构类型等。

更多开放的 LLMs

对于希望了解能够用于商业用途和微调的开放语言模型的用户,可以查阅 open-llms 的仓库。

来源

排行榜中的数据来源于各模型作者的论文和发布结果。每个数据值都提供了来源链接,项目特别感谢 MosaicML、lmsys.org、Papers With Code 等网站提供的性能数据。

免责声明

以上信息可能会有误。如计划将某个发布的模型用于商业使用,请咨询法律专业人士获得法律意见。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号