Project Icon

chinese-llm-benchmark

中文大模型性能基准测试与排行榜

项目持续更新,目前已评测113个中文大模型,包括GPT-4、文心一言、通义千问等商用模型和百川、Qwen、GLM等开源模型。评测维度全面,涵盖分类、信息抽取、阅读理解、数据分析、中文编码效率等。提供综合能力和细分能力排行榜,并开放原始评测数据。为选择和研究中文大模型提供客观依据。

CLiB中文大模型能力评测榜单(持续更新)

  • 目前已囊括113个大模型,覆盖chatgpt、gpt4、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型, 以及百川、qwen2、glm4、openbuddy、AquilaChat、书生internLM2、llama3等开源大模型。
  • 模型来源涉及国内外大厂、大模型创业公司、高校研究机构。
  • 支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、数据分析能力、中文编码效率、中文指令遵从。
  • 不仅提供能力评分排行榜,也提供所有模型的原始输出结果!有兴趣的朋友可以自己打分、自己排行!

目录

最近更新

  • [2024/8/7] 发布v2.0版本评测榜单

    • 中文指令遵从、算术运算计入总分,作为综合能力排行依据
    • 新增7个大模型:qwen2-1.5b-instruct、qwen2-0.5b-instruct、qwen2-57b-a14b-instruct、internlm2-chat-1_8b、internlm2_5-7b-chat、gemma-2-9b-it、DeepSeek-V2-Lite-Chat
    • 删除陈旧的模型:aquilachat2-34b、AquilaChat2-70B-Expr、BlueLM-7B-Chat、openbuddy-deepseek-67b、openbuddy-mixtral-7bx8、tigerbot-13b-chat-v4、Yi-34B-Chat
  • [2024/7/26] 发布v1.21版本评测榜单

    • 新增8个大模型:gpt-4o-mini、讯飞4.0Ultra、ERNIE-3.5-8K、ERNIE-4.0-Turbo-8K、ERNIE-Speed-8K、Doubao-lite-32k、Doubao-pro-32k、qwen-turbo
    • 删除陈旧的模型:baichuan3、minimax-abab6-chat、tigerbot-70b-chat-v3、openbuddy-zephyr-7b、Yi-6B-Chat、chatglm3-6b、Llama-2-70b-chat、 miniCPM-2B-sft、openbuddy-mistral-7b
  • [2024/7/15] 发布v1.20版本评测榜单

    • 新增10个大模型:gpt-4o、yi-spark、qwen-plus、qwen-long、GLM-4-AirX、GLM-4-Air、GLM-4-Flash、Baichuan4、Baichuan3-Turbo、SenseChat-Turbo
    • 更新模型:商汤senseChat
    • 删除陈旧的模型:谷歌bard、openbuddy-llama2-70b、XVERSE-65B-Chat、微软new-bing、BELLE-Llama2-13B-chat-0.4M、讯飞星火v2.0、chatglm-std、chatglm-pro、chatglm-turbo、字节跳动豆包
  • [2024/6/29] 发布v1.19版本评测榜单

    • 新增数学基础(算术)能力排行榜
    • 新增5个大模型:Qwen2-7B-Instruct、Qwen2-72B-Instruct 、glm-4-9b-chat、Yi-1.5-9B-Chat、Yi-1.5-34B-Chat
    • 排行榜删除陈旧的模型
  • [2024/6/2] 发布v1.18版本评测榜单

    • 新增6个大模型:abab6.5-chat、abab6.5s-chat、deepseek-chat-v2、yi-large、yi-large-turbo、yi-medium
    • 中文指令遵从排行榜补充更多模型
    • 排行榜删除陈旧的模型
  • [2024/5/8] 发布v1.17版本评测榜单

    • 新增中文指令遵从排行榜
    • 新增4个大模型:Llama-3-8B-Instruct、Llama-3-70B-Instruct、openbuddy-llama3-8b、Phi-3-mini-128k-instruct
  • [2024/4/13] 发布v1.16版本评测榜单

    • 新增中文编码效率排行榜,同等尺寸大模型,编码效率越高推理速度越快,几乎成正比。
    • 模型更新:minimax更新至minimax-abab6-chat
    • 新增3个大模型:Qwen1.5-32B-Chat、minimax-abab5.5-chat、minimax-abab5.5s-chat
  • [2024/3/20] 发布v1.15版本评测榜单

    • 模型更新:gpt3.5更新至最新版本
    • 新增8个大模型:gpt-4-turbo、讯飞星火v3.5、MiniCPM-2B-dpo、miniCPM-2B-sft、AquilaChat2-70B-Expr、月之暗面kimichat、谷歌gemma-7b-it、谷歌gemma-2b-it
    • 排行榜删除陈旧的模型(比如Baichuan2-53B、chatglm-130b-v1、tulu-30b、belle-llama-13b-2m、belle-llama-13b-ext、openbuddy-llama-30b-v7.1、vicuna-33b等)
  • [2024/2/28] 发布v1.14版本评测榜单

    • 新增11个大模型:deepseek-llm-67b-chat、baichuan3、internlm2-chat-20b、internlm2-chat-7b、openbuddy-mixtral-7bx8-v17.1以及qwen1.5系列的6个模型
    • 排行榜删除陈旧的模型(比如chatglm2-6b、AquilaChat-7B等)
  • [2024/1/29] 发布v1.13版本评测榜单

    • 模型更新:微软new-bing、文心4.0更新至24年1月版本
    • 新增6个大模型:qwen-max、GLM4、BlueLM-7B-Chat、openbuddy-zephyr-7b-v14.1、openbuddy-deepseek-67b-v15.2、XVERSE-65B-Chat
    • 排行榜删除陈旧的模型(比如phoenix-inst-chat-7b、BELLE-on-Open-Datasets等)
  • [2023/12/10] 发布v1.12版本评测榜单

    • 新增7个大模型:Yi-34B-Chat、tigerbot-13b-chat-v4、openbuddy-openllama-3b-v10、Qwen-1_8B-Chat、Yi-6B-Chat、Qwen-72B-Chat、chatglm-turbo
    • 新增开源模型细分排行榜:10B以下模型排行榜、10B~20B模型排行榜、20B以上模型排行榜
  • [2023/11/22] 发布v1.11版本评测榜单

    • 新增4个大模型:openbuddy-mistral-7b-v13.1、Qwen-7B-Chat、Baichuan2-7B-Chat、tigerbot-70b-chat-v3
    • 将数据分析能力计入综合得分
  • [2023/11/5] 发布v1.10版本评测榜单

    • 新增6个大模型:
      • 3个商用模型:文心4.0、谷歌bard、讯飞星火v3
      • 3个开源模型:aquilachat2-34b、ziya2-13b-chat、chatglm3-6b
    • 排行榜删除陈旧的模型(比如第一代chatglm-6b、MOSS等)
  • [2023/10/11] 发布v1.9版本评测榜单

    • 新增7个大模型:
      • 3个商用模型:阿里通义千问v1.0.7、豆包、Baichuan2-53B
      • 4个开源模型:Baichuan2-13B-Chat、internlm-chat-20b、qwen-14b-chat、tigerbot-70b-chat-v2
  • [2023/9/13] 发布v1.8版本评测榜单

    • 新增7个大模型:
      • 2个商用模型:chatglm-std、chatglm-pro
      • 5个开源模型:openbuddy-llama-30b-v7.1、openbuddy-llama-65b-v8、openbuddy-llama2-70b-v10.1、xverse-13b-chat、Baichuan-13B-Chat-v2
  • [2023/8/29] 发布v1.7版本评测榜单

    • 新增2个商用大模型:讯飞星火v2.0、Baichuan-53B
    • 表格问答(数据分析)能力排行榜:新增21个模型参与排行。
  • [2023/8/13] 发布v1.6版本评测榜单,link

    • 新增4个大模型:
      • 2个商用模型:商汤senseChat、微软new-bing
      • 2个基于LLaMA2的开源中文模型:BELLE-Llama2-13B-chat-0.4M、Linly-Chinese-LLaMA2-13B
  • [2023/7/26] 发布v1.5版本评测榜单,link

    • 新增7个大模型:gpt4、文心一言v2.2、vicuna-33b、wizardlm-13b、Ziya-LLaMA-13B-v1.1、InternLM-Chat-7B、Llama-2-70b-chat
  • [2023/7/18] 发布v1.4版本评测榜单,link

    • 新增3个大模型:tulu-30b、chatglm2-6b、Baichuan-13B-Chat
  • [2023/7/2] 发布v1.3版本评测榜单,link

    • 新增3个大模型:360智脑、MOSS-003-SFT、AquilaChat-7B
    • 讯飞星火更新为最新的v1.5模型
  • [2023/6/17] 发布v1.2版本评测榜单,link

    • 新增2个大模型:tigetbot-7b官网、linly-chatflow-13b
    • 说明做评测榜单的初衷
  • [2023/6/10] 发布v1.1版本评测榜单,link

    • 新增3个大模型:minimax、guanaco、Phoenix-7b
    • 新增表格问答评测维度,作为阅读理解能力的细分项
  • [2023/6/4] 发布v1版本评测榜单,link

TODO

  • 将更多大模型加入评测:Claude、gemini等等
  • 增加开源大模型的授权协议,注明能否商用
  • 引入更多维度的评测:数学能力、代码能力、开放域问答、多轮对话、头脑风暴、翻译……
  • 评测维度更细分,比如信息抽取可以细分时间实体抽取能力、地址实体抽取能力……
  • 海纳百川,整合各类评测榜单,扩充细分领域榜单(比如教育领域、医疗领域)
  • 加入更多评测数据,使得评测得分越来越有说服力

大模型基本信息

价格单位:元/1m tokens,即元每百万token

类别大模型价格/下载机构
商用qwen-long输入:0.5元,输出: 2元阿里
商用qwen-turbo输入:2元,输出:6元阿里
商用qwen-plus输入:4元,输出:12元
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号