OpenCompass简介
OpenCompass是一个一站式的大模型评测平台,旨在为大模型评估提供公平、开放和可复现的基准。它具有以下主要特点:
-
全面支持模型和数据集:预置支持20多个HuggingFace和API模型,70多个数据集包含约40万个问题,从5个维度全面评估模型能力。
-
高效分布式评估:一行命令即可实现任务划分和分布式评估,几小时内即可完成十亿规模模型的全面评估。
-
多样化的评估范式:支持零样本、少样本和思维链评估,结合标准或对话型提示模板,轻松激发各类模型的最佳性能。
-
模块化设计,高度可扩展:想要添加新模型或数据集、自定义高级任务划分策略,甚至支持新的集群管理系统?OpenCompass的一切都可以轻松扩展!
-
实验管理和报告机制:使用配置文件全面记录每次实验,并支持实时报告结果。
快速上手
- 安装OpenCompass:
conda create --name opencompass python=3.10 -y
conda activate opencompass
pip install -U opencompass
- 准备数据集:
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip
- 运行评估:
# 使用命令行
opencompass --models hf_internlm2_5_1_8b_chat --datasets demo_gsm8k_chat_gen
# 或使用Python脚本
opencompass ./configs/eval_chat_demo.py
学习资源
-
官方文档: 全面的使用指南和API文档
-
GitHub仓库: 源代码和示例配置文件
-
模型评测排行榜: 查看各个模型在不同任务上的表现
-
数据集浏览器: 探索可用的评测数据集
-
快速入门教程: 5分钟上手OpenCompass
-
常见问题解答: 解答使用过程中的常见疑问
-
高级指南: 学习如何添加新数据集、自定义模型等高级用法
-
开发者指南: 了解如何为OpenCompass贡献代码
OpenCompass是一个功能强大且灵活的评测工具,可以帮助研究人员和开发者更好地理解和改进大语言模型。无论你是想评估现有模型,还是开发新的评测方法,OpenCompass都能满足你的需求。开始你的OpenCompass之旅吧!