CLUE benchmark
datasets, baselines, pre-trained models, corpus and leaderboard
中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。
我们会选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。
Update:
优秀的国产深度学习框架PaddlePaddle中的NLP核心项目:PaddleNLP现以全面支持CLUE基准
CLUE论文被计算语言学国际会议 COLING2020高分录用
中文任务测评基准(CLUE benchmark)-排行榜 Leaderboard
排行榜会定期更新 数据来源: www.CLUEbenchmarks.com 论文
分类任务(v1版本,正式版)
模型 | Score | 参数 | AFQMC | TNEWS' | IFLYTEK' | CMNLI | CLUEWSC2020 | CSL |
---|---|---|---|---|---|---|---|---|
BERT-base | 68.77 | 108M | 73.70 | 56.58 | 60.29 | 79.69 | 62.0 | 80.36 |
BERT-wwm-ext | 68.75 | 108M | 74.07 | 56.84 | 59.43 | 80.42 | 61.1 | 80.63 |
ERNIE-base | 68.55 | 108M | 73.83 | 58.33 | 58.96 | 80.29 | 60.8 | 79.1 |
RoBERTa-large | 71.70 | 334M | 74.02 | 57.86 | 62.55 | 81.70 | 72.7 | 81.36 |
XLNet-mid | 68.58 | 200M | 70.50 | 56.24 | 57.85 | 81.25 | 64.4 | 81.26 |
ALBERT-xxlarge | 71.04 | 235M | 75.6 | 59.46 | 62.89 | 83.14 | 61.54 | 83.63 |
ALBERT-xlarge | 68.92 | 60M | 69.96 | 57.36 | 59.50 | 81.13 | 64.34 | 81.20 |
ALBERT-large | 67.91 | 18M | 74 | 55.16 | 57.00 | 78.77 | 62.24 | 80.30 |
ALBERT-base | 67.44 | 12M | 72.55 | 55.06 | 56.58 | 77.58 | 64.34 | 78.5 |
ALBERT-tiny | 62.61 | 4M | 69.92 | 53.35 | 48.71 | 70.61 | 58.5 | 74.56 |
RoBERTa-wwm-ext | 70.10 | 108M | 74.04 | 56.94 | 60.31 | 80.51 | 67.8 | 81.0 |
RoBERTa-wwm-large | 72.83 | 330M | 76.55 | 58.61 | 62.98 | 82.12 | 74.6 | 82.13 |
注:AFQMC:蚂蚁语义相似度(Acc);TNEWS:文本分类(Acc);IFLYTEK:长文本分类(Acc); CMNLI: 自然语言推理中文版;
COPA: 因果推断; WSC:CLUEWSC2020,即Winograd模式挑战中文版; CSL: 中国科学文献数据集; Score总分是通过计算6个数据集得分平均值获得;
'代表对原数据集使用albert_tiny模型筛选后获得,数据集与原数据集不同,从而可能导致在这些数据集上albert_tiny表现略低.
阅读理解任务
模型 | Score | 参数 | CMRC2018 | CHID | C3 |
---|---|---|---|---|---|
BERT-base | 72.71 | 108M | 71.60 | 82.04 | 64.50 |
BERT-wwm-ext | 75.12 | 108M | 73.95 | 82.90 | 68.50 |
ERNIE-base | 73.69 | 108M | 74.7 | 82.28 | 64.10 |
RoBERTa-large | 76.85 | 334M | 78.50 | 84.50 | 67.55 |
XLNet-mid | 72.70 | 209M | 66.95 | 83.47 | 67.68 |
ALBERT-base | 68.08 | 10M | 72.90 | 71.77 | 59.58 |
ALBERT-large | 71.51 | 16.5M | 75.95 | 74.18 | 64.41 |
ALBERT-xlarge | 75.73 | 57.5M | 76.30 | 80.57 | 70.32 |
ALBERT-xxlarge | 77.19 | 221M | 75.15 | 83.15 | 73.28 |
ALBERT-tiny | 49.05 | 1.8M | 53.35 | 43.53 | 50.26 |
RoBERTa-wwm-ext | 75.11 | 108M | 75.20 | 83.62 | 66.50 |
RoBERTa-wwm-large | 79.05 | 330M | 77.95 | 85.37 | 73.82 |
DRCD、CMRC2018: 繁体、简体抽取式阅读理解(F1, EM);CHID: 成语多分类阅读理解(Acc);C3: 多选中文阅读理解(Acc);Score总分是通过计算3个数据集得分平均值获得。
注:阅读理解上述指标中F1和EM共存的情况下,取EM为最终指标。CMRC2018结果为CLUE专用独立测试集。
一键运行.基线模型与代码 Baseline with codes
使用方式:
1、克隆项目
git clone https://github.com/CLUEbenchmark/CLUE.git
2、进入到相应的目录
分类任务
例如:
cd CLUE/baselines/models/bert
cd CLUE/baselines/models_pytorch/classifier_pytorch
或阅读理解任务:
cd CLUE/baselines/models_pytorch/mrc_pytorch
3、运行对应任务的脚本(GPU方式): 会自动下载模型和任务数据并开始运行。
bash run_classifier_xxx.sh
如运行 bash run_classifier_iflytek.sh 会开始iflytek任务的训练
4、tpu使用方式(可选)
cd CLUE/baselines/models/bert/tpu
bash run_classifier_tnews.sh即可测试tnews任务(注意更换里面的gs路径和tpu ip)。数据和模型会自动下载和上传。
cd CLUE/baselines/models/roberta/tpu
bash run_classifier_tiny.sh即可运行所有分类任务(注意更换里面的路径,模型地址和tpu ip)
生成提交文件
分类任务:
在CLUE/baselines/models/bert目录下执行
bash run_classifier_xxx.sh predict
即可在output_dir下得到相应的提交文件json格式结果xxx_prdict.json
或见代码实现
阅读理解任务:
在CLUE/baselines/models_pytorch/mrc_pytorch目录下执行
test_mrc.py
具体参数和使用方法可见对应的run_mrc_xxx.sh
运行环境
tensorflow 1.12 /cuda 9.0 /cudnn7.0
工具包 Toolkit
运行方式:
pip install PyCLUE
cd PyCLUE/examples/classifications
python3 run_clue_task.py
支持10个任务、9大模型、自定义任务,见 PyCLUE toolkit
测评系统 Leaderboard
测评入口:我要提交
语料库(CLUECorpus2020):语言建模、预训练或生成型任务
Corpus for Langauge Modelling, Pre-training, Generating tasks
可用于语言建模、预训练或生成型任务等,数据量超过14G,近4000个定义良好的txt文件、50亿个字。主要部分来自于nlp_chinese_corpus项目
当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过4M大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。
包含如下子语料库(总共14G语料):
1、新闻语料 news2016zh_corpus: 8G语料,分成两个上下两部分,总共有2000个小文件。
2、社区互动-语料 webText2019zh_corpus:3G语料,包含3G文本,总共有900多个小文件。
3、维基百科-语料 wiki2019zh_corpus:1.1G左右文本,包含300左右小文件。
4、评论数据-语料 comments2019zh_corpus:2.3G左右文本,共784个小文件,包括点评评论547个、亚马逊评论227个,合并ChineseNLPCorpus的多个评论数据,清洗、格式转换、拆分成小文件。
这些语料,你可以通过上面这两个项目,清洗数据并做格式转换获得;
你也可以通过邮件申请(chineseGLUE#163.com)获得单个项目的语料,告知单位或学校、姓名、语料用途;
如需获得ChineseGLUE项目下的所有语料,需成为ChineseGLUE组织成员,并完成一个(小)任务。
CLUE benchmark的定位 Vision
为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过完善中文语言理解基础设施的方式来促进中文语言模型的发展
数据集介绍与下载 Introduction of datasets
1. AFQMC 蚂蚁金融语义相似度 Ant Financial Question Matching Corpus
数据量:训练集(34334)验证集(4316)测试集(3861)
例子:
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,句子相似度标签。其中label标签,1 表示sentence1和sentence2的含义类似,0表示两个句子的含义不同。