bert_uncased_L-8_H-256_A-4

项目介绍：bert_uncased_L-8_H-256_A-4

背景介绍

BERT Miniatures项目是由24个BERT模型组成的套件，这些模型在Well-Read Students Learn Better: On the Importance of Pre-training Compact Models一文中被首次提出。BERT（全称是Bidirectional Encoder Representations from Transformers）是一个强大的自然语言处理模型，该项目的主要目标是证明标准的BERT训练方法对于不同大小的模型同样有效，而不仅限于BERT-Base和BERT-Large。

模型特性

这个项目特别为有限计算资源的环境而设计，旨在为计算资源较少的研究机构提供便利。与初始的BERT模型一样，这些较小的BERT模型也可以通过微调进行训练。不过，它们在知识蒸馏的上下文中效果更佳，即从一个更大更准确的“老师”模型生成微调标签。在这次介绍中，我们将以bert_uncased_L-8_H-256_A-4为重点，它属于L=8层、H=256隐藏单元的设置。

模型下载

这套模型可以从官方BERT GitHub页面或者通过HuggingFace平台下载。需要注意的是，无论是何种版本，所有模型均通过相同的训练策略进行再训练。

性能表现

在GLUE测试集中的性能表现上，bert_uncased_L-8_H-256_A-4展现了良好的效果。以下是BERT系列模型的一些测试结果：

模型	得分	CoLA	SST-2	MRPC	STS-B	QQP	MNLI-m	MNLI-mm	QNLI(v2)	RTE	WNLI	AX
BERT-Tiny	64.2	0.0	83.2	81.1/71.1	74.3/73.6	62.2/83.4	70.2	70.3	81.5	57.2	62.3	21.0
BERT-Mini	65.8	0.0	85.9	81.1/71.8	75.4/73.3	66.4/86.2	74.8	74.3	84.1	57.9	62.3	26.1
BERT-Small	71.2	27.8	89.7	83.4/76.2	78.8/77.0	68.1/87.0	77.6	77.0	86.4	61.8	62.3	28.6
BERT-Medium	73.5	38.0	89.6	86.6/81.6	80.4/78.4	69.6/87.9	80.0	79.1	87.7	62.2	62.3	30.5

训练参数

在模型训练中，每个任务均选择最佳的微调超参数，并训练4个epoch。可选的批处理大小包括8, 16, 32, 64, 128，学习率则有3e-4, 1e-4, 5e-5, 3e-5。

结论

BERT Miniatures项目的推出，旨在推动有限资源研究机构的研究发展，同时激励自然语言处理社区在模型能力以外的方向上寻求创新。对于该项目有兴趣的学者，可以参考文中的链接下载相应模型以便进一步的研究探索。在使用这些模型时，请引用如下文献：

@article{turc2019,
  title={Well-Read Students Learn Better: On the Importance of Pre-training Compact Models},
  author={Turc, Iulia and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina},
  journal={arXiv preprint arXiv:1908.08962v2 },
  year={2019}
}