bert_uncased_L-2_H-512_A-8

项目介绍：BERT 微型模型集

BERT 微型模型集是一组精简版的 BERT 模型。这些模型在“阅读良好学生更好地学习：预训练紧凑模型的重要性”这篇论文中被引用。它们采用 WordPiece 掩码技术，针对英文语料库进行了预训练。

项目背景

BERT 模型是自然语言处理领域的一个里程碑，其标准的模型架构和训练目标在多种规模的模型中取得了不俗的效果。虽然 BERT-Base 和 BERT-Large 是最为常见的版本，但对于资源有限的计算环境，标准 BERT 的规模过于庞大。因此，BERT 微型模型集应运而生，为这些环境提供了更小、更经济的模型。

这些模型可用于通常的微调任务，与原版 BERT 模型相同，但最有效的使用方法是知识蒸馏。在知识蒸馏过程中，由更大、更准确的“教师”模型生成微调标签，进而更有效地训练这些小模型。

研究目标

该项目的主要目标是支持资源有限的研究机构开展研究，并鼓励社区在不增加模型容量的情况下，寻找创新方向。通过此举，各机构能在成本较低的情况下，利用深度学习的最新成果。

模型及其下载方式

BERT 微型模型集含有 24 个模型，用户可以从 BERT 官方的 GitHub 页面或通过 HuggingFace 网站下载。模型的层数（L）以及隐藏层大小（H）有所不同：

	H=128	H=256	H=512	H=768
L=2	BERT-Tiny	2/256	2/512	2/768
L=4	4/128	BERT-Mini	BERT-Small	4/768
L=6	6/128	6/256	6/512	6/768
L=8	8/128	8/256	BERT-Medium	8/768
L=10	10/128	10/256	10/512	10/768
L=12	12/128	12/256	12/512	BERT-Base

模型性能和测试数据

在通用语言理解评估（GLUE）中的测试集上，这些模型取得了不同的分数，具体如下：

BERT-Tiny: 得分64.2
BERT-Mini: 得分65.8
BERT-Small: 得分71.2
BERT-Medium: 得分73.5

每一个任务都经过选择最优微调超参数，训练 4 个周期，例如：批量大小为8、16、32、64、128，学习率为3e-4、1e-4、5e-5、3e-5。

参考文献

使用这些模型时，请引用以下论文：

Turc, Iulia, Chang, Ming-Wei, Lee, Kenton, & Toutanova, Kristina (2019). Well-Read Students Learn Better: On the Importance of Pre-training Compact Models. arXiv preprint arXiv:1908.08962v2.