项目介绍:bert-medium-mnli
背景与来源
bert-medium-mnli项目是基于Pytorch的预训练模型。从Tensorflow的检查点转换而来,最初的模型可以在谷歌BERT官方库中找到。这些BERT模型变体在论文《Well-Read Students Learn Better: On the Importance of Pre-training Compact Models》中被首次提出。这些模型专门在MNLI数据集上进行训练。
项目内容
bert-medium-mnli项目中使用的模型是通过对MNLI(多领域语义相似性基准)的训练数据进行四个周期(epoch)的训练来实现的。MNLI中的平均准确率达到了75.86%,而MNLI-mm的数据准确率则达到了77.03%。这些数据表明模型在推理任务中的表现相对优越。
论文引用
如果您在研究或工程中使用了bert-medium-mnli模型,请考虑引用以下论文:
@misc{bhargava2021generalization,
title={Generalization in NLI: Ways (Not) To Go Beyond Simple Heuristics},
author={Prajjwal Bhargava and Aleksandr Drozd and Anna Rogers},
year={2021},
eprint={2110.01518},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
这篇论文讨论了在自然语言推理(NLI)过程中,应该如何不仅仅依靠简单启发式方法来实现模型的泛化。
额外资源
有关此模型的原始实现以及更多信息,请访问这个Github库。此外,可以在推特上关注@prajjwal_1,获取更多关于模型开发者的信息和研究动态。
总结
bert-medium-mnli项目为研究人员和工程师提供了一个在MNLI任务上经过精心打磨的中型BERT模型。其出色的性能使其在各类自然语言处理任务中具有很大的应用潜力。项目体现了预训练紧凑模型的重要性,为业界提供了一种革新的研究思路。通过引用相关研究论文,用户可以深入理解该模型的设计理念和研究背景。