luke-base

LUKE Base 项目介绍

简介

LUKE（Language Understanding with Knowledge-based Embeddings）是一个基于变压器（transformer）的预训练语言模型，专注于深度上下文化的词汇和实体表示。LUKE通过将文本中的词汇和实体视为独立的标记（token），输出其上下文化的表示。这一模型引入了一种实体感知的自注意力机制（entity-aware self-attention），在计算注意力得分时，考虑到了词汇或实体的类型。

技术亮点

LUKE在包括SQuAD v1.1（提取式问答）、CoNLL-2003（命名实体识别）、ReCoRD（填空式问答）、TACRED（关系分类）以及Open Entity（实体分类）在内的五个热门自然语言处理基准上达到了业内领先的水平。其改进的自注意力机制对于这些任务的成功至关重要。

LUKE Base 模型

LUKE Base 模型是这一技术的基础版本，拥有12层隐藏层，隐藏层大小为768，总参数数量达到了2.53亿。模型利用2018年12月版本的维基百科数据进行训练，使得其在处理与知识相关的自然语言处理任务时，表现更为出色。

实验结果

通过实验数据展示，LUKE在多个任务上的表现已经超越了此前的最佳水平：

任务	数据集	指标	LUKE大型模型	LUKE Base	之前的最佳结果
提取式问答	SQuAD v1.1	EM/F1	90.2/95.4	86.1/92.3	89.9/95.1 (Yang et al., 2019)
命名实体识别	CoNLL-2003	F1	94.3	93.3	93.5 (Baevski et al., 2019)
填空式问答	ReCoRD	EM/F1	90.6/91.2	-	83.1/83.7 (Li et al., 2019)
关系分类	TACRED	F1	72.7	-	72.0 (Wang et al., 2020)
精细粒度实体分类	Open Entity	F1	78.2	-	77.6 (Wang et al., 2020)