项目介绍:luke-japanese-large
luke-japanese-large 是一种预训练的日语语言模型,属于 LUKE(全称为Language Understanding with Knowledge-based Embeddings,即基于知识的嵌入的语言理解)的日语版本。这个模型通过引入知识增强,能够对文本中的单词和实体进行深度的上下文表示,提升自然语言理解能力。
LUKE模型概述
LUKE模型的独特之处在于,它不仅仅将句子中的每个单词看作一个独立的词元(token),同时还将实体(比如“东京塔”或“柴犬”这样的具体名字)视为独立的词元进行处理。这种处理方法使得LUKE能够在输出这些词汇和实体的上下文时更加精准和全面。
luke-japanese-large 这个版本内置了来自维基百科的实体嵌入(embeddings),虽然这些嵌入在一般的自然语言处理任务中并不常用。如果使用不涉及到维基百科实体的任务,建议使用更轻量的 luke-japanese-large-lite 版本。
更多详细信息和最新更新可以在其 GitHub 仓库 中找到。
JGLUE上的实验结果
该模型在日语自然语言处理基准 JGLUE 的开发集上进行了评估,取得了以下优秀的实验结果:
-
MARC-ja(情感分类任务):luke-japanese-large 达到了 96.5% 的准确率(acc),超过了Tohoku BERT large与其他RoBERTa模型。
-
JSTS(文本相似度任务):在皮尔森相关系数(Pearson)和斯皮尔曼等级相关系数(Spearman)上分别取得 93.2% 和 90.2%,领先于其他模型。
-
JNLI(自然语言推理任务):该模型以 92.7% 的准确率表现优异。
-
JCommonsenseQA(常识问答任务):取得了 89.3% 的准确率,虽略逊于 Waseda RoBERTa large(seq128)的表现,但仍旧具备竞争力。
这些基线得分是从JGLUE的文档中获得的。
总结
luke-japanese-large 作为 LUKE 模型的日语版本,以其在实体识别、语义分类以及关系推导等任务上的卓越表现,成为了日语自然语言处理领域的一大重要工具。它不仅在多个任务中展现了极高的准确性,还通过使用实体增强的方法,进一步推动了基于上下文的语言理解能力的发展。