项目介绍:luke-japanese-base-finetuned-jnli
项目概述
该项目的核心是基于luke-japanese-base模型,对其进行微调,使其能够适用于日本国内开发的JNLI(Japanese Natural Language Inference,日语自然语言推理)任务。具体来说,模型使用了Yahoo Japan提供的JGLUE数据集,来完成微调。通过这种调整,该模型能够判断两段日语文本之间的关系,包括矛盾、中立以及蕴含关系。
模型的应用
luke-japanese-base-finetuned-jnli模型的主要用途是进行自然语言推理。它能够分析两段文本,判定它们之间的语义关系是否为矛盾、中立或蕴含。对于日语文本的理解和处理,特别是在需要判断句子间关系的任务中,这一模型表现出色。
模型性能
目前,这个经过微调的模型在精度上达到了89.77%。这一精度显示了该模型在处理日语文本推理任务中的有效性。
使用方法
要使用这个模型进行文本关系判别任务,用户需要安装transformers和sentencepiece两个库。以下是使用示例:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
tokenizer=AutoTokenizer.from_pretrained('Mizuiro-sakura/luke-japanese-base-finetuned-jnli')
model=AutoModelForSequenceClassification.from_pretrained('Mizuiro-sakura/luke-japanese-base-finetuned-jnli')
token=tokenizer.encode('時計がついている場所にパブリックマーケットセンターとかかれた看板が設置されています。', '屋根の上に看板があり時計もついています。')
result=model(torch.tensor(token).unsqueeze(0))
max_index=torch.argmax(result.logits)
if max_index==0:
print('contradiction')
elif max_index==1:
print('neutral')
elif max_index==2:
print('entailment')
LUKE模型简介
LUKE(Language Understanding with Knowledge-based Embeddings)是一种基于Transformer的新型预训练模型,能够对文字和实体进行上下文化表示。LUKE将文本中的单词和实体视为独立的token,并通过实体感知的自注意力机制对其进行表示。它在多个NLP基准测试中表现卓越,如SQuAD、CoNLL-2003、ReCoRD等。
luke-japanese是LUKE模型的日语版本,能够将单词和实体处理为独立的token,并考虑到其上下文进行表述。
致谢
特别感谢LUKE的开发者山田先生以及Studio ousia对该项目的贡献与支持。