项目介绍:T5-base-summarization-claim-extractor
模型简介
模型名称: T5-base-summarization-claim-extractor
作者: Alessandro Scirè, Karim Ghonim 和 Roberto Navigli
语言: 英语
主要用途: 从总结中提取基本主张
项目概述
T5-base-summarization-claim-extractor 是一个用于从总结中提取基本主张的模型。该模型基于 T5 架构,并针对主张提取功能进行了特定的微调。这一模型作为研究的一部分被引入,该研究发表在论文《FENICE: 基于自然语言推理和主张提取的总结事实性评估》中。FENICE 通过自然语言推理(NLI)和主张提取来评估总结的真实性。
预期用途
此模型的设计目的包括:
- 从总结中提取基本主张。
- 作为用于评估总结真实性的管道组件。
示例代码
from transformers import T5ForConditionalGeneration, T5Tokenizer
tokenizer = T5Tokenizer.from_pretrained("Babelscape/t5-base-summarization-claim-extractor")
model = T5ForConditionalGeneration.from_pretrained("Babelscape/t5-base-summarization-claim-extractor")
summary = 'Simone Biles made a triumphant return to the Olympic stage at the Paris 2024 Games, competing in the women’s gymnastics qualifications. Overcoming a previous struggle with the “twisties” that led to her withdrawal from events at the Tokyo 2020 Olympics, Biles dazzled with strong performances on all apparatus, helping the U.S. team secure a commanding lead in the qualifications. Her routines showcased her resilience and skill, drawing enthusiastic support from a star-studded audience'
tok_input = tokenizer.batch_encode_plus([summary], return_tensors="pt", padding=True)
claims = model.generate(**tok_input)
claims = tokenizer.batch_decode(claims, skip_special_tokens=True)
注意:模型将主张输出为单个字符串。请务必将字符串拆分成句子以获取单个主张。
训练过程
关于训练过程的详细信息,请查阅我们的论文(第4.1节)。
性能表现
模型 | 精度 (easinessP) | 召回率 (easinessR) | F1 分数 (easinessF1) |
---|---|---|---|
GPT-3.5 | 80.1 | 70.9 | 74.9 |
t5-base-summarization-claim-extractor | 79.2 | 68.8 | 73.4 |
表 1: 基于 LLM 的主张提取器(即 GPT-3.5 和 t5-base-summarization-claim-extractor)在 ROSE (Liu et al., 2023b) 上的精度、召回率和 F1 分数结果。
关于模型的进一步性能细节和使用的指标可以在论文(第4.1节)中找到。
主库
有关 FENICE 的更多详细信息,请查看 GitHub库:Babelscape/FENICE。
引用
如果在您的工作中使用此模型,请引用以下论文:
@inproceedings{scire-etal-2024-fenice,
title = "{FENICE}: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction",
author = "Scir{\`e}, Alessandro and Ghonim, Karim and Navigli, Roberto",
editor = "Ku, Lun-Wei and Martins, Andre and Srikumar, Vivek",
booktitle = "Findings of the Association for Computational Linguistics ACL 2024",
month = aug,
year = "2024",
address = "Bangkok, Thailand and virtual meeting",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.findings-acl.841",
pages = "14148--14161",
}
限制
- 该模型专门为从总结中提取主张而设计,可能在其他类型的文本上表现不佳。
- 该模型目前仅支持英语,可能无法很好地泛化到其他语言。
伦理考虑
用户应意识到,尽管此模型可提取可用于真实性评估的主张,但它不确定这些主张的真实性。因此,在评估总结的可靠性时,应结合其他工具或人工判断进行使用。
致谢
此工作得以实现得益于 Babelscape 和 Sapienza NLP 的支持。