pegasus-multi_news

pegasus-multi_news项目介绍

项目背景

pegasus-multi_news项目是基于Pegasus模型的文本摘要工具，由Jingqing Zhang、Yao Zhao、Mohammad Saleh和Peter J. Liu于2019年12月18日提出，并由@sshleifer进行维护。Pegasus模型旨在通过抽象语句进行预训练，以在文本摘要任务上提高效果。

Pegasus模型概述

Pegasus是一个专为文本摘要任务设计的深度学习模型，它在训练时通过提取重要的缺失句子进行预训练。这种方法使模型能够更好地概括和总结长篇文章中的关键信息。Pegasus原始代码基于TensorFlow 1，可以通过此链接查看。

训练数据集与方法

项目中特别采用了两大数据集：C4和HugeNews。在训练过程中，Pegasus模型不仅结合了这两者的数据，而且还引入了混合和随机抽样的方法。在训练时，模型随机选择15%到45%比例的缺失句子，并以20%的均匀噪声对重要句子进行采样。同时，模型的tokenizer（分词器）也被更新以支持换行符的编码。

所有实验数据都展示了"混合和随机"方式与单独使用C4或HugeNews数据集进行训练的效果对比。

实验结果

Pegasus针对多种数据集进行了测试，包括xsum、cnn_dailymail、newsroom等。总体来说，"混合和随机"模型在大多数数据集上的表现更为突出。例如，在xsum数据集上，"混合和随机"模型的ROUGE评分为47.60/24.83/39.64，相较于仅使用C4的45.20/22.06/36.99有了显著提升。

重要更新

由于tokenizer的更新，其中两个数据集wikihow和big_patent结果的可比性有所变化：

wikihow数据集现在包含了换行符，便于段落分割，而C4和HugeNews模型的tokenizer原本无法处理换行符。
修改后的BigPatent数据集保留了大小写，并进行了格式清理。

参考文献

如果需要引用本项目，请使用以下文献：

@misc{zhang2019pegasus,
    title={PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization},
    author={Jingqing Zhang and Yao Zhao and Mohammad Saleh and Peter J. Liu},
    year={2019},
    eprint={1912.08777},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

项目Pegasus通过其创新的训练方式和良好的实验表现，为文本摘要领域提供了一种高效的解决方案，对于需要从大量文本中提取关键信息的应用具有极高的价值。