pegasus-large

Pegasus-large项目介绍

项目概述

Pegasus-large是一个由Jingqing Zhang、Yao Zhao、Mohammad Saleh和Peter J. Liu于2019年12月18日发表的项目，专注于文本摘要任务。它旨在通过对大规模文本进行预训练和重要句子的提取，实现对文本的抽象性摘要。该项目的原始代码可以在Google Research的GitHub上找到，而项目的详细文档可参考Hugging Face的文档。

Pegasus模型的特点

Pegasus-large项目引入了“混合与随机”的检查点训练策略，利用C4和HugeNews这两个数据集进行模型训练，并在训练中随机抽取重要句子。相比于传统的方法，这种策略在多个数据集上的摘要效果都有显著提升。下表展示了该模型在不同数据集上的表现：

数据集	C4	HugeNews	混合与随机
xsum	45.20/22.06/36.99	47.21/24.56/39.25	47.60/24.83/39.64
cnn_dailymail	43.90/21.20/40.76	44.17/21.47/41.11	44.16/21.56/41.30
newsroom	45.07/33.39/41.28	45.15/33.51/41.33	45.98/34.20/42.18
multi_news	46.74/17.95/24.26	47.52/18.72/24.91	47.65/18.75/24.95
gigaword	38.75/19.96/36.14	39.12/19.86/36.24	39.65/20.47/36.76
wikihow	43.07/19.70/34.79	41.35/18.51/33.42	46.39/22.12/38.41 *
reddit_tifu	26.54/8.94/21.64	26.63/9.01/21.60	27.99/9.81/22.94
big_patent	53.63/33.16/42.25	53.41/32.89/42.07	52.29/33.08/41.66 *
arxiv	44.70/17.27/25.80	44.67/17.18/25.73	44.21/16.95/25.67
pubmed	45.49/19.90/27.69	45.09/19.56/27.42	45.97/20.15/28.25
aeslc	37.69/21.85/36.84	37.40/21.22/36.45	37.68/21.25/36.51
billsum	57.20/39.56/45.80	57.31/40.19/45.82	59.67/41.58/47.59

训练策略

数据集使用：模型在C4和HugeNews两个数据集上进行训练，数据集的混合比例根据样本数量进行加权。
训练时间：相比普通的500k步，模型进行了1.5M步的训练以获得更好的预训练效果。
句间隙比例：模型在训练时统一随机选择15%到45%的句间隙比例。
重要句子的选择：在重要性评分上应用了20%的均匀噪声来采样重要句子。
分词器的更新：为了更好地处理段落信息，更新后的分词器能够对换行符进行编码。

特殊说明

部分数据集（如wikihow和big_patent）的结果由于分词方式和数据处理的改变，不完全可比。wikihow数据集中含有对段落分隔很重要的换行符，而模型在旧版中缺乏编解码能力，big_patent数据集则对大小写进行了保留并做了一些格式清理。

引用

如果对Pegasus-large项目相关研究感兴趣，可以参考以下论文：

@misc{zhang2019pegasus,
    title={PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization},
    author={Jingqing Zhang and Yao Zhao and Mohammad Saleh and Peter J. Liu},
    year={2019},
    eprint={1912.08777},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

该项目体现了文本摘要领域的前沿技术，通过创新性的训练策略和数据集应用，为各类文本摘要任务提供了更为高效和准确的解决方案。