#Pegasus
pegasus-cnn_dailymail - 突破性混合训练文本摘要模型在新闻数据集实现44.16% ROUGE-1评分
模型训练自然语言处理开源项目模型Github机器学习Huggingface文本摘要Pegasus
Pegasus是一个在C4和HugeNews混合数据集上训练的文本摘要模型。它采用15%-45%的动态间隔句子比率和20%的均匀噪声采样技术,经过150万步训练后在CNN/DailyMail数据集上实现了44.16%的ROUGE-1评分。该模型的随机采样和混合训练策略显著提升了文本摘要性能,为自动摘要技术带来了新的进展。
pegasus-large - 解析Pegasus模型的混合与随机检查点方法
摘要生成C4HugeNewsPegasus混合随机模型Github开源项目Huggingface
Pegasus模型利用C4和HugeNews数据集,通过混合与随机采样策略提高文本摘要的质量。该模型经过1.5M步长训练,优化了摘要的流畅性和准确性,适用于多种大型数据集。
pegasus-multi_news - 优化文本摘要生成:采用混合数据集和随机抽样
模型训练开源项目模型抽象总结Pegasus混合和随机检查点Huggingface重要句Github
该项目旨在提高文本摘要生成性能,通过混合C4和HugeNews数据集,以及随机抽样技术进行更有效的模型训练。训练过程中使用1.5M步数以增强预训练收敛性,均匀抽样15%到45%间的句间间隔,同时对重要句子施加20%随机扰动。更新后的sentencepiece tokenizer支持换行符编码,提升数据处理精度,展现了多领域数据集上的性能改进。