项目介绍:gpt2-arxiv
gpt2-arxiv是一个基于GPT-2模型的预测键盘(predictive keyboard),专门训练用于生成和理解科学文献内容。该模型使用来自ArXiv的约160万篇手稿摘要数据进行训练,并且采用Kaggle上发布的Cornell大学的数据集。其目的是通过文本生成技术辅助科研工作者探索科学研究领域中的文章撰写和内容推荐。
模型描述
gpt2-arxiv基于GPT-2架构,该架构包括一个由12层组成的模型,每一层具有768个隐层单元和12个注意头,总参数量达到1.17亿。GPT-2是一个强大的文本生成模型,能够在输入文本的基础上直接生成新的文本内容。
预期用途与限制
gpt2-arxiv模型主要应用在以下两个方面:
- 预测键盘:可以根据输入的部分文本进行续写,从而帮助用户快速生成完整的文本。
- 实时参考推荐:通过计算嵌入的最近邻来进行推荐,为用户提供相关的科学文献参考。
尽管该模型功能强大,但在生成大段文本时需谨慎。模型有时可能会生成不准确或虚构的信息,例如编造行星表面特征等。
训练过程
gpt2-arxiv的训练过程大约持续49小时,使用了1.25M次迭代。训练是在一块3090显卡上完成的。以下为该模型在训练时使用的超参数:
- 学习率为5e-05
- 训练批次大小为16
- 评估批次大小为4
- 随机种子为42
- 优化器使用Adam,参数betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型为线性
- 训练了10个周期
框架版本
gpt2-arxiv模型的开发和训练使用了以下软件框架版本:
- Transformers 4.25.1
- Pytorch 1.13.1
- Tokenizers 0.13.2
通过这些技术和工具,gpt2-arxiv成功实现了从大规模科学文本数据中学习,能够帮助科研人员进行高效的文本创作与研究文献管理。