项目介绍:recipe-nlg-gpt2-train11_15
概述
recipe-nlg-gpt2-train11_15是一个基于GPT-2模型微调而成的项目。GPT-2是OpenAI开发的一种语言生成模型,能够生成具有一定连贯性和语法正确性的文本。此项目特别地针对Recipe-NLG数据集进行了训练,以实现菜谱生成的功能。
模型描述
这个项目目前处于初步测试阶段,模型仅完成了大约0.40个epoch的训练。尽管训练时间较短,但它展示了GPT-2在生成菜谱文本方面的潜力。
预期用途及限制
recipe-nlg-gpt2-train11_15主要用于尝试GPT-2在生成菜谱方面的应用。由于模型训练尚处于初步阶段,因此其生成内容的质量和多样性可能有限,用户需要对此做好心理准备。
训练与评估数据
本项目使用了Recipe-NLG数据集,该数据集是一个专注于菜谱生成的文本数据集。在训练过程中,5% 的数据集被划分出来用于模型评估,以确保模型在未见过的数据上具有一定的生成能力。
训练过程
- 硬件:模型训练在使用RTX 3090显卡的Vast.AI平台上进行。
- 训练时间:总耗时约14个小时。
- 批处理:批次大小为8,且启用了f16混合精度训练以提高效率。
训练的超参数
以下是训练过程中使用的超参数:
- 学习率:5e-05
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 优化器:Adam, 参数为 betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:线性
- 学习率预热步数:200
- 总的训练轮数:0.45
- 混合精度训练:Native AMP
使用的框架版本
为了确保训练过程的顺利执行,使用了以下的软件版本:
- Transformers 4.24.0
- Pytorch 1.13.0
- Datasets 2.6.1
- Tokenizers 0.13.2
通过这次的技术尝试,recipe-nlg-gpt2-train11_15在菜谱生成领域开辟了一条新的可能路径,后续训练的结果和模型细节也值得期待。