热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#NanoGPT
modded-nanogpt - 基于PyTorch的高效GPT-2训练器变体
NanoGPT
PyTorch
GPT-2
训练效率
模型优化
Github
开源项目
Modded-NanoGPT是一个基于Andrej Karpathy的llm.c项目的GPT-2训练器变体。该项目通过引入旋转嵌入等现代技术,将训练效率提高一倍,仅需5B tokens即可达到与原版相同的验证损失。代码简化至446行,实现了124M参数的transformer模型。在Fineweb验证集上,模型达到3.2818的验证损失。通过架构调整和超参数优化,该项目在保持性能的同时显著提升了训练速度。
1
1
相关文章
modded-nanogpt: 高效训练GPT-2模型的改进版本
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号