热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#梯度投影
GaLore - 内存高效训练策略 全参数学习与低秩梯度投影
GaLore
大语言模型
梯度投影
内存效率
低秩训练
Github
开源项目
GaLore是一种内存高效的低秩训练策略,实现全参数学习的同时比常见低秩适应方法更节省内存。作为梯度投影方法,GaLore可通过两行代码轻松集成到现有优化器中。这一策略不仅优化内存使用,还保持训练准确性,为大规模语言模型训练提供新解决方案。项目目前处于预发布阶段,计划未来支持多GPU训练和内存高效的低秩梯度累积等功能。
1
1
相关文章
GaLore: 革命性的梯度低秩投影技术,实现高效大型语言模型训练
2024年09月04日
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号