热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#数据稀缺
datablations - 对在数据限制下扩展语言模型的方法的研究
language models
训练数据
数据重复
数据稀缺
C4
Github
开源项目
本项目研究在数据受限情况下扩展语言模型的方法。通过对9000亿训练令牌和90亿参数模型进行实验,提出并验证了重复令牌和多余参数的计算优化法则。实验涵盖数据增强、困惑度过滤及去重处理。相关模型和数据集公开在仓库,有助于在资源有限情况下高效训练和优化语言模型。
1
1
相关文章
Datablations: 探索数据受限条件下的大型语言模型扩展
2024年08月31日
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号