热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#Web数据
data-selection-survey - 全面探索语言模型数据选择的关键技术
语言模型
数据选择
预训练
多语言
Web数据
Github
开源项目
这个项目全面梳理了语言模型数据选择的各个环节,涵盖预训练、指令微调和偏好对齐等阶段。内容包括语言过滤、启发式方法、数据质量评估和去重等核心技术,还探讨了多语言和特定领域模型的专门选择策略。项目汇集了众多相关研究文献,为语言模型开发提供了系统的参考资源。
1
1
相关文章
数据选择技术在语言模型训练中的应用与发展
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号