#DataComp-LM

DataComp-LM (DCLM): 革新语言模型训练数据集的新方向

3 个月前

DataComp-LM 大语言模型数据处理模型训练评估 Github 开源项目

3 个月前

相关项目

dclm

DataComp-LM是一个开源的大型语言模型训练和评估框架。它提供了超过300T的CommonCrawl标准语料库、基于open_lm的预训练方案和50多项评估指标。研究人员可利用该框架在411M至7B参数规模下进行数据集构建实验。通过数据集优化，DataComp-LM已显著提升了模型性能，创建了多个跨规模表现优异的高质量数据集。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com