热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#RedPajama-Data-v2
RedPajama-Data - 开放大规模多语言数据集助力大型语言模型训练
RedPajama-Data-v2
大语言模型
开放数据集
自然语言处理
数据质量
Github
开源项目
RedPajama-Data-v2是一个包含30万亿tokens的开放数据集,用于训练大型语言模型。该数据集涵盖了超过100B的文本文档,来源于84个CommonCrawl快照。它包含英语、德语、法语、意大利语和西班牙语5种语言的内容,并提供多种质量信号和去重处理。项目提供完整的数据处理流程,包括准备工件、计算质量信号和去重等步骤,为语言模型研究提供高质量的大规模语料资源。
1
1
相关文章
RedPajama-Data-v2: 一个包含30万亿个令牌的开放数据集,用于训练大型语言模型
2024年09月05日
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号