#开放数据集

RedPajama-Data - 开放大规模多语言数据集助力大型语言模型训练

RedPajama-Data-v2大语言模型开放数据集自然语言处理数据质量Github开源项目

RedPajama-Data-v2是一个包含30万亿tokens的开放数据集，用于训练大型语言模型。该数据集涵盖了超过100B的文本文档，来源于84个CommonCrawl快照。它包含英语、德语、法语、意大利语和西班牙语5种语言的内容，并提供多种质量信号和去重处理。项目提供完整的数据处理流程，包括准备工件、计算质量信号和去重等步骤，为语言模型研究提供高质量的大规模语料资源。

GPT-JT-6B-v1 - 优化文本分类的先进语言模型

GPT-JTGithubUL2模型分类任务开源项目Huggingface文本生成开放数据集

GPT-JT-6B-v1采用去中心化训练和开放数据集，提升文本分类表现。结合UL2训练目标等先进技术，使其在计算效率上具有优势，优于大多数百亿参数模型。在多样化数据集如自然指令和P3上，GPT-JT利用标记和双向上下文学习，增强推断能力和语言处理功能。

相关文章

Article Cover

RedPajama-Data-v2: 一个包含30万亿个令牌的开放数据集,用于训练大型语言模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号