#Data-Juicer
data-juicer - 大语言模型数据处理系统,提供多模态数据支持
Github开源项目数据处理多模态数据处理大规模语言模型Data-Juicer数据模型协同开发
Data-Juicer 是一款强大的一站式数据处理系统,专为大语言模型设计。它支持多模态数据处理,具有80多种操作符和20多个配置方案,提供高效且并行的数据处理能力。其友好的用户体验和全面的文档,使其成为生产环境中的优选方案。
LLaMA-1B-dj-refine-150B - LLaMA架构的开源语言模型基于精炼数据集训练
Github开源项目LLM预训练模型数据集模型评估HuggingfaceData-Juicer
LLaMA-1B-dj-refine-150B是一个采用LLaMA-1.3B架构的开源语言模型,基于Data-Juicer精炼的150B tokens RedPajama和Pile数据预训练。模型在16个HELM任务上的平均得分达34.21,优于同级别的Falcon-1.3B、Pythia-1.4B和Open-LLaMA-1.3B。项目提供了详细的训练数据集信息和性能对比,可作为语言模型研究的参考资源。