#高质量数据

distilabel - AI数据合成与反馈框架
DistilabelAI反馈数据合成高质量数据开源社区Github开源项目
Distilabel是专为AI工程师设计的开源框架,用于数据合成和反馈。该框架提供高质量输出、数据所有权和高效性,适用于预测和生成模型。通过提升数据质量和整合多种LLM反馈,Distilabel提高AI输出质量。支持与最新研究的整合,确保灵活性、可扩展性和容错能力。欢迎加入开源社区,参与数据集和模型的构建,享受社区资源和支持。
MathPile - 数学预训练数据集
MathPile数学语料库高质量数据数学推理预训练Github开源项目
本页面介绍了MathPile,这是一个专注于数学领域的高质量大规模预训练数据集,包含约95亿个标记。MathPile整合了来自教科书、arXiv、Wikipedia等多种来源的数据,确保了内容的多样性和覆盖面。项目注重数据质量,采用严格的预处理和过滤,并提供详细的数据文档和质量注释。MathPile旨在提升语言模型在数学推理方面的能力,同时页面也提供了项目的最新动态、技术报告、使用限制和许可证信息。
LLaMA3-SFT - 研究奖励建模与在线RLHF应用
HuggingfaceRLHF开源项目模型transformers在线学习Github元语言模型高质量数据
LLaMA3-SFT项目提供了在Meta-Llama-3-8B模型基础上开发的SFT检查点,利用多样化高质量开源数据训练而成,尚未经过RLHF训练,是进行RLHF研究的良好起点。