Baichuan-7B 项目介绍
项目概述
Baichuan-7B 是由百川智能推出的一款开源的大规模预训练语言模型。它采用了先进的 Transformer 架构,拥有大约 70 亿个参数,并在超过 1.2 万亿个词语上进行了训练。该模型支持中英双语,具有 4096 的上下文窗口长度。在标准的中文和英文评测中,Baichuan-7B 均取得了同尺寸模型中的最优效果。
中文评测表现
C-Eval
C-Eval 是一个全面的中文评测数据集,涵盖了 52 个学科和四个难度级别。Baichuan-7B 在该数据集的 5-shot 测试中表现优异,达到了 42.8 的平均分,证明了其在中文语言模型中的强大能力。
Gaokao
在 Gaokao 数据集上,Baichuan-7B 的测试结果为 36.24,在参与对比的模型中获得了优秀的语言和逻辑推理能力的评估结果。
AGIEval
在 AGIEval 数据集的 5-shot 测试中,Baichuan-7B 也同样表现出色,平均得分为 34.44。
英文评测表现
MMLU 是用于评测英文模型的常用数据集。Baichuan-7B 在 57 个多项选择任务中平均得分为 42.3,再次展现了其卓越的跨语言性能。
技术特性
Baichuan-7B 基于标准的 Transformer 模型结构,其模型设计与 LLaMA 相似,但在细节上做出了优化:
- 采用 rotary-embedding 以支持更长的上下文。
- 使用 SwiGLU 激活函数,并增加 Feedforward 层的隐含层大小。
- 基于 RMSNorm 的 Layer-Normalization。
数据处理
Baichuan-7B 的训练数据包括开源的中英文数据以及高质量的中文互联网数据。数据处理环节注重频率和质量,包括对篇章和句子的去重和过滤,以及通过启发式规则和质量模型进行评估。
分词技术
模型采用了经过优化的 SentencePiece 的 Byte-Pair Encoding (BPE) 分词器,显著提升了对中文的压缩率并增强了数学领域的表现。
训练及部署
Baichuan-7B 使用了一系列优化技术以确保训练的稳定性和高效性,包括算子优化、混合精度、通信优化等。在千卡 A800 显卡上达到 7B 模型 182 TFLOPS 的吞吐量。
总体而言,Baichuan-7B 以其卓越的性能和广泛的适用性为开源及商业应用提供了强有力的支持。用户可以在其开源代码库中获取更多技术细节以进行个性化定制或商业部署。