项目介绍
luxia-21.4b-alignment-v1.2 是一个大型语言模型,拥有 214 亿参数,在多种自然语言处理任务中表现优异。这一模型在参数少于 350 亿的模型中表现出色,甚至超过了一些更大型的模型,如具有 720 亿参数的模型和 34Bx2 MoE(专家混合)模型。该模型计划发布其预训练版本和经过指令微调的版本。
指令微调策略
luxia-21.4b
这是一个基础模型,通过对 internlm2-20b-llama 模型进行层次扩展而创建。为了恢复这个模型的性能,项目组进行了持续的预训练。
luxia-21.4b-instruct 模型
该模型应用了最先进的指令微调方法,包括监督微调(SFT)。训练数据包含以下几种数据集:
- c-s-ale/alpaca-gpt4-data
- Open-Orca/SlimOrca
- 使用 Metamath 自主生成的数据
luxia-21.4b-alignment 模型
项目组使用最先进的指令微调方法,特别是直接偏好优化(DPO)。所使用的数据集包括:
- jondurbin/truthy-dpo-v0.1
- abacusai/ARC_DPO_FewShot
- abacusai/HellaSwag_DPO_FewShot
数据污染测试结果
模型使用了某个参考模型进行污染检测,取得了以下结果:
模型 | ARC | MMLU | TruthfulQA | GSM8K |
---|---|---|---|---|
luxia-21.4b-alignment-v1.2 | 0.00 | 0.07 | 0.13 | 0.34 |
开源 LLM 排行榜评估结果
luxia-21.4b-alignment-v1.2 在多项任务中取得了优秀的评分:
模型 | ARC | HellaSwag | MMLU | TruthfulQA | Winogrande | GSM8K |
---|---|---|---|---|---|---|
luxia-21.4b-alignment-v1.2 | 77.73 | 90.86 | 67.86 | 79.16 | 86.27 | 66.94 |
使用方法
要使用 luxia-21.4b-alignment-v1.2 模型,可以通过以下步骤配置:
# pip install transformers==4.35.2
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("saltlux/luxia-21.4b-alignment-v1.2")
model = AutoModelForCausalLM.from_pretrained(
"saltlux/luxia-21.4b-alignment-v1.2",
device_map="auto",
torch_dtype=torch.bfloat16,
)
许可证
该项目遵循 Apache 2.0 许可证。更多信息请访问 saltlux/luxia-21.4b-alignment-v1.2。
联系我们
如果有任何问题或建议,请在讨论页面留言交流。