🤗 HuggingFace • 🤖 ModelScope • 💬 WeChat
News
[3/11/2024] 🔥开源XuanYuan-6B、XuanYuan-13B、XuanYuan2-70B系列模型
[1/19/2023] 🔥开源XuanYuan-13B-Chat模型
[11/1/2023] 🔥开源XuanYuan-70B-Chat模型及8-bit和4bit量化模型
[9/22/2023] 🔥开源XuanYuan-70B Base模型
[9/22/2023] 🔥开源60G高质量中文金融数据。Hugging Face
[9/22/2023] 🔥开源中文金融领域知识评估数据集 FinanceIQ。GitHub | HuggingFace
[5/21/2023] 开源度小满轩辕-176B大模型,在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调。是国内首个开源的千亿级中文对话大模型
目前发布的模型和下载链接如下:
基座模型 | Chat模型 | 8-bit量化Chat模型 | 4-bit量化Chat模型 | |
---|---|---|---|---|
XuanYuan-6B | 🤗 🤖 | 🤗 🤖 | 🤗 🤖 | 🤗 🤖 |
XuanYuan-13B | 🤗 🤖 | 🤗 🤖 | 🤗 🤖 | 🤗 🤖 |
XuanYuan2-70B | 🤗 🤖 | 🤗 🤖 | 🤗 🤖 | 🤗 🤖 |
XuanYuan-70B | 🤗 🤖 | 🤗 🤖 | 🤗 🤖 | 🤗 🤖 |
XuanYuan-176B | 🤗 |
技术文档: XuanYuan-6B XuanYuan-13B XuanYuan2-70B XuanYuan-70B
目录
XuanYuan-6B
介绍
在轩辕系列大模型研发过程中,我们积累了大量的高质量数据和模型训练经验,构建了完善的训练平台,搭建了合理的评估流水线。在此基础上,为丰富轩辕系列模型矩阵,降低轩辕大模型使用门槛,我们进一步推出了XuanYuan-6B系列大模型。不同于XuanYuan-13B和XuanYuan-70B系列模型在LLaMA2上继续预训练的范式,XuanYuan-6B是我们从零开始进行预训练的大模型。当然,XuanYuan-6B仍采用类LLaMA的模型架构。在预训练基础上,我们构建了丰富、高质量的问答数据和人类偏好数据,并通过指令微调和强化学习进一步对齐了模型表现和人类偏好,显著提升了模型在对话场景中的表现。XuanYuan6B系列模型在多个评测榜单和人工评估中均获得了亮眼的结果。模型训练细节请参考我们的技术报告:Report
本次开源的XuanYuan-6B系列模型包含基座模型XuanYuan-6B,经指令微调和强化对齐的chat模型XuanYuan-6B-Chat,以及chat模型的量化版本XuanYuan-6B-Chat-4bit和XuanYuan-6B-Chat-8bit。
主要特点:
- 收集多个领域大量的训练语料,进行了多维度数据清洗和去重,保证数据的量级和质量
- 从零开始预训练,预训练中动态调整数据配比,模型基座能力较强
- 结合Self-QA方法构建高质量问答数据,采用混合训练方式进行监督微调
- 构建高质量人类偏好数据训练奖励模型并进行强化训练,对齐模型表现和人类偏好
- 模型尺寸小并包含量化版本,硬件要求低,适用性更强
- 在多个榜单和人工评估中均展现出良好的性能,具备领先的金融能力
性能评测
基础评测
金融一直是轩辕大模型重点关注的领域和主要应用目标,因此我们首先在金融场景评测了XuanYuan-6B模型。我们使用自己构建并开源的FinanceIQ数据集,该数据集是一份专业的大模型金融能力评估数据集,涵盖了10个金融大类,36个金融小类,总计7173题。评估结果如下表所示。从表中可以看出,XuanYuan-6B模型在该评估数据中的性能甚至超越了GPT4,显示出了其强大的金融能力。
模型 | 平均分 | 注册会计师 | 银行从业资格 | 证券从业资格 | 基金从业资格 | 保险从业资格 | 经济师 | 税务师 | 期货从业资格 | 理财规划师 | 精算师 |
---|---|---|---|---|---|---|---|---|---|---|---|
XuanYuan-13B | 74.02 | 75.29 | 83.52 | 77.38 | 80.5 | 75.86 | 87.31 | 62.09 | 76.44 | 75.25 | 46.59 |
XuanYuan-6B | 68.87 | 71.62 | 77.65 | 74.83 | 77.52 | 73.56 | 86.54 | 59.02 | 70.67 | 71.19 | 26.14 |
GPT4 | 60.05 | 52.33 | 68.72 | 64.8 | 68.81 | 68.68 | 75.58 | 46.93 | 63.51 | 63.84 | 27.27 |
除金融外,我们也注重轩辕大模型的通用能力,因此我们也在多个主流评测集上进行了模型评测,观察轩辕大模型在知识、逻辑、代码等通用能力上的表现。评测结果如下表所示。
模型 | C-Eval | CMMLU | MMLU | GSM8K | HumanEval |
---|---|---|---|---|---|
LLaMA2-70B | 50.1 | 53.6 | 69.8 | 54.4 | 23.7 |
LLaMA2-13B | 41.4 | 38.4 | 55 | 29.6 | 18.9 |
LLaMA2-7B | 32.5 | 31.8 | 46.8 | 16.7 | 12.8 |
XuanYuan-13B | 82 | 78 | 70.3 | 49.3 | 29.3 |
XuanYuan-6B | 81.2 | 75.8 | 64.5 | 32.9 | 22.6 |