YuLan-Chat

<div align=center> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/41a41786-37b5-4818-8597-3774b12cbc66.jpg" width="400px"> <h1>玉兰：开源大语言模型</h1> <a href="https://github.com/RUC-GSAI/YuLan-Chat/blob/main/LICENSE"><img src="https://img.shields.io/badge/License-MIT-blue" alt="license"></a> <a href="https://arxiv.org/abs/2406.19853" target="_blank"><img src=https://img.shields.io/badge/arXiv-b5212f.svg?logo=arxiv></a> <a href="https://huggingface.co/yulan-team"><img alt="Static Badge" src="https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-blue?color=8A2BE2"></a> <a><img src="https://img.shields.io/github/stars/RUC-GSAI/YuLan-Chat"></a> </div>

玉兰对话模型是由中国人民大学高瓴人工智能学院研究人员开发的基于对话的大语言模型（玉兰是中国人民大学的校花）。最新版本通过从头预训练，并采用课程学习策略，使用高质量的中英文指令和人类偏好数据进行监督微调而开发。该模型具有以下技术特点：

由于在高质量的英文、中文和多语言数据上进行大规模预训练，模型的语言能力得到了提升。
由于采用课程学习策略进行人类对齐，我们的模型在有用性、诚实性和无害性方面得到了增强。
为了更好地支持中文的长输入和输出，我们扩展了词汇表，增加了中文词汇和最大输入长度。现在可以支持4k长度的上下文。

新闻

[2024年7月1日] 我们发布了YuLan-Base-12B，一个从头训练的大语言模型，以及其对话版本YuLan-Chat-3-12B。我们在超过1.6TB词元的英文、中文和多语言数据上对基础模型进行预训练，然后通过课程学习策略，使用高质量的中英文指令和人类偏好数据进行监督微调，得到了对话模型。
[2023年8月18日] 我们的YuLan-Chat-2-13B在OpenCompass基准测试中获得第5名！
[2023年8月2日] 我们发布了YuLan-LLaMA-2-13B和YuLan-Chat-2-13B。两个模型都在LLaMA-2的基础上对英文和中文语料进行了持续预训练，而YuLan-Chat-2-13B是基于YuLan-LLaMA-2-13B的对话型大语言模型，使用了高质量的中英文指令进行训练。
[2023年8月2日] 我们发布了YuLan-Chat-1-65B-v2，这是一个基于LLaMA的对话型大语言模型。它在英文和中文语料上进行了持续预训练，然后使用高质量的中英文指令进行了指令微调。
[2023年6月8日] 我们发布了YuLan-Chat-1-13B-v1和YuLan-Chat-1-65B-v1，以及相应的INT-8量化脚本。

[2023年6月8日] 我们发布了YuLan-Chat-1-13B-v1和YuLan-Chat-1-65B-v1两个模型，以及对应的int8量化脚本。

模型库

由于许可证限制，对于基于LLaMA的模型，我们只提供与原始检查点的权重差异；对于基于LLaMA-2的模型，可以直接使用。详细信息请查看使用方法部分。

局限性：尽管我们努力减少模型使用过程中可能出现的安全问题，并鼓励生成符合道德和法律要求的文本，但由于语言模型基于概率生成，它仍可能产生意料之外的输出。例如，生成的回复可能包含偏见、歧视或其他有害内容。请不要传播此类内容。我们不对因传播有害信息而导致的任何后果承担责任。

由于许可证的限制，基于LLaMA的模型我们仅提供与官方模型的差值，基于LLaMA-2的模型可直接使用，具体请参见使用方法章节。

局限性：尽管我们尝试减少模型在使用中可能出现的安全性问题，并鼓励模型生成符合道德和法律要求的文本，但由于语言模型基于概率生成的范式，模型仍然可能会产生意外的输出。例如，生成的响应可能包含偏见、歧视或其他有害内容。请不要传播此类内容。我们对因传播有害信息而造成的任何后果不承担任何责任。

模型	基础模型	扩展词表	扩展长度	继续预训练	SFT	发布日期
YuLan-Base-12B	YuLan-Base-12B	✅ 51,190	✅ 4,096	❌	❌	2024.7.1
YuLan-Chat-3-12B	YuLan-Base-12B	✅ 51,190	✅ 4,096	❌	✅	2024.7.1
YuLan-Chat-2-13B	LLaMA2-13B	✅ 51,190	✅ 8,192	✅	✅	2023.8.2
YuLan-LLaMA-2-13B	LLaMA2-13B	✅ 51,190	✅ 8,192	✅	❌	2023.8.2
YuLan-Chat-1-65B-v2	LLaMA-65B	✅ 51,190	❌ 2,048	✅	✅	2023.8.2
YuLan-Chat-1-13B-v1	LLaMA-13B	❌ 32,000	❌ 2,048	❌	✅	2023.6.8
YuLan-Chat-1-65B-v1	LLaMA-65B	❌ 32,000	❌ 2,048	❌	✅	2023.6.8

评估

我们在几个中文和英文基准测试上对YuLan-Chat模型进行了评估。评估结果如下所示。

我们在中英文的一些基准测试上对YuLan-Chat进行了评价，其结果如下。

MMLU

MMLU（大规模多任务语言理解）是一个基准测试，旨在通过专门在零样本和少样本设置中评估模型来衡量预训练期间获得的知识。

MMLU是一个评估模型知识量的常用的英文基准测试集。

模型	STEM	社会科学	人文	其他	平均
YuLan-Chat-1-13B-v1	39.6	57.8	42.6	57.6	49.4
YuLan-Chat-1-65B-v1	49.2	71.7	57.7	66.7	61.3
YuLan-Chat-1-65B-v2	46.3	67.9	56.9	63.9	58.7
LLaMA-2-13B	44.6	64.2	53.9	62.2	56.2
FlagAlpha/Llama2-Chinese-13b-Chat	44.4	63.2	51.6	60.6	55.0
Linly-AI/Chinese-LLaMA-2-13B-hf	43.6	62.7	49.8	61.6	54.4
YuLan-LLaMA-2-13B	42.9	61.5	50.4	58.6	53.4
YuLan-Chat-2-13B	45.3	66.7	53.8	62.8	57.2
YuLan-Base-12B	42.3	60.2	46.4	56.1	51.3
YuLan-Chat-3-12B	45.5	64.3	51.8	61.3	55.7

C-Eval

C-Eval是一个针对基石模型综合能力的中文基准测试集。

模型	理工	社会科学	人文	其他	平均	平均（困难）
YuLan-Chat-1-13B-v1	30.2	37.4	31.9	30.7	32.0	25.7
YuLan-Chat-1-65B-v1	37.7	46.1	36.8	38.0	39.2	31.1
YuLan-Chat-1-65B-v2	39.9	55.9	47.7	43.7	45.4	31.4
LLaMA-2-13B	36.9	43.2	37.6	36.6	38.2	32.0
FlagAlpha/Llama2-Chinese-13b-Chat	36.8	44.5	36.3	36.5	38.1	30.9
Linly-AI/Chinese-LLaMA-2-13B-hf	33.7	44.8	36.6	36.5	37.0	27.7
YuLan-LLaMA-2-13B	35.3	46.4	41.9	37.6	39.3	28.6
YuLan-Chat-2-13B	38.9	49.7	45.0	40.8	42.6	32.2
YuLan-Base-12B	42.0	57.6	47.2	41.5	46.0	32.6
YuLan-Chat-3-12B	47.0	61.8	52.9	44.3	50.5	37.7

AGI-Eval-高考

AGI-Eval是一个以人为中心的基准，专门设计用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。我们使用其中的"高考"分支进行评测。

模型	平均	语文	英语	地理	历史	生物	化学	物理	数学-解答题	数学-填空题
YuLan-Chat-1-13B-v1	29.2	32.1	63.1	34.7	25.1	26.2	29.0	25.5	26.5	0.9
YuLan-Chat-1-65B-v1	34.6	24.8	82.0	44.2	44.3	31.4	30.9	26.0	27.1	0.9
YuLan-Chat-1-65B-v2	37.9	31.4	80.4	50.8	56.6	33.3	29.0	32.0	24.4	0.8
LLaMA-2-13B	32.7	27.2	72.2	36.2	43.0	26.2	32.4	30.0	26.2	0.9
FlagAlpha/Llama2-Chinese-13b-Chat	31.6	26.4	70.6	35.2	38.7	28.1	28.0	29.5	25.6	2.5
Linly-AI/Chinese-LLaMA-2-13B-hf	31.1	22.8	74.8	42.2	37.9	24.3	28.0	23.0	26.5	0.0
YuLan-LLaMA-2-13B	34.2	25.2	70.3	43.2	48.5	30.0	29.5	31.0	28.5	1.7
YuLan-Chat-2-13B	39.5	37.0	85.3	46.7	51.9	43.8	38.2	29.0	23.1	0.9
YuLan-Chat-3-12B	43.5	31.3	68.3	53.3	60.9	43.8	34.8	27.5	28.2	0.9
YuLan-Chat-3-12B	49.5	43.9	80.4	57.3	69.4	53.8	37.7	27.0	26.2	0.9

使用方法

环境设置

conda create -n yulan python=3.10 -y
conda activate yulan

我们建议根据官方指南安装pytorch和bitsandbytes，以便更好地适应您的环境。我们提供了我们使用的版本作为参考：

torch==1.13
bitsandbytes==0.39.0

然后，您可以通过以下指令安装其他软件包：

pip install -r requirements.txt

模型权重恢复

对于YuLan-Chat-1-13B-v1、YuLan-Chat-1-65B-v1和YuLan-Chat-1-65B-v2，由于它们基于LLaMA，您应该下载LLaMA的原始权重，然后将我们发布的增量参数添加到原始参数中，以组成最终的模型参数。

python3 apply_delta.py \
    --base-model-path ./llama-13b/ \
    --tuned-model-path ./yulan-13b/ \
    --delta-path ./yulan-13b-delta

对于YuLan-LLaMA-2-13B和YuLan-Chat-2-13B，您可以直接下载我们发布的检查点，并通过Huggingface Transformers加载它们的参数。

从Huggingface Transformers导入

由于我们的模型是基于LLaMA训练的，因此可以以与原始LLaMA相同的方式加载。

>>> from transformers import AutoTokenizer, AutoModelForCausalLM
>>> tokenizer = AutoTokenizer.from_pretrained("yulan-team/YuLan-Chat-3-12b")
>>> model = AutoModelForCausalLM.from_pretrained("yulan-team/YuLan-Chat-3-12b").cuda()
>>> model = model.eval()
>>> input_text = "hello"
>>> prompt = "The following is a conversation between a human and an AI assistant namely YuLan, developed by GSAI, Renmin University of China. The AI assistant gives helpful, detailed, and polite answers to the user's questions.\n[|Human|]:{}\n[|AI|]:".format(input_text)
>>> inputs = tokenizer(prompt, return_tensors='pt', padding="longest", max_length=4096, truncation=True, return_attention_mask=True, add_special_tokens=True)
>>> kwargs = {'temperature': 0.8, 'top_p': 0.95, "top_k": 50, "repetition_penalty": 1.1, "no_repeat_ngram_size": 64, "max_length": 4096, "pad_token_id": tokenizer.bos_token_id, "eos_token_id": tokenizer.eos_token_id}
>>> outputs = model.generate(inputs['input_ids'].to(model.device), attention_mask=inputs['attention_mask'].to(model.device), do_sample=True, **kwargs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True)[len(prompt):])

命令行推理

我们提供了YuLan-Chat在命令行中进行推理的代码。

python inference.py --model_path ~/pretrain-checkpoint/yulan-13b/

我们还提供了一种量化方法，用于高效部署YuLan-Chat。量化后，YuLan-Chat可以加载到单个GPU上。

我们还提供了一种量化方法，以便更轻量化地部署YuLan-Chat。通过量化后，模型可以被加载到单个GPU中。

YuLan-Chat (INT-8)	GPU 消耗
13B	RTX3090-24G
65B	A100-80G

python inference.py --model_path ~/pretrain-checkpoint/yulan-13b/ --load_in_8bit

许可证

YuLan-Chat 使用 MIT 许可证。本项目中的所有数据和代码仅可用于学术目的。

本项目使用MIT许可，所有的数据和代码仅供学术研究使用。

贡献者

预训练	微调
朱宇涛 (主导), 毛科龙, 陈文通, 孙一丁, 吴怡菡, 曹茜, 张蕾, 王峰, 任强强	周堃 (主导), 陈宇硕, 陈志鹏, 王磊, 侯宇鹏, 庞新程, 唐新宇, 李俊毅, 陈宇涵, 谢书芳

引用

如果我们的工作对您有帮助，请引用我们。

如果我们的项目对您有帮助，请引用我们，谢谢！

@article{yulan,
  author       = {朱宇涛 和 
                  周堃 和 
                  毛科龙 和 
                  陈文通 和 
                  孙一丁 和 
                  陈志鹏 和 
                  曹茜 和 
                  吴怡菡 和 
                  陈宇硕 和 
                  王峰 和 
                  张蕾 和 
                  李俊毅 和 
                  王晓蕾 和 
                  王磊 和 
                  张北辰 和 
                  董子灿 和 
                  程晓雪 和 
                  陈宇涵 和 
                  唐新宇 和 
                  侯宇鹏 和 
                  任强强 和 
                  庞新程 和 
                  谢书芳 和 
                  赵鑫 和 
                  窦志成 和 
                  毛佳昕 和 
                  林衍凯 和 
                  宋睿华 和 
                  徐君 和 
                  陈旭 和 
                  严睿 和 
                  魏喆为 和 
                  胡迪 和 
                  黄文冰 和 
                  高泽峰 和 
                  陈跃国 和 
                  陆维政 和 
                  温江涛},
  title        = {YuLan: 一个开源大语言模型},
  journal      = {CoRR},
  volume       = {abs/2406.19853},
  year         = {2024},
  url          = {https://doi.org/10.48550/arXiv.2406.19853},
  doi          = {10.48550/ARXIV.2406.19853},
  eprinttype    = {arXiv},
  eprint       = {2406.19853}
}