项目介绍:Xwin-LM-7B-V0.2
背景简介
Xwin-LM项目的目标是开发并开源针对大型语言模型(LLM)的对齐技术。该项目涵盖了各种技术,包括监督微调(SFT)、奖励模型(RM)、拒绝采样以及来自人类反馈的强化学习(RLHF)等。项目的首个发布版本基于Llama2基础模型,在AlpacaEval基准测试中排名第一,并首次在此基准上超越了GPT-4。项目会持续进行更新。
最新动态
-
发布日期:2023年10月12日
Xwin-LM团队发布了Xwin-LM-7B-V0.2和Xwin-LM-13B-V0.2。这两个版本在与GPT-4的比较中都有显著提高,7B模型的胜率达到59.83%,13B模型的胜率则达到70.36%。此外,70B模型即将推出。 -
2023年9月
发布的Xwin-LM-70B-V0.1在AlpacaEval基准测试中对抗达芬奇-003时的胜率达95.57%,并且在和GPT-4的较量中实现了60.61%的胜率,成为第一个在此基准上超越GPT-4的模型。 -
RLHF的重要性
人类反馈的强化学习(RLHF)在Xwin-LM-V0.1版本突出表现中起到了关键作用。
模型卡片
Xwin-LM项目发布了多个模型版本,包括:
- Xwin-LM-7B-V0.2
- Xwin-LM-13B-V0.2
- Xwin-LM-7B-V0.1
- Xwin-LM-13B-V0.1
- Xwin-LM-70B-V0.1
所有模型都依赖于Llama 2的许可协议。
性能基准测试
在AlpacaEval上的表现
Xwin-LM系列在AlpacaEval上的表现尤为突出,特别是Xwin-LM-70B-V0.1首次在所有测试中超越GPT-4,胜率达到95.57%(相对达芬奇-003)和60.61%(相对GPT-4)。
在基础NLP任务中的表现
在NLP基础任务测试中,Xwin-LM模型系列也展示了强大的性能,特别是Xwin-LM-70B-V0.1表现优异,其在MMLU 5-shot和其他几个重要测试中的表现都设定了新的标准。
使用与推理
为了获得最佳的效果,用户应遵循项目提供的模板实施推理。Xwin-LM模型支持多轮对话,并兼容Vicuna等格式。
使用例子展示了如何利用transformers
库和vLLM
库进行快速推理和实现与模型的交互。
未来计划
Xwin-LM团队计划释放更多的源代码,并增强模型的其他能力,包括数学与推理等功能。
引用与感谢
如果使用该项目中的数据或代码,建议引用相关工作。此外,项目感谢Llama 2、FastChat、AlpacaFarm以及vLLM的支持。