Project Icon

WizardLM

增强大型语言模型执行复杂指令的开源项目

WizardLM项目致力于增强大型预训练语言模型处理复杂指令的能力。通过创新训练方法,该项目使模型更好地理解和执行多步骤、高难度任务。WizardLM在编程、数学和通用对话等基准测试中表现卓越。项目开源多个不同规模的模型版本,为语言模型技术的研究与应用提供有力支持。

WizardLM:赋能大型预训练语言模型以执行复杂指令

🏠 主页

🤗 HF 仓库 • 🐦 Twitter • 📃 [WizardLM] @ICLR2024 • 📃 [WizardCoder] @ICLR2024 • 📃 [WizardMath]

👋 加入我们的 Discord

WizardLM

代码许可 数据许可 Python 3.9+

非官方视频介绍

感谢热心朋友们,他们的视频介绍更加生动有趣。

  1. 全新 WizardLM 70b 🔥 巨型模型...惊人表现
  2. 立即获取 WizardLM!7B LLM 之王可击败 ChatGPT!我印象深刻!
  3. WizardLM:增强大型语言模型以执行复杂指令
  4. WizardCoder AI 是 ChatGPT 编程的新孪生兄弟!

新闻

  • 🔥🔥🔥[2024/01/04] 我们发布了基于 deepseek-coder-33b-base 训练的 WizardCoder-33B-V1.1,这是 EvalPlus 排行榜 上的最先进的开源代码 LLM,在 HumanEval 上达到 79.9 pass@1,在 HumanEval-Plus 上达到 73.2 pass@1,在 MBPP 上达到 78.9 pass@1,在 MBPP-Plus 上达到 66.9 pass@1WizardCoder-33B-V1.1 在 HumanEval 和 HumanEval-Plus pass@1 上优于 ChatGPT 3.5Gemini ProDeepSeek-Coder-33B-instructWizardCoder-33B-V1.1 在 MBPP 和 MBPP-Plus pass@1 上与 ChatGPT 3.5 相当,并超越了 Gemini Pro

  • [2023/08/26] 我们发布了 WizardCoder-Python-34B-V1.0,它在 HumanEval 基准测试 上达到了 73.2 pass@1,超越了 GPT4 (2023/03/15)ChatGPT-3.5Claude2。更多详情请参考 WizardCoder

  • [2023/06/16] 我们发布了 WizardCoder-15B-V1.0,它在 HumanEval 基准测试 上超越了 Claude-Plus (+6.8)Bard (+15.3)InstructCodeT5+ (+22.3)。更多详情请参考 WizardCoder。 | 模型 | 检查点 | 论文 | HumanEval | HumanEval+ | MBPP | MBPP+ | | ----- |------| ---- |------|-------| ----- | ----- | | GPT-4-Turbo (2023年11月) | - | - | 85.4 | 81.7 | 83.0 | 70.7 | | GPT-4 (2023年5月) | - | - | 88.4 | 76.8 | - | - | | GPT-3.5-Turbo (2023年11月) | - | - | 72.6 | 65.9 | 81.7 | 69.4 | | Gemini Pro | - | - | 63.4 | 55.5 | 72.9 | 57.9 | | DeepSeek-Coder-33B-instruct | - | - | 78.7 | 72.6 | 78.7 | 66.7 | | WizardCoder-33B-V1.1 | 🤗 HF链接 | 📃 [WizardCoder] | 79.9 | 73.2 | 78.9 | 66.9 | | WizardCoder-Python-34B-V1.0 | 🤗 HF链接 | 📃 [WizardCoder] | 73.2 | 64.6 | 73.2 | 59.9 | | WizardCoder-15B-V1.0 | 🤗 HF链接 | 📃 [WizardCoder] | 59.8 | 52.4 | -- | -- | | WizardCoder-Python-13B-V1.0 | 🤗 HF链接 | 📃 [WizardCoder] | 64.0 | -- | -- | -- | | WizardCoder-Python-7B-V1.0 | 🤗 HF链接 | 📃 [WizardCoder] | 55.5 | -- | -- | -- | | WizardCoder-3B-V1.0 | 🤗 HF链接 | 📃 [WizardCoder] | 34.8 | -- | -- | -- | | WizardCoder-1B-V1.0 | 🤗 HF链接 | 📃 [WizardCoder] | 23.8 | -- | -- | -- |

  • [2023年12月19日] 🔥 我们发布了基于Mistral-7B训练的WizardMath-7B-V1.1,这是最先进的7B数学大语言模型,在GSM8k上达到83.2 pass@1,在MATH上达到33.0 pass@1

  • [2023年12月19日] 🔥 WizardMath-7B-V1.1在GSM8K pass@1上的表现超过了ChatGPT 3.5Gemini ProMixtral MOEClaude Instant

  • [2023年12月19日] 🔥 WizardMath-7B-V1.1在MATH pass@1上的表现与ChatGPT 3.5Gemini Pro相当,并超过了Mixtral MOE

  • 🔥 我们的WizardMath-70B-V1.0模型在GSM8K上的表现略微超过了一些闭源大语言模型,包括ChatGPT 3.5Claude Instant 1PaLM 2 540B

  • 🔥 我们的WizardMath-70B-V1.0模型在GSM8k基准测试上达到了81.6 pass@1,比最先进的开源大语言模型高出24.8个百分点。

  • 🔥 我们的WizardMath-70B-V1.0模型在MATH基准测试上达到了22.7 pass@1,比最先进的开源大语言模型高出9.2个百分点。 | 模型 | 检查点 | 论文 | GSM8k | MATH | | ----- |------| ---- |------|-------| | WizardMath-7B-V1.1 | 🤗 HF链接 | 📃 [WizardMath] | 83.2 | 33.0 | | WizardMath-70B-V1.0 | 🤗 HF链接 | 📃 [WizardMath] | 81.6 | 22.7 | | WizardMath-13B-V1.0 | 🤗 HF链接 | 📃 [WizardMath] | 63.9 | 14.0 | | WizardMath-7B-V1.0 | 🤗 HF链接 | 📃 [WizardMath] | 54.9 | 10.7 |

  • [2023年8月9日] 我们发布了 WizardLM-70B-V1.0 模型。这里是完整模型权重

模型检查点论文MT-BenchAlpacaEvalGSM8kHumanEval演示许可证
WizardLM-70B-V1.0🤗 HF链接 📃即将推出7.7892.91%77.6%50.6Llama 2 许可证
WizardLM-13B-V1.2🤗 HF链接 7.0689.17%55.3%36.6演示Llama 2 许可证
WizardLM-13B-V1.1🤗 HF链接 6.7686.32%25.0非商业用途
WizardLM-30B-V1.0🤗 HF链接7.0137.8非商业用途
WizardLM-13B-V1.0🤗 HF链接 6.3575.31%24.0非商业用途
WizardLM-7B-V1.0🤗 HF链接 📃 [WizardLM] 19.1非商业用途

引用

如果您使用了WizardLM的数据或代码,请引用以下论文。

@inproceedings{
xu2024wizardlm,
title={WizardLM: Empowering Large Pre-Trained Language Models to Follow Complex Instructions},
author={Can Xu and Qingfeng Sun and Kai Zheng and Xiubo Geng and Pu Zhao and Jiazhan Feng and Chongyang Tao and Qingwei Lin and Daxin Jiang},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=CfXh93NDgH}
}

如果您使用了WizardCoder的数据或代码,请引用以下论文。

@inproceedings{
luo2024wizardcoder,
title={WizardCoder: Empowering Code Large Language Models with Evol-Instruct},
author={Ziyang Luo and Can Xu and Pu Zhao and Qingfeng Sun and Xiubo Geng and Wenxiang Hu and Chongyang Tao and Jing Ma and Qingwei Lin and Daxin Jiang},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=UnUwSIgK5W}
}

如果您参考了WizardMath的模型、代码、数据或论文,请引用该论文。

@article{luo2023wizardmath,
  title={WizardMath: 通过强化进化指令增强大型语言模型的数学推理能力},
  author={Luo, Haipeng and Sun, Qingfeng and Xu, Can and Zhao, Pu and Lou, Jianguang and Tao, Chongyang and Geng, Xiubo and Lin, Qingwei and Chen, Shifeng and Zhang, Dongmei},
  journal={arXiv预印本 arXiv:2308.09583},
  year={2023}
}

❗关于数据集的常见关注点:

最近,我们整个组织在代码、数据和模型的开源政策和规定方面发生了明显变化。 尽管如此,我们仍然努力争取首先开放模型权重,但数据涉及更严格的审核,目前正由我们的法律团队审核中。 我们的研究人员无权未经授权公开发布这些数据。 感谢您的理解。

招聘

  • 📣 我们正在寻找高度积极的学生加入我们,成为实习生,一起创造更智能的人工智能。请联系caxu@microsoft.com

模型系统提示使用说明:

为获得与我们演示完全相同的结果,请严格按照"src/infer_wizardlm13b.py"中提供的提示和调用方法使用我们的模型进行推理。我们的模型采用Vicuna的提示格式,支持多轮对话。

对于WizardLM,提示应如下所示:

一个好奇的用户和一个人工智能助手之间的对话。助手对用户的问题给出有帮助、详细和礼貌的回答。用户:你好 助手:你好。</s>用户:你是谁? 助手:我是WizardLM。</s>......

对于WizardCoder,提示应如下所示:

"以下是描述一个任务的指令。写一个恰当完成该请求的回应。\n\n### 指令:\n{instruction}\n\n### 回应:"

对于WizardMath,提示应如下所示:

默认版本:

"以下是描述一个任务的指令。写一个恰当完成该请求的回应。\n\n### 指令:\n{instruction}\n\n### 回应:"

CoT版本:(❗对于简单的数学问题,我们不建议使用CoT提示。)

"以下是描述一个任务的指令。写一个恰当完成该请求的回应。\n\n### 指令:\n{instruction}\n\n### 回应:让我们一步步思考。"

GPT-4自动评估

我们采用FastChat提出的基于GPT-4的自动评估框架来评估聊天机器人模型的性能。如下图所示,WizardLM-30B取得了比Guanaco-65B更好的结果。

WizardLM-30B在不同技能上的表现

下图比较了WizardLM-30B和ChatGPT在Evol-Instruct测试集上的技能。结果表明,WizardLM-30B平均达到了ChatGPT性能的97.8%,在18项技能上几乎达到(或超过)100%的能力,在24项技能上超过90%的能力。

WizardLM在NLP基础任务上的表现

下表提供了WizardLM与其他LLM在NLP基础任务上的比较。结果表明,WizardLM在相同规模上持续展现出优于LLaMa模型的性能。此外,我们的WizardLM-30B模型在MMLU和HellaSwag基准测试上表现出与OpenAI的Text-davinci-003相当的性能。

WizardLM在代码生成上的表现

下表提供了WizardLM与其他几个LLM在代码生成任务(即HumanEval)上的全面比较。评估指标是pass@1。结果表明,WizardLM在相同规模上持续展现出优于LLaMa模型的性能。此外,我们的WizardLM-30B模型超越了StarCoder和OpenAI的code-cushman-001。而且,我们的代码LLM——WizardCoder表现卓越,达到了57.3的pass@1分数,超过开源SOTA约20分。

模型HumanEval Pass@1
LLaMA-7B10.5
LLaMA-13B15.8
CodeGen-16B-Multi18.3
CodeGeeX22.9
LLaMA-33B21.7
LLaMA-65B23.7
PaLM-540B26.2
CodeGen-16B-Mono29.3
code-cushman-00133.5
StarCoder33.6
WizardLM-7B 1.019.1
WizardLM-13B 1.024.0
WizardLM-30B 1.037.8
WizardCoder-15B 1.057.3

征集反馈意见

我们欢迎大家使用专业和困难的指令来评估WizardLM,并在问题讨论区域向我们展示表现不佳的例子以及您的建议。我们目前正专注于改进Evol-Instruct,希望在下一版本的WizardLM中缓解现有的弱点和问题。之后,我们将开放最新Evol-Instruct算法的代码和流程,与您一起努力改进它。

Evol-Instruct概述

Evol-Instruct是一种新颖的方法,使用大型语言模型(LLMs)而不是人类来自动大规模生产各种难度级别和技能范围的开放域指令,以提高LLMs的性能。您可以使用我们提供的Evol Script轻松开始您自己的进化之旅。

WizardLM

WizardLM

免责声明

与本项目相关的资源,包括代码、数据和模型权重,仅限于学术研究目的,不得用于商业用途。WizardLM的任何版本产生的内容受不可控变量(如随机性)的影响,因此本项目不能保证输出的准确性。本项目不承担模型输出内容的任何法律责任,也不对使用相关资源和输出结果造成的任何损失承担责任。

Star历史

Star历史图表

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号