Project Icon

InstructionWild

大规模用户生成指令数据集助力AI对话能力提升

InstructionWild项目汇集11万余条高质量用户生成指令,类型丰富,标签完善。该数据集致力于增强AI模型在生成、开放问答和头脑风暴等领域的对话表现。项目展示了完整的数据收集流程、评估分析和后续规划,为AI研究与应用领域贡献重要资源。

野生指令数据集:基于用户的指令数据集

新闻

我们在 data v2 目录下发布了 InstructWild v2,其中包含超过 11 万条高质量的基于用户的指令。我们没有使用自指令生成任何指令。我们还为这些指令中的一部分标注了指令类型和特殊标签。详情请参阅 README

简介

指令微调是 ChatGPT 的关键组成部分。OpenAI 使用了他们基于用户的指令数据集,但遗憾的是,这个数据集并未开源。Self-Instruct 发布了一个包含 175 条人工编写指令的小型指令数据集。斯坦福 Alpaca 团队基于上述 175 条种子指令,使用 text-davinci-003 模型生成了 5.2 万条指令。

本项目旨在创建一个更大、更多样化的指令数据集。为此,我们收集了(v2 数据集中有 11 万条,v1 数据集中有 429 条)来自 ChatGPT 使用分享的指令,并发布了英文和中文版本。我们发现这些指令非常多样化。我们参照 Alpaca 的方法生成了 5.2 万条指令及其回应。所有数据可以在 datadata v2 目录中找到。

注意:这是一个正在进行的项目。我们仍在收集和改进我们的数据。我们尽早发布这个数据集以加速我们的大语言模型研究。我们也将很快发布一份白皮书。

数据发布

我们的数据集使用与 Alpaca 相同的格式,以便快速和轻松使用。我们的指令没有输入字段。

数据收集(InsturctWild v1)

数据收集

我们从 Twitter 上抓取了超过 700 条噪声指令,并过滤掉了噪声指令。然后我们挑选了 429 条清洁指令以确保高质量。

我们使用了与 Alpaca 类似的方法来收集指令。然而,我们不需要指令的输出,因此避免了人工参与。生成的提示比 Alpaca 的更加多样化,涵盖了更多主题。

我们提供 5 个提示作为示例,用于从 OpenAI API 生成新指令。在收集提示后,我们从 OpenAI API 收集这些指令的回应。英文和中文数据集是分别生成的。总共花费了 880 美元来收集数据集。英文有 5.2 万条指令(约 2400 万个标记),中文也有 5.2 万条指令。

InstructWild 有多好?

Colossal AI 使用我们的模型训练了 ColossalChat 模型。ColossalChat-7B(仅在第一阶段之后)结合了原始的 alpaca 数据集和我们的数据集。我们将 ColossalChat-7B 与 Alpaca-7B 进行比较,看看我们的数据集带来了哪些改进。

评估聊天机器人是困难的。我们对不同类别的指令进行了人工评估。我们的主要发现是:

优点

  • 我们的新数据集改善了模型在生成、开放式问答和头脑风暴指令方面的能力。这与我们的数据收集过程相对应。我们的数据是从 Twitter 收集的,用户倾向于分享他们有趣的提示,主要是生成、开放式问答和头脑风暴类型。

基于 LLaMA 微调模型的局限性

  • Alpaca 和 ColossalChat 都基于 LLaMA。很难弥补预训练阶段缺失的知识。
  • 缺乏计数能力:无法计算列表中的项目数量。
  • 缺乏逻辑(推理和计算)。
  • 倾向于重复最后一句话(未能生成结束标记)。
  • 多语言结果较差:LLaMA 主要在英语数据集上训练(生成表现比问答更好)。

数据集的局限性

  • 缺乏总结能力:微调数据集中没有此类指令。
  • 缺乏多轮对话和角色扮演:微调数据集中没有此类指令。
  • 缺乏自我认知:微调数据集中没有此类指令。
  • 缺乏安全性:
    • 当输入包含虚假事实时,模型会编造虚假事实和解释。
    • 无法遵守 OpenAI 的政策:从 OpenAI API 生成提示时,它总是遵守其政策。因此数据集中没有违规案例。

详细比较

详细比较请参见此处

待办事项

  • 数据集 v1
  • 数据集 v2
  • 细粒度标注(v2)
  • 更大的数据集

作者

本项目目前由以下作者维护:

我们也感谢孙爱信教授杨涛博士的宝贵建议。

引用

如果您使用本仓库中的数据或代码,请引用本仓库。

@misc{instructionwild,
  author = {Jinjie Ni and Fuzhao Xue and Kabir Jain and Mahir Hitesh Shah and Zangwei Zheng and Yang You },
  title = {Instruction in the Wild: A User-based Instruction Dataset},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/XueFuzhao/InstructionWild}},
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号