项目介绍:STORM 项目简介
背景
STORM(Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking)是一个由斯坦福大学团队开发的大型语言模型系统,旨在从互联网搜索中生成类似维基百科风格的文章。该系统着重于提升信息搜寻和知识整理过程的效率。
项目亮点
- 合作性增强: STORM 的扩展版本 Co-STORM 提出了人机合作的知识整理协议,旨在帮助用户与人工智能系统更有效地进行信息查找和知识管理。
- 广泛应用: 尽管该系统目前生成的文章可能需要进一步编辑以达到出版标准,但经验丰富的维基百科编辑者发现其在撰写前期阶段非常有用。
- 用户广泛体验: 超过 70,000 人已经尝试过这个系统的实时研究预览,许多用户反馈 STORM 有助于他们在知识探索中的旅程。
工作原理
STORM 的操作流程
STORM 通过两个主要步骤生成长篇带引用的文章:
- 前期准备阶段: 系统在互联网上进行研究以收集参考资料并生成提纲。
- 写作阶段: 系统根据生成的提纲和参考资料,撰写带有引用的完整文章。
为了提升问题的广度与深度,STORM 采用了两种策略:
- 视角引导的问题提问: 探索现有类似主题文章的不同视角,利用这些视角控制提问过程。
- 模拟对话: 模拟维基百科编辑者与主题专家之间的对话,以帮助语言模型更新对主题的理解。
Co-STORM 的协作机制
Co-STORM 引入了一个合作性话语协议,支持以下不同角色之间的互动:
- Co-STORM LLM 专家: 通过外部知识库生成回答,并根据话语历史提出后续问题。
- 主持者: 生成由搜索发现但未直接使用的信息启发的引人深思的问题。
- 人类用户: 用户可以自行观察对话以获得更深入的理解,或通过插入话语来引导讨论。
Co-STORM 还维护一个动态更新的思维导图,将收集的信息组织为层次化的概念结构,帮助减少长时间深入讨论带来的认知负担。
安装与使用
要安装知识风暴库,使用命令 pip install knowledge-storm
。
系统的设计高度模块化,用户可以根据不同需求定制信息检索模块和语言模型模块,以创建相应的执行类。
数据集与研究贡献
该项目还发布了一些数据集以支持自动知识整理和复杂信息搜寻的研究:
- FreshWiki 数据集: 包含 100 篇高质量的维基百科文章,聚焦于 2022 年 2 月到 2023 年 9 月期间编辑次数最多的页面。
- WildSeek 数据集: 包含用户在自然环境中的复杂信息搜索任务的兴趣数据。
项目规划与贡献
项目团队正在积极开展以下工作:
- 人机交互功能: 支持用户在知识整理过程中的参与。
- 信息抽象: 开发支撑超越维基百科式报告的展示格式的信息抽象手段。
项目欢迎各类问题和建议,希望通过多方的贡献不断完善系统与代码库。