SimplyRetrieve：私密轻量级的检索中心生成式AI工具

GitHub GitHub release (with filter)

📰新闻：2023年8月21日 -- 用户现在可以通过GUI中新增的"知识标签"即时创建和追加知识。此外，配置和知识标签中还添加了进度条。

🤔 什么是SimplyRetrieve？

SimplyRetrieve是一个开源工具，旨在为机器学习社区提供完全本地化、轻量级且用户友好的GUI和API平台，用于检索中心生成（RCG）方法。

使用您的文档和语言模型创建聊天工具，高度可定制。特点包括：

📚 基于GUI和API的检索中心生成平台
🔧 检索调优模块，包括提示工程、工具配置和检索分析
🏡 私有知识库构建器
🧠 完全本地化、私密且轻量级访问各种规模的开源大型语言模型（LLMs）
🚥 多用户并发访问UI，利用Gradio的队列功能

关于这个工具的技术报告可在arXiv上获取。📖

关于这个工具的短视频可在YouTube上观看。🎞️

工具概览

💡 为什么要开发这个工具？

我们的目标是通过分享我们的开源工具来实现RCG方法，从而促进安全、可解释和负责任的LLMs的发展。我们希望这个工具能让机器学习社区以更高效的方式探索LLMs的使用，同时保持隐私和本地实现。检索中心生成在检索增强生成（RAG）概念的基础上，强调LLMs在上下文解释中的关键作用，并将知识记忆委托给检索器组件，有潜力产生更高效和可解释的生成，并减少生成任务所需的LLMs规模。这个工具可以在单个Nvidia GPU上运行，如T4、V100或A100，使其对广泛的用户都可访问。

这个工具主要基于Hugging Face、Gradio、PyTorch和Faiss这些优秀且熟悉的库构建。该工具中默认配置的LLM是经过指令微调的Wizard-Vicuna-13B-Uncensored。检索器的默认嵌入模型是multilingual-e5-base。我们发现这些模型在这个系统中运行良好，Hugging Face中还有许多其他不同规模的开源LLMs和检索器可用。这个工具也可以使用英语以外的其他语言运行，只需根据目标语言选择适当的LLMs并自定义提示模板即可。

🔍 使用这个工具可以探索哪些潜在的发展？

检验检索中心生成在开发更安全、更可解释和负责任的AI系统中的有效性
优化检索中心生成方法中上下文解释和知识记忆分离的效率
改进检索中心生成的提示工程技术
实现完全本地和边缘计算的聊天AI
创建针对个别用户定制的个性化AI助手

🔨 运行此工具的先决条件是什么？

Git克隆此仓库。
在基于GPU的Linux机器上，激活你喜欢的Python虚拟环境，安装必要的包
- pip install -r requirements.txt
可选：如果你想使用自己的数据作为知识源，可以按以下步骤操作。但是，如果你想从更简单的示例开始，可以跳过这些步骤，使用工具提供的默认简单样本知识源。请注意，样本知识源仅用于演示目的，不应用于性能评估。为了获得准确的结果，建议使用你自己的知识源或维基百科源进行一般用途。
- 准备用于检索的知识源：将相关文档（pdf等）放入chat/data/目录，然后运行数据准备脚本（cd chat/后执行以下命令）
```
CUDA_VISIBLE_DEVICES=0 python prepare.py --input data/ --output knowledge/ --config configs/default_release.json
```
- 支持的文档格式有pdf、txt、doc、docx、ppt、pptx、html、md、csv，可通过编辑配置文件轻松扩展。如果出现NLTK相关错误，请参考此问题的提示。
- 最新：现在可以通过GUI工具的"知识"选项卡创建知识库。用户现在可以即时添加知识。在运行工具之前不需要执行上述prepare.py脚本。

🏃 如何运行此工具？

设置好上述先决条件后，将当前路径设置为chat目录（cd chat/），执行以下命令。然后"去喝杯咖啡吧！"因为它只需要几分钟就能加载完成。

CUDA_VISIBLE_DEVICES=0 python chat.py --config configs/default_release.json

然后，通过在你喜欢的浏览器中导航到http://<本地服务器IP>:7860来访问基于Web的GUI。将<本地服务器IP>替换为你的GPU服务器的IP地址。就是这样，你已经准备就绪了！

关于GUI操作手册，请参考docs/目录中的GUI自述文件。
关于API访问手册，请参考examples/目录中的API自述文件和示例脚本。

以下是GUI的示例聊天截图。它提供了一个熟悉的流式聊天机器人界面，带有全面的RCG调优面板。

平台GUI示例

目前没有本地GPU服务器来运行这个工具？没问题。访问这个仓库。它展示了在AWS EC2云平台上尝试这个工具的说明。

🤝 贡献

欢迎给我们任何反馈和评论。我们非常欢迎关于这个工具的任何讨论和贡献，包括新功能、改进和更好的文档。随时开启问题或讨论。我们目前还没有问题或讨论的模板，所以现在任何形式都可以。

🛣️ 路线图

未来发展

支持vLLM PagedAttention高吞吐量推理
添加检索中心记忆（聊天历史）组件
创建全面的文档

⚠️ 局限性

需要注意的是，即使在以检索为中心的方法中，这个工具也不能为确保生成式AI模型完全安全和负责任的响应提供万无一失的解决方案。开发更安全、可解释和负责任的AI系统仍然是一个活跃的研究领域和持续的努力。

由于当前一代LLM的下一个token预测行为，即使只是稍微修改提示或查询，该工具生成的文本也可能会出现变化。这意味着用户可能需要仔细微调提示和查询，以获得最佳响应。

📝 引用

如果你觉得我们的工作有用，请按以下方式引用我们：

@article{ng2023simplyretrieve,
    title={SimplyRetrieve: A Private and Lightweight Retrieval-Centric Generative AI Tool}, 
    author={Youyang Ng and Daisuke Miyashita and Yasuto Hoshi and Yasuhiro Morioka and Osamu Torii and Tomoya Kodama and Jun Deguchi},
    year={2023},
    eprint={2308.03983},
    archivePrefix={arXiv},
    primaryClass={cs.CL},
    journal={arXiv preprint arXiv:2308.03983}
}

🏛️ 机构：日本铠侠株式会社记忆技术研发所