Project Icon

KG_RAG

解锁医学知识图谱的力量和KG-RAG框架概述

KG-RAG,一种融合生物医学知识图谱SPOKE与大型语言模型的检索增强生成系统,专为提升特定领域的语义理解而设计。了解其配置、运行方法及在生物医学应用中的实例。

KG-RAG 项目介绍

什么是 KG-RAG?

KG-RAG 是知识图谱增强生成 (Knowledge Graph-based Retrieval Augmented Generation) 的简称。它是一种与特定任务无关的框架,通过结合知识图谱 (KG) 的显性知识与大型语言模型 (LLM) 的隐性知识来增强文本生成。具体来说,KG-RAG 使用一个名为 SPOKE 的大规模生物医学知识图谱来提供生物医学背景。SPOKE 汇集了来自不同领域的 40 多个生物医学知识库,涵盖基因、蛋白质、药物、化合物、疾病及其关联。SPOKE 拥有超过2700万个节点和5300万条边。

KG-RAG 的核心功能在于从 SPOKE KG 中提取“提示感知上下文”,即足以回应用户提示的最小上下文。因此,该框架通过植入一个优化的领域特定的“提示感知上下文”来增强通用 LLM。

KG-RAG 的应用示例

一个典型的例子是 FDA 网站发布了一则关于药物“setmelanotide”的新闻,该药被 FDA 批准用于管理 Bardet-Biedl 综合征患者的体重。当使用 KG-RAG 提问 GPT-4 时,系统能够提供有关该药物的准确信息。

如何运行 KG-RAG

目前,KG-RAG 专为与疾病相关的提示而设计,我们正在积极改进其多样性。以下是运行 KG-RAG 的步骤:

步骤 1:克隆仓库

首先克隆该项目的代码库,所有使用的生物医学数据已上传至该仓库,无需单独下载。

步骤 2:创建虚拟环境

建议使用 Python 3.10.9 运行脚本。

conda create -n kg_rag python=3.10.9
conda activate kg_rag
cd KG_RAG

步骤 3:安装依赖

pip install -r requirements.txt

步骤 4:更新配置文件 config.yaml

确保更新 config.yaml 文件以包含运行脚本所需的所有信息。另一个文件 system_prompts.yaml 已经过配置,用于 KG-RAG 框架中的系统提示。

步骤 5:运行安装脚本

安装脚本将以交互方式运行,用于创建疾病向量数据库并可选下载 Llama 模型。

python -m kg_rag.run_setup

步骤 6:从终端运行 KG-RAG

您可以分别使用 GPT 和 Llama 模型运行 KG-RAG。

使用 GPT
# GPT_API_TYPE='azure'
python -m kg_rag.rag_based_generation.GPT.text_generation -g <选择的GPT型号 - "gpt-4" 或 "gpt-35-turbo">
# GPT_API_TYPE='openai'
python -m kg_rag.rag_based_generation.GPT.text_generation -g <选择的GPT型号 - "gpt-4" 或 "gpt-3.5-turbo">
使用 GPT 互动模式

用户可以逐步互动运行流程

# GPT_API_TYPE='azure'
python -m kg_rag.rag_based_generation.GPT.text_generation -i True -g <选择的GPT型号 - "gpt-4" 或 "gpt-35-turbo">
# GPT_API_TYPE='openai'
python -m kg_rag.rag_based_generation.GPT.text_generation -i True -g <选择的GPT型号 - "gpt-4" 或 "gpt-3.5-turbo">
使用 Llama

如果您未在安装步骤下载 Llama 模型,首次运行时可能需要一些时间下载。

python -m kg_rag.rag_based_generation.Llama.text_generation -m <方法-1 或 方法-2,若不指定则用"方法-1">
使用 Llama 互动模式

用户可逐步进行交互式运行

python -m kg_rag.rag_based_generation.Llama.text_generation -i True -m <方法-1 或 方法-2,若不指定则用"方法-1">

KG-RAG 命令行参数

以下是在命令行调用时可以使用的一些参数:

参数默认值含义可选项备注
-ggpt-35-turbo选择 GPT 模型GPT models provided by OpenAI仅适用于 GPT 模型
-iFalse是否启用互动模式(逐步显示过程)True 或 False可用于 GPT 和 Llama 模型
-eFalse是否显示图中关联的证据True 或 False可用于 GPT 和 Llama 模型
-mmethod-1选择分词器方法method-1 或 method-2. method-1 使用 'AutoTokenizer' ,method-2 使用 'LlamaTokenizer' 且设置 'legacy' 为 False仅适用于 Llama 模型

BiomixQA:基准数据集

BiomixQA 是一个经过策划的生物医学问答数据集,用于验证 KG-RAG 框架在不同 LLMs 上的表现。它包括:

  • 多项选择题 (MCQ)
  • 真/假题

该数据集的多样性和覆盖范围使其特别适合支持生物医学自然语言处理、知识图推理和问答系统研究与开发。该数据集可在 Hugging Face 上获取,加载简单:

from datasets import load_dataset

# 加载多项选择题数据
mcq_data = load_dataset("kg-rag/BiomixQA", "mcq")

# 加载真/假题数据
tf_data = load_dataset("kg-rag/BiomixQA", "true_false")

引用

如果您使用了 KG-RAG 项目,请在文献中引用以下文章:

@article{soman2023biomedical,
  title={Biomedical knowledge graph-enhanced prompt generation for large language models},
  author={Soman, Karthik and Rose, Peter W and Morris, John H and Akbas, Rabia E and Smith, Brett and Peetoom, Braian and Villouta-Reyes, Catalina and Cerono, Gabriel and Shi, Yongmei and Rizk-Jackson, Angela and others},
  journal={arXiv preprint arXiv:2311.17330},
  year={2023}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号