OntoGPT 项目介绍
项目简介
OntoGPT 是一个基于 Python 的软件包,其主要功能是利用大型语言模型(LLMs)、指令提示和基于本体的基础设施从文本中提取结构化信息。它为研究人员和开发者提供了一套便捷的工具,帮助他们从非结构化文本数据中获取有价值的信息。
快速开始
OntoGPT 可以通过命令行运行,并且提供了一个简单的网页应用界面。想要使用 OntoGPT,需要确保已安装 Python 3.9 或更高版本,可以通过以下步骤快速上手:
-
安装软件包:
pip install ontogpt
-
设置 OpenAI 的 API 密钥:
runoak set-apikey -e openai <your openai api key>
-
查看所有 OntoGPT 命令列表:
ontogpt --help
-
尝试简单的信息提取示例:
将如下文本保存到文件中:
echo "One treatment for high blood pressure is carvedilol." > example.txt
运行提取命令:
ontogpt extract -i example.txt -t drug
这样就会从文本中提取药物信息,并将结果显示在命令行上。
网页应用
OntoGPT 提供了一个基础的网页应用界面,方便用户进行操作和查看结果。要使用这个网页应用,首先需要安装相关的依赖项:
pip install ontogpt[web]
然后运行以下命令启动网页应用:
web-ontogpt
注意:不建议在没有身份验证的情况下公开托管该网页应用。
模型 API 支持
OntoGPT 使用 litellm
包与各种大型语言模型(LLM)接口。这意味着支持大部分 API,包括 OpenAI、Azure、Anthropic、Mistral、Replicate 等。用户可以通过命令 ontogpt list-models
查看可以使用的模型,结合 --model
选项进行调用。
开放模型获取
开放的 LLMs 可以通过 ollama
包获取并使用。需要安装该工具包,并可能需要启动其服务,然后才能在 OntoGPT 中使用这些模型。
评估
OntoGPT 的功能已经在测试数据上进行了评估,用户可以参考详细文档了解这些评估及复现方法。
相关项目
- TALISMAN: 一个用于生成基因集合内富集功能摘要的工具,使用 OntoGPT 与 LLMs 一起工作。
教程与演示
多场相关演讲展示了如何使用 OntoGPT 进行生物医学文本转化,并与本体及大型语言模型协作。
- “保持基础:在大型语言模型帮助下组装结构化生物知识” 由 Harry Caufield 在 AgBioData Consortium 网络研讨会系列中演讲
- “使用大型语言模型转化非结构化生物医学文本” 由 Harry Caufield 在 ISMB/ECCB 2023 的 BOSC 轨道中演讲
- “OntoGPT: 本体和大型语言模型协作框架” 由 Chris Mungall 在联合食品本体工作组中进行演讲
引用
OntoGPT 使用的信息提取方法(SPIRES)在文献中有详细介绍。该方法通过零样本学习填充知识库。
致谢
本项目是 Monarch Initiative 的一部分,并感谢 Bosch Research 对本研究项目的支持。