项目介绍:OpenGPT
OpenGPT 是一个框架,专门用于创建基于地面指令的数据集,并训练可以进行对话的领域专家大型语言模型(LLMs)。该项目致力于为特定领域,如医疗健康,开发出色的对话模型。
NHS-LLM:专为医疗健康设计的对话模型
NHS-LLM 是一个针对医疗健康领域的对话模型,使用 OpenGPT 训练而成。该模型所使用的所有医疗数据集都是通过 OpenGPT 创建的。这些数据集在 OpenGPT 中被精心研发,用于在医疗健康领域提供更准确和专业的对话支持。
可用数据集
-
NHS UK 问答数据集:包含24,665对问答,使用来自 NHS UK 官网的数据生成。用户可以在此处下载。
-
NHS UK 对话数据集:包含2,354个独特对话,也是使用 NHS UK 官网上的数据生成。下载链接。
-
医疗任务/解决方案数据集:使用 GPT-4 生成的4,688对任务解决方案。下载链接。
所有数据集均可在 /data
文件夹中找到。
安装指南
要安装 OpenGPT,请执行以下命令:
pip install opengpt
如果您正在使用 LLaMA 模型,还需要额外安装一些必备组件:
pip install -r ./llama_train_requirements.txt
使用教程
关于如何制作适用于医疗健康的小型对话 LLM 的详细教程,请参阅Google Colab 的演示示例。
如何使用
-
收集基础数据集:首先在某一领域收集基础数据。例如可以从 NHS UK 收集所有疾病的定义样本数据。
-
编辑训练配置:修改训练配置文件,添加您想用于训练的数据集。
-
训练模型:使用训练笔记本训练新的数据集,或者运行训练脚本。
如有问题,请访问我们的讨论论坛。