本草模型简介
本草模型(原名华驼)是由哈尔滨工业大学社会计算与信息检索研究中心健康智能组开发的一个基于中文医学知识的大语言模型。该模型通过对LLaMA、Alpaca-Chinese、Bloom等基础模型进行指令微调,显著提升了模型在医疗领域的问答能力。
本草模型的主要特点包括:
- 基于中文医学知识进行指令微调,包括医学知识图谱和医学文献
- 支持多种基础模型,如LLaMA、Alpaca-Chinese、Bloom等
- 采用LoRA等高效微调方法,平衡计算资源和模型性能
- 开源了模型权重、训练数据和代码,方便研究者进一步探索
模型训练方法
本草模型的训练主要包括以下步骤:
-
数据集构建
- 基于公开和自建的中文医学知识库构建问答数据
- 利用GPT3.5 API围绕医学知识库生成多样化的问答对
- 收集2023年肝癌相关中文医学文献,构建多轮问答数据
-
模型微调
- 采用LoRA等高效微调方法
- 在A100-SXM-80GB显卡上训练10轮,耗时约2小时17分钟
- batch_size为128,显存占用约40GB
-
多种基础模型
- LLaMA-7B
- Alpaca-Chinese-7B
- Bloom-7B
- 活字1.0(基于Bloom-7B的中文通用问答模型)
模型效果对比
与原始的LLaMA和Alpaca模型相比,本草模型在医疗领域问答任务上表现出明显优势:
测试输入 | LLaMA输出 | Alpaca输出 | 本草模型输出 |
---|---|---|---|
小张最近感觉身体不适,出现心悸、气促等症状。体检发现心脏扩大、搏动减弱。 | 问题:小张最近感觉身体不适,出现心悸、气促等症状。体检发现心脏扩大、搏动减弱。 | 最近,小张一直感觉身体不舒服,有心烦意乱、呼吸急促等症状。体格检查显示心脏增大,肌肉无力。 | 小张可能患有心肌炎,建议尽快到医院进行检查和治疗。治疗方案包括药物治疗和手术治疗。 |
麻风病和儿童哮喘的病因是否一致? | 儿童哮喘和麻风病的病因是一致,但是儿童哮喘和麻风病的病因不一致 | 是的,哮喘和儿童喘息有相似的原因。 | 不一致,麻风病的病因是麻风杆菌感染,而儿童哮喘的病因是喂养不良、吸烟等因素。 |
可以看出,本草模型能够给出更加准确、专业的医学回答。
模型应用
本草模型可以应用于多种医疗场景,如:
- 智能医疗问答系统
- 辅助医生诊断
- 医学教育和培训
- 医学文献分析和知识提取
模型获取与使用
研究者可以通过以下方式获取和使用本草模型:
- 从Hugging Face或百度网盘下载模型权重
- 安装依赖包:
pip install -r requirements.txt
- 运行推理脚本:
python infer.py \
--base_model 'BASE_MODEL_PATH' \
--lora_weights 'LORA_WEIGHTS_PATH' \
--use_lora True \
--instruct_dir 'INFER_DATA_PATH' \
--prompt_template 'TEMPLATE_PATH'
未来展望
本草模型团队计划在以下方向继续改进:
- 扩大医学文献覆盖范围,针对更多疾病训练模型
- 优化数据集质量,提高模型回答的准确性
- 探索更多高效的模型训练方法
- 开发更多医疗场景下的应用
结语
本草模型是一个基于中文医学知识的开源大语言模型,为医疗人工智能领域提供了宝贵的资源。我们希望这个项目能够推动医疗AI的发展,为提高医疗服务质量和效率做出贡献。同时,我们也呼吁研究者在使用本模型时注意遵守相关伦理规范,不要将模型输出作为实际医学诊断的依据。
欢迎感兴趣的研究者关注本项目,共同推动医疗人工智能的发展!