Meditron-7B项目介绍
Meditron-7B是一个以医疗领域为核心的开源大型语言模型套件。它是通过在全面精选的医疗语料库上,基于Llama-2-7B模型进行持续预训练发展而来的。其语料库包括了精选的PubMed文章、摘要、国际公认的医疗指南的新数据集,以及来自RedPajama-v1的通用领域数据。相较于原始的Llama-2-7B和PMC-Llama,Meditron-7B在多个医疗推理任务中表现出色。
模型详情
- 开发者: EPFL LLM团队
- 模型类型: 仅解码的因果变换器语言模型
- 语言: 主要为英语
- 模型许可证: LLAMA 2社区许可证协议
- 代码许可证: Apache 2.0许可证
- 继续预训练自: Llama-2-7B
- 上下文长度: 2000 tokens
- 输入: 仅文本数据
- 输出: 模型生成文本
- 状态: 这是基于离线数据集训练的静态模型
- 知识截止日期: 2023年8月
模型资源
- Repository: epflLLM/meditron
- Trainer: epflLLM/Megatron-LLM
- 论文: MediTron-70B: Scaling Medical Pretraining for Large Language Models
用途
Meditron-7B被设计为增强临床决策的AI助手,扩大医疗使用大型语言模型的访问。其潜在使用场景包括但不限于:
- 医学考试问题解答
- 支持鉴别诊断
- 疾病信息查询(症状、原因、治疗)
- 一般健康信息查询
风险与偏见
虽然Meditron设计用来编码高质量证据来源的医疗知识,但尚未适配于提供这些知识的适当性、安全性或在专业可操作限制内实施。我们建议在未经过广泛的用例对齐和额外测试(尤其是包括真实世界随机对照试验)的情况下,不要将Meditron用于医疗应用。
训练详情
Meditron的领域自适应预训练语料库GAP-Replay结合了四个语料库的48.1亿tokens:
- 临床指南: 提供46K份国际认可的临床实践指南
- 医学论文摘要: 来自PubMed的16.1M封闭访问论文摘要
- 医学论文: 来自PubMed的5M公开访问全文
- 重播数据: 来自RedPajama-v1的通用领域预训练数据
环境影响
- 硬件类型: 8 x NVIDIA A100 (80GB) SXM
- 总GPU小时数: 588.8
- 硬件提供商: EPFL研究计算平台
- 计算区域: 瑞士
- 碳排放: 估计为6.8 kgCO2
评价与结果
Meditron-7B在多个医疗数据集上被微调,显示出优异的性能。例如,在PubMedQA、MedMCQA等评估基准上,Meditron-7B均表现优于其他模型。希望通过进一步的改进和微调,扩大其在更多应用中的使用。
Meditron-7B作为一个医疗领域的语言模型,为未来医学决策支持与信息查询提供了潜力巨大的创新技术基础,但其风险、偏见和局限性仍需进一步研究与评估。