Llama3-Med42-8B - 临床大模型开创医学问答新时代

Llama3-Med42-8B项目介绍

Llama3-Med42-8B是一个开放获取的临床大型语言模型套件，由M42公司开发，旨在扩大对医学知识的获取。这些生成式人工智能系统由LLaMA-3构建，参数量为8亿或70亿，能够为医学问题提供高质量的答案。Med42-8B项目是这个套件中的一种模型，虽然参数较少，但依然具备出色的能力。

Med42-v2模型系列（包含Llama3-Med42-8B）在临床领域的表现十分出色，尤其是70亿参数的Med42-v2-70B模型在多项选择问答任务（MCQA）中优于GPT-4。虽然Llama3-Med42-8B的参数量较少，但依然在多个评测中显示出竞争力，Elo评分达到924。

目前，Med42-v2模型系列尚未准备好用于真实临床环境，仍在进行大量的人为评估以确保其安全性。这些模型可能会生成错误或有害的信息，并在训练数据中潜在地延续偏见。因此，用户应当负责任地使用这些模型，并在经过严格安全测试之前不应依赖它们用于医学用途。

Llama3-Med42-8B是从Llama3模型基础上微调生成的，利用包含约10亿个标记的数据集进行指令调优。数据来源多样，包括医学记忆卡、考试题目以及开放领域的对话。M42健康人工智能团队是该模型的开发者，模型使用文本作为输入和输出，且目前为静态离线训练模型，未来将发布性能增强的模型版本。

Med42-v2模型系列，包括Llama3-Med42-8B，计划用于临床决策支持及医疗领域的语言模型访问。潜在应用场景包括：

模型训练是在NVIDIA DGX集群和H100 GPU上进行的，使用了PyTorch的全分片数据并行（FSDP）框架。

在开放性问题生成方面，采用Prometheus-8x7b-v2.0来评估模型输出质量。我们使用精心策划的4000个公共健康相关问题，以确保模型在体面对医学情境中表现的稳健性。Med42-v2模型凭借良好的表现获得了较高的评分。

在多项选择题问答评估中，Med42-v2在每一个临床基准测试中都比之前的版本有更优的表现，包括MedQA和USMLE等。

用户可以通过多个渠道报告软件故障或其他问题，例如访问Med42 GitHub页面进行反馈，也可以通过填表报告模型生成的风险内容或安全顾虑。更多信息可查看M42的隐私政策。

我们感谢Torch FSDP团队提供的分布式训练框架，感谢EleutherAI的评估工具以及Hugging Face Alignment团队在负责任的人工智能开发方面的贡献。