Meditron-7B-AWQ 项目介绍
项目背景
Meditron 7B-AWQ 是由 EPFL LLM 团队开发的一款大型语言模型,作为 Meditron 7B 模型的量化版本。Meditron 7B 是一个拥有 70 亿参数的模型,专注于医疗领域的自回归解码器语言模型。该模型在 Llama-2-7B 基础之上,继续进行预训练,所使用的数据包括精心挑选的医学文献、PubMed 文章和国际公认的医学指南等。
模型特点
- 模型类型: 自回归解码语言模型
- 语言支持: 主要支持英语
- 开发者: EPFL LLM 团队
- 许可证: Llama2 社区许可证
- 模型原型: Llama-2-7B
AWQ 量化技术
AWQ 是一种高效、准确且快速的低位权重量化方法,支持 4 位量化。相比于 GPTQ,它提供了更快的 Transformers 推理速度,并且在质量上不输于常用设置。AWQ 模型可用于多种推理框架,包括 AutoAWQ、vLLM 和 Hugging Face 的 Transformers 库。
可用资源
- GPU 推理: AWQ 模型
- CPU+GPU 推理: 提供多种量化参数选项的 GPTQ 模型
- 未量化的模型: 原有的未量化 fp16 PyTorch 格式模型
使用方法
使用 text-generation-webui
- 确保使用最新版本的 text-generation-webui。
- 在Model标签下下载
TheBloke/meditron-7B-AWQ
。 - 选择Loader: AutoAWQ,点击Load即可加载模型进行文本生成。
使用 vLLM 服务器
要使用 vLLM 作为多用户推理服务器,请确保版本为0.2或更高,并使用--quantization awq
参数运行。
使用 Hugging Face TGI
务必使用 TGI 版本 1.1.0 或更高,通过 Docker 参数设置 quantization 来使用 AWQ 模型进行推理。
使用 Transformers 库
安装必要的库,例如 Transformers(版本 4.35.0 或更高)和 AutoAWQ,随后可通过示例代码进行推理。
未来发展
该项目目前发布的模型是静态训练的,未来计划发布性能增强的模型。Meditron-7B 已被用作 AI 助手来测试和评估医疗决策过程中的潜力。为确保安全使用,建议进行全面的用例对齐和额外测试,包括随机对照试验。
使用场景
- 医学考试问答
- 支持鉴别诊断
- 疾病信息查询
- 常规健康信息查询
免责声明
虽然 Meditron 旨在从高质量证据来源中编码医学知识,但尚未经过调整以在专业实际需求中合理、安全地传达这些知识。因此,不建议在没有广泛测试和调整的情况下将 Meditron 部署在医疗应用中。