ClinicalNER项目介绍
项目概述
ClinicalNER是一个多语言临床命名实体识别(NER)模型,专门用于从医疗文本中提取药物(DRUG)、强度(STRENGTH)、频率(FREQUENCY)、持续时间(DURATION)、剂量(DOSAGE)和形式(FORM)等实体信息。该模型基于XLM-R Base,并在英语n2c2数据集上进行了微调。在零样本跨语言迁移设置下,它在法语评估测试集MedNERF上取得了最佳结果。
模型特点
-
多语言支持:该模型支持多种语言,包括法语、英语、德语、西班牙语和意大利语等。
-
高性能:在MedNERF数据集上,模型展现出优秀的性能表现:
- 准确率(Accuracy):0.859
- 精确率(Precision):0.817
- 召回率(Recall):0.791
- 微平均F1分数(micro-F1):0.804
- 宏平均F1分数(macro-F1):0.819
-
易于使用:开发者可以通过简单的Python代码调用模型,快速实现临床文本的实体识别。
应用场景
ClinicalNER模型可以在多种医疗相关场景中发挥作用,例如:
- 电子病历分析:从病历中自动提取药物信息和用药说明。
- 医学文献研究:快速识别文献中的关键药物信息和治疗方案。
- 临床决策支持:辅助医生快速了解患者的用药历史和当前用药情况。
- 药物安全监测:自动从大量临床数据中提取药物相关信息,用于药物安全性分析。
使用方法
开发者可以通过以下简单的Python代码来使用ClinicalNER模型:
from transformers import AutoModelForTokenClassification, AutoTokenizer
model = AutoModelForTokenClassification.from_pretrained("Posos/ClinicalNER")
tokenizer = AutoTokenizer.from_pretrained("Posos/ClinicalNER")
inputs = tokenizer("Take 2 pills every morning", return_tensors="pt")
outputs = model(**inputs)
模型贡献
ClinicalNER项目为医疗自然语言处理领域带来了重要贡献。它不仅提供了一个高性能的多语言临床实体识别工具,还为跨语言迁移学习在医疗领域的应用提供了valuable insights。研究者们可以基于此模型进行更深入的研究,如探索不同语言之间的医疗术语映射、改进多语言医疗NLP模型的性能等。
开源贡献
ClinicalNER项目采用cc-by-nc-sa-4.0许可证,鼓励学术研究和非商业用途的应用。研究者在使用该模型时,应当按照指定格式引用相关论文,以支持和鼓励开源社区的持续发展。