医疗概念注释工具
MedCAT可以用于从电子健康记录(EHRs)中提取信息,并将其链接到类似SNOMED-CT和UMLS的生物医学本体。 arXiv上的论文。
官方文档在这里
讨论论坛discourse
可用模型
我们有4个公开模型可用:
- UMLS Small(一个包含UMLS子集的模型包(疾病、症状、药物...)。在MIMIC-III上训练)
- SNOMED International(完整SNOMED模型包,在MIMIC-III上训练)
- UMLS Dutch v1.10(由UMC Utrecht提供的包含荷兰名称的UMLS实体的模型包,在荷兰医学维基百科文章上训练,以及一个否定检测模型仓库/论文,在EMC荷兰临床语料库上训练)
- UMLS Full。>4百万概念自我监督训练于MIMIC-III。UMLS的v2022AA版本。
要下载这些模型中的任何一个,请点击此链接并登录您的NIH资料/UMLS许可证。然后,您将被重定向到MedCAT模型下载表单。请完成此表单,您将获得下载链接。
新闻
- 论文 van Es, B., Reteig, L.C., Tan, S.C. et al. 荷兰临床文本中的否定检测:规则基础和机器学习方法的评估. BMC Bioinformatics 24, 10 (2023).
- Cogstack生态系统中的新工具 [2022年12月19日] Foresight——使用电子健康记录的患者时间线深度生成建模
- 使用MedCAT的新论文 [2022年10月21日]: 一个用于临床部分识别的新公共语料库:MedSecId。
- 使用权限的重大变化 [2022年8月4日] MedCAT现在使用弹性许可证2.0。更多信息请点击这里。
- 新下载器 [2022年3月15日]:您现在可以通过UMLS用户认证下载最新的SNOMED-CT和UMLS模型包。
- 新特性和教程 [2021年12月7日]: 使用MedCAT和Neo4j探索电子健康记录
- 新小版本发布 [2021年10月20日] 介绍模型包,新的大型数据集(100M+文档)的更快多重处理以及改进的MetaCAT。
- 新版本发布 [2021年8月1日]:升级MedCAT以使用spaCy v3,需要下载新的scispaCy模型——所有旧的CDB(与MedCAT v1兼容)无需更改即可正常工作。
- 新特性和教程 [2021年7月8日]:将🤗 Transformers与MedCAT集成以进行生物医学NER+L
- 一般 [2021年4月1日]: MedCAT升级到v1,不幸的是,这引入了与旧模型(MedCAT v0.4)的重大更改,以及可能与所有使用MedCAT包的代码存在的问题。MedCAT v0.4在旧版本分支可用,并将继续支持直到2021年7月1日(就潜在错误修复而言),之后将继续可用但不再更新。
- 论文:总结中有什么?为医院课程总结的进步奠定基础
- (更多...)
安装
要安装最新版本的MedCAT,请运行以下命令:
pip install medcat
正常安装MedCAT将安装torch-gpu和所有相关依赖(如CUDA)。这可能需要额外的10GB磁盘空间,这对于仅限CPU使用方式不是必需的。
要安装不带torch GPU支持的最新版本MedCAT,请运行以下命令:
pip install medcat --extra_index_url https://download.pytorch.org/whl/cpu/
演示
一个演示应用程序在MedCAT可用。这是在MIMIC-III和所有SNOMED-CT上训练的。 PS:第一次加载此链接可能需要很长时间。机器按需启动,闲置时关闭。
教程
关于如何使用MedCAT的指南可在MedCAT教程获得。有关MedCAT的更多信息请阅读Towards Data Science。
日志记录
由于MedCAT主要是一个库,默认情况下日志记录已被有效禁用。这个想法是库的用户应该有权选择特定库使用的信息日志的内容、位置和方式。
这个想法是用户可以直接按照需要修改整个库或某些模块的日志记录行为。我们提供了一个便利的方法来添加将日志记录到控制台和_medcat.log_(medcat.add_default_log_handlers
)的默认处理程序。
关于如何配置日志记录的一些细节在MedCAT教程中有描述。
鸣谢
实体提取是在MedMentions中训练的,总共有大约35K的UMLS实体
词汇是从Wiktionary编译的,总共约800K个唯一单词
技术支持
非常感谢spaCy和Hugging Face,他们使得我们的工作变得非常轻松。
引用
@ARTICLE{Kraljevic2021-ln,
title="Multi-domain clinical natural language processing with {MedCAT}: The Medical Concept Annotation Toolkit",
author="Kraljevic, Zeljko and Searle, Thomas and Shek, Anthony and Roguski, Lukasz and Noor, Kawsar and Bean, Daniel and Mascio, Aurelie and Zhu, Leilei and Folarin, Amos A and Roberts, Angus and Bendayan, Rebecca and Richardson, Mark P and Stewart, Robert and Shah, Anoop D and Wong, Wai Keong and Ibrahim, Zina and Teo, James T and Dobson, Richard J B",
journal="Artif. Intell. Med.",
volume=117,
pages="102083",
month=jul,
year=2021,
issn="0933-3657",
doi="10.1016/j.artmed.2021.102083"
}