项目介绍:MedCAT 医学概念标注工具
项目概述
MedCAT(Medical Concept Annotation Tool)是一款强大的工具,旨在从电子健康记录(EHRs)中提取信息,并将其链接到生物医学本体论,如 SNOMED-CT 和 UMLS。这一工具特别适用于医疗领域的数据处理和分析任务。
可用模型
MedCAT 提供四种公共模型:
-
UMLS Small:该模型包含部分 UMLS 内容(如疾病、症状、药物等),在 MIMIC-III 上进行训练。
-
SNOMED International:完整的 SNOMED 模型包,同样在 MIMIC-III 上训练。
-
UMLS Dutch v1.10:由乌得勒支大学医学中心提供,此模型包含荷兰语名称的 UMLS 实体。训练数据包括荷兰医疗维基百科文章和 negation detection 模型,后者基于 EMC 荷兰临床语料库。
-
UMLS Full:包含超过400万概念,通过自监督学习方法在 MIMIC-III 上训练,基于 UMLS 的 v2022AA 版本。
用户如需下载模型,可以通过 UMLS 用户身份验证获取下载链接。
新闻动态
-
新工具发布(2022年12月19日):CogStack 生态系统推出新工具“Foresight”,用于基于电子健康记录的患者时间线的深度生成建模。
-
权限使用重大变更(2022年8月4日):MedCAT 现使用 Elastic License 2.0。
-
新功能和教程(2021年12月7日):介绍了如何结合 MedCAT 和 Neo4j 探索电子健康记录。
安装指南
要安装最新版本的 MedCAT,可以运行以下命令:
pip install medcat
对需要在没有 GPU 支持的环境中使用 MedCAT 的用户,他们可以运行如下命令:
pip install medcat --extra_index_url https://download.pytorch.org/whl/cpu/
其他功能
-
演示版本:用户可以通过 MedCAT 官方演示网站测试其功能。该演示基于 MIMIC-III 和 SNOMED-CT。
-
教程和文档:MedCAT 提供详细的使用指南,帮助用户更好地利用该工具进行电子健康记录的分析。
-
日志功能:用户可以灵活地配置日志记录,确保信息日志满足特定需求。
感谢
MedCAT 的实体提取功能基于 MedMentions 训练,词汇表则部分使用了 Wiktionary 的资源。此外,项目特别感谢 spaCy 和 Hugging Face 这些平台的支持。
MedCAT 是一款不可或缺的工具,为医疗数据的智能分析和处理提供了有效的解决方案。其丰富的功能和灵活的配置,让医疗科研和数据分析人员得以高效地从繁多的医疗记录中提取出关键信息。