eds-pseudo-public项目介绍
项目概述
eds-pseudo-public是一个专门用于检测文档中的身份识别实体的项目。该项目最初在AP-HP(巴黎公立医院集团)的临床数据仓库(EDS)的临床报告上进行了测试。该模型基于edsnlp构建,是一个混合模型(基于规则和深度学习)。
主要功能
该项目可以检测以下类型的实体:
- 地址(ADRESSE)
- 日期(DATE)
- 出生日期(DATE_NAISSANCE)
- 医院名称(HOPITAL)
- 患者内部标识符(IPP)
- 电子邮件地址(MAIL)
- 就诊内部标识符(NDA)
- 姓氏(NOM)
- 名字(PRENOM)
- 社保号码(SECU)
- 电话号码(TEL)
- 城市(VILLE)
- 邮政编码(ZIP)
模型结构
该模型采用混合架构,包含以下组件:
- 基于规则的部分:提供了一系列规则来检测实体。
- 深度学习部分:通过训练神经网络来识别复杂模式。
使用方法
用户可以通过以下步骤使用预训练模型:
- 安装最新版本的edsnlp
- 获取HuggingFace上的模型访问权限
- 加载模型并应用于文本
该项目还提供了一个在线演示,用户可以直接测试模型的效果。
性能指标
在AP-HP Pseudo测试集上,该模型在多个实体类型上都取得了优秀的性能,总体micro F1分数达到97.4%。
训练与复现
项目提供了完整的训练脚本和配置文件,用户可以根据自己的需求进行模型训练。同时还提供了生成合成数据集的脚本,方便用户进行实验。
开源与贡献
eds-pseudo-public项目是开源的,欢迎社区贡献。用户可以通过GitHub克隆代码,安装依赖,并参与到项目开发中来。
总结
eds-pseudo-public是一个功能强大、性能优秀的身份识别实体检测工具,可广泛应用于医疗文档的去标识化处理。它不仅提供了预训练模型,还开放了完整的训练流程,具有很高的实用价值和研究价值。