项目概述
MedNER-CR-JA是一个专门用于日语医疗文档命名实体识别的模型。该项目主要针对医疗记录中的实体进行识别和标注,能够有效处理日语医疗文本数据。
功能特点
这个模型可以识别医疗文档中的各种实体,包括疾病名称、用药信息和时间表达等。它能够对医疗文本进行智能分析,并以标准化的XML格式输出结果,使医疗文档的结构化处理变得更加便捷。
使用方法
使用该模型非常简单,用户需要下载以下五个关键文件并将它们放在同一个文件夹中:
- id_to_tags.pkl:标签映射文件
- key_attr.pkl:属性键值文件
- NER_medNLP.py:核心处理程序
- predict.py:预测执行程序
- text.txt:输入文本文件(可根据需要修改)
运行模型只需要执行一个简单的命令:python3 predict.py
实际应用示例
该模型可以处理如下形式的医疗文本:
肥大型心筋症、心房細動に対してWF投与が開始となった。
治療経過中に非持続性心室頻拍が認められたためアミオダロンが併用となった。
处理后会生成带有标记的结构化输出:
<d certainty="positive">肥大型心筋症、心房細動</d>に対して<m-key state="executed">WF</m-key>投与が開始となった。
<timex3 type="med">治療経過中</timex3>に<d certainty="positive">非持続性心室頻拍</d>が認められたため<m-key state="executed">アミオダロン</m-key>が併用となった。
技术规范
- 开发语言:主要使用Python
- 许可证:CC-BY-4.0
- 支持语言:日语
- 评估指标:采用NTCIR-16 Real-MedNLP subtask 1标准
- 训练数据集:MedTxt-CR-JA-training-v2.xml
研究成果
该项目的研究成果已在第16届NTCIR信息访问技术评估会议上发表。论文由来自NAISTSOC的研究团队完成,详细介绍了该模型的技术细节和实现方法。这表明该项目具有扎实的学术基础和实际应用价值。