项目介绍:Bio_Discharge_Summary_BERT模型
背景简介
Bio_Discharge_Summary_BERT模型是从公开的ClinicalBERT嵌入中衍生出来的四个独特模型之一。这些模型最初是基于BERT-Base或BioBERT,并在不同的数据集上进行训练。本项目专注于从BioBERT初始化,并仅使用MIMIC数据库的出院总结数据进行训练。
预训练数据
Bio_Discharge_Summary_BERT模型的训练数据来自MIMIC III数据库。MIMIC是一个包含来自波士顿Beth Israel医院ICU病人电子健康记录的数据库。该数据库中包含了大量的出院总结,以供模型进行学习,总计约880百万字。
模型预训练
笔记预处理
在预训练前,MIMIC中的每条笔记首先使用基于规则的部分分离器进行分段,例如,将出院总结分为“当前病史”、“家族史”和“住院简要经过”等部分。然后,每个部分使用SciSpacy的分词器进一步分为句子。
预训练程序
模型使用来自谷歌BERT代码库的代码,在GeForce GTX TITAN X 12 GB GPU上进行训练。模型参数使用BioBERT进行初始化。
预训练超参数
在模型的预训练过程中,使用的批量大小为32,最大序列长度为128,学习率设为5×10^-5。模型训练了150,000步,并为输入数据添加了不同掩码的复制因子设为5。其他参数保持默认,具体包括掩码语言模型的概率为0.15,每个序列的最大预测数为20。
如何使用模型
可以通过transformers库加载模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
model = AutoModel.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
更多信息
想了解更多关于该模型的细节以及其在自然语言推理(NLI)和命名实体识别(NER)任务上的表现,请参考原始论文:Publicly Available Clinical BERT Embeddings。
问题咨询
如果有任何问题,可以在clinicalBERT的Github仓库中提交问题,或发送邮件到emilya@mit.edu以获得帮助。