MedQuAD:医学问答数据集
MedQuAD包含47,457对医学问答对,这些问答对来自12个NIH网站(如cancer.gov、niddk.nih.gov、GARD、MedlinePlus健康主题)。该集合涵盖了37种问题类型(如治疗、诊断、副作用),涉及疾病、药物和其他医学实体,如检查。
我们在XML文件中包含了额外的注释,可用于各种信息检索和自然语言处理任务,如问题类型、问题焦点、同义词、UMLS概念唯一标识符(CUI)和语义类型。 我们在4个MedlinePlus集合中添加了问题焦点的类别(疾病、药物或其他)。其他所有集合都是关于疾病的。
下面引用的论文描述了该集合、构建方法以及在医学问答系统中的使用和评估。
注意:我们从3个子集中删除了答案,以尊重MedlinePlus版权(https://medlineplus.gov/copyright.html): (1) A.D.A.M.医学百科全书,(2) MedlinePlus药物信息,和(3) MedlinePlus草药和补充剂信息。 -- 我们保留了所有其他信息,包括URL,以便您爬取答案。如有任何问题,请与我联系。
问答测试集合
我们使用了TREC-2017 LiveQA医疗任务的测试问题:https://github.com/abachaa/LiveQA_MedicalTask_TREC2017/tree/master/TestDataset。
如我们的BMC论文所述,我们手动判断了从MedQuAD集合中检索到的IR和QA系统的答案。 我们使用了与LiveQA赛道相同的判断分数:1-不正确,2-相关,3-不完整,4-优秀。 -- qrels文件格式:问题ID 判断 答案ID
QA测试集合包含2,479个已判断的答案,可用于评估IR和QA系统在LiveQA-Med测试问题上的表现:https://github.com/abachaa/MedQuAD/blob/master/QA-TestSet-LiveQA-Med-Qrels-2479-Answers.zip
参考文献
如果您使用MedQuAD数据集和/或2,479个已判断答案的集合,请引用以下论文:"一种基于问题蕴含的问答方法"。Asma Ben Abacha和Dina Demner-Fushman。BMC生物信息学,2019年。
@ARTICLE{BenAbacha-BMC-2019,
author = {Asma {Ben Abacha} and Dina Demner{-}Fushman},
title = {A Question-Entailment Approach to Question Answering},
journal = {{BMC} Bioinform.},
volume = {20},
number = {1},
pages = {511:1--511:23},
year = {2019},
url = {https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-3119-4}
}
许可证
- MedQuAD数据集以知识共享署名4.0国际许可证(CC BY)发布。https://creativecommons.org/licenses/by/4.0/
联系方式
- Asma Ben abacha (abenabacha at microsoft dot com)