#医疗问答数据集
MedQuAD - 涵盖多类医学问题的大规模问答数据集
MedQuAD医疗问答数据集NIH网站问答系统UMLSGithub开源项目
MedQuAD是一个包含47,457对医学问答的大规模数据集,源自12个美国国立卫生研究院(NIH)网站。它涵盖37种问题类型,涉及疾病、药物和其他医疗实体,并附有丰富的语义注释。此外,MedQuAD提供2,479个经人工评判的答案作为QA测试集,可用于评估信息检索和问答系统的性能。这一资源为医学自然语言处理和问答系统研究提供了重要支持。
Huatuo-26M - 大规模中文医疗问答数据集推动AI医疗发展
Huatuo-26M医疗问答数据集自然语言处理机器学习人工智能应用Github开源项目
Huatuo-26M是迄今为止最大的中文医疗问答数据集,收录超过2600万条高质量医疗问答对。数据涵盖疾病、症状、治疗方法和药物信息等多个医疗领域,来源包括在线医学百科、医学知识库和医疗咨询记录。该数据集可应用于自然语言处理、机器学习模型训练和AI医疗系统开发,为医疗AI研究与应用提供了丰富的数据支持。