Huatuo-26M
📃 论文 • 🤗 Huatuo-Lite • 🤗 华佗百科问答 • 🤗 知识图谱问答 • 🤗 华佗咨询问答
中文 | 英文
👩🏻⚕简介
- Huatuo-26M 是目前最大的中文医疗问答数据集。该数据集包含超过2600万个高质量的医疗问答对,涵盖了疾病、症状、治疗方法和药物信息等多个方面。
- Huatuo-Lite 是基于 Huatuo-26M 精炼和优化的数据集,经过多次净化和重写。它具有更多的数据维度和更高的数据质量。
📚数据内容
Huatuo-26M 数据集从多个来源收集和整合,包括:
- 在线医学百科 huatuo_encyclopedia_qa
- 在线医学知识库 huatuo_knowledge_graph_qa
- 在线医疗咨询记录(答案以URL形式给出) huatuo_consultation_qa
- 精简版 Huatuo-Lite
数据集中的每个问答对包含以下字段:
- questions:问题描述
- answers:医生/专家回答
- Huatuo-Lite 数据集还包括医院科室和相关疾病字段
以下是我们在论文中使用的华佗测试集,由多个来源的数据随机抽样组成。
- 测试数据集:huatuo26M-testdatasets
🤖数据使用
Huatuo-26M 数据集可用于医疗领域的各种 AI 研究和应用,例如:
- 自然语言处理:包括但不限于问答系统、文本分类、情感分析等。
- 机器学习模型训练:如疾病预测、个性化治疗推荐等。
- 医疗领域的 AI 应用:如智能诊断系统、医疗咨询聊天机器人等。
🚀快速开始
要开始使用 Huatuo-26M 数据集,您可以按照以下步骤操作:
import datasets
# 第1部分
knowledge_graph_dataset = datasets.load_dataset('FreedomIntelligence/huatuo_knowledge_graph_qa')
# 第2部分
encyclopedia_dataset = datasets.load_dataset('FreedomIntelligence/huatuo_encyclopedia_qa')
# 第3部分(仅URL)
consultation_dataset = datasets.load_dataset('FreedomIntelligence/huatuo_consultation_qa')
# 测试数据集(6k)
huatuo_testdatasets = datasets.load_dataset('FreedomIntelligence/huatuo26M-testdatasets')
👩🏻🔬实验记录
基准测试
-
检索评估:
点击展开
-
答案生成评估:
点击展开
应用
-
零样本迁移到其他问答数据集:
点击展开
-
作为RAG的外部知识:
点击展开
-
作为语言模型(LM)的预训练数据:
点击展开
-
作为医疗LLM的微调数据:
点击展开
🚁许可证
Huatuo-26M 数据集采用 Apache 2.0 许可证。在使用之前,请确保您已阅读并同意许可条款。
📱联系我们
如果您有任何问题或需要帮助,请随时通过电子邮件(xidongw@163.com)或在Issues部分询问我们。
😁引用
@misc{li2023huatuo26m,
title={Huatuo-26M, a Large-scale Chinese Medical QA Dataset},
author={Jianquan Li and Xidong Wang and Xiangbo Wu and Zhiyi Zhang and Xiaolong Xu and Jie Fu and Prayag Tiwari and Xiang Wan and Benyou Wang},
year={2023},
eprint={2305.01526},
archivePrefix={arXiv},
primaryClass={cs.CL}
}