BigBIO:生物医学数据集库
BigBIO
(BigScience Biomedical)是一个开放的生物医学数据加载器库,基于Huggingface(🤗)的datasets
库构建,用于数据中心的机器学习。
我们的目标包括:
- 轻量级、程序化访问大规模生物医学数据集
- 促进数据处理的可重复性
- 为数据集的来源、许可和其他关键属性提供更好的文档
- 更容易生成用于自然语言提示和多任务学习的元数据集
目前,BigBIO
提供以下支持:
- 126+个生物医学数据集
- 10+种语言
- 12个任务类别
- 按任务类型统一的数据集架构
- 关于许可、粗粒度/细粒度任务类型、领域等的元数据!
如何使用BigBIO
使用这些数据集的首选方式是从官方BigBIO
中心访问它们。
至少,确保你已安装datasets
库。最好按以下方式安装所需依赖:
pip install -r requirements.txt
你可以按以下方式访问BigBIO
数据集:
from datasets import load_dataset
data = load_dataset("bigbio/biosses")
在大多数情况下,脚本默认加载数据集的原始架构。你还可以访问BigBIO
分割,它简化了根据特定任务访问数据集中关键信息的过程。
例如,biosses
数据集遵循基于pairs
的架构,其中基于文本的输入(句子、段落)被分配一个"翻译"对。
from datasets import load_dataset
data = load_dataset("bigbio/biosses", name="biosses_bigbio_pairs")
通常,你可以按以下方式加载数据集:
# 加载原始架构
data = load_dataset("bigbio/<你的数据集>")
# 加载BigBIO架构
data = load_dataset("bigbio/<你的数据集>", name="<你的数据集>_bigbio_<架构名称>")
查看Hub上的数据卡以了解可用的分割。你可以在下面的文档中找到更多关于架构的信息。
基准支持
BigBIO
包含对其他流行的英语生物医学基准中几乎所有数据集的支持。
任务类型 | 数据集 | BigBIO (我们的) | BLUE | BLURB | BoX | 需要DUA |
---|---|---|---|---|---|---|
命名实体识别 | BC2GM | ✓ | ✓ | ✓ | ||
命名实体识别 | BC5-chem | ✓ | ✓ | ✓ | ✓ | |
命名实体识别 | BC5-disease | ✓ | ✓ | ✓ | ✓ | |
命名实体识别 | EBM PICO | ✓ | ✓ | |||
命名实体识别 | JNLPBA | ✓ | ✓ | ✓ | ||
命名实体识别 | NCBI-disease | ✓ | ✓ | ✓ | ||
关系抽取 | ChemProt | ✓ | ✓ | ✓ | ✓ | |
关系抽取 | DDI | ✓ | ✓ | ✓ | ✓ | |
关系抽取 | GAD | ✓ | ✓ | |||
问答 | PubMedQA | ✓ | ✓ | ✓ | ||
问答 | BioASQ | ✓ | ✓ | ✓ | ✓ | |
文档分类 | HoC | ✓ | ✓ | ✓ | ✓ | |
语义文本相似度 | BIOSSES | ✓ | ✓ | ✓ | ||
语义文本相似度 | MedSTS | * | ✓ | ✓ | ||
命名实体识别 | n2c2 2010 | ✓ | ✓ | ✓ | ✓ | |
命名实体识别 | ShARe/CLEF 2013 | * | ✓ | ✓ | ||
自然语言推理 | MedNLI | ✓ | ✓ | ✓ | ||
命名实体识别 | n2c2 deid 2006 | ✓ | ✓ | ✓ | ||
文档分类 | n2c2 RFHD 2014 | ✓ | ✓ | ✓ | ||
命名实体识别 | AnatEM | ✓ | ✓ | |||
命名实体识别 | BC4CHEMD | ✓ | ✓ | |||
命名实体识别 | BioNLP09 | ✓ | ✓ | |||
命名实体识别 | BioNLP11EPI | ✓ | ✓ | |||
命名实体识别 | BioNLP11ID | ✓ | ✓ | |||
命名实体识别 | BioNLP13CG | ✓ | ✓ | |||
命名实体识别 | BioNLP13GE | ✓ | ✓ | |||
命名实体识别 | BioNLP13PC | ✓ | ✓ | |||
命名实体识别 | CRAFT | * | ✓ | |||
命名实体识别 | Ex-PTM | ✓ | ✓ | |||
命名实体识别 | Linnaeus | ✓ | ✓ | |||
词性标注 | GENIA | * | ✓ | |||
情感分析 | Medical Drugs | ✓ | ✓ | |||
语音识别 | COVID | 私有 | ||||
语音识别 | Cooking | 私有 | ||||
语音识别 | HRT | 私有 | ||||
语音识别 | Accelerometer | 私有 | ||||
语音识别 | Acromegaly | 私有 |
* 表示数据集实现正在进行中
文档
-
任务模式概述是对已实现的
BigBIO
模式的深入解释。 -
BigBIO数据卡片报告了库中每个数据集的统计信息。
教程
待定 - 链接可能尚未适用!
贡献
BigBIO
是一个开源项目 - 我们热烈欢迎您的参与!如果您有兴趣加入我们,我们建议您按以下步骤进行:
-
寻找想法?查看我们的志愿者项目板,了解我们可能需要帮助的地方。
-
有自己的想法?以问题的形式联系管理员。
-
按照官方贡献指南中的准则实施您的想法。
-
等待管理员批准;批准过程是迭代的,但一旦被接受,将属于主仓库。
目前,只有管理员可以将所有被接受的更改合并到Hub中。
欢迎加入我们的Discord!
引用
如果您在工作中使用了BigBIO,请引用
@article{fries2022bigbio,
title = {
BigBIO: A Framework for Data-Centric Biomedical Natural Language
Processing
},
author = {
Fries, Jason Alan and Weber, Leon and Seelam, Natasha and Altay,
Gabriel and Datta, Debajyoti and Garda, Samuele and Kang, Myungsun
and Su, Ruisi and Kusa, Wojciech and Cahyawijaya, Samuel and others
},
journal = {arXiv preprint arXiv:2206.15076},
year = 2022
}
致谢
BigBIO
是一个开源的社区努力,通过BigScience和生物医学黑客马拉松中许多志愿者的努力使之成为可能。