项目介绍:awesome-bioie
什么是BioIE?
BioIE(生物信息提取)是指从未结构化或结构化不一致的生物学、临床或其他生物医学数据中提取结构化信息的任何努力。这些数据通常来自技术语言撰写的一些文本文档集合。如果所提取的信息在多个来源中是一致且可验证的,这些信息可以被认为是“知识”。从生物数据中提取信息并生产知识,需要对其他类型未结构化数据的方法进行调整和适应。
随着语言模型如BERT和最近推出的大型语言模型(LLMs,例如GPT-3/4, LLAMA2/3, Gemini等)的引入,BioIE经历了巨大的变革。
项目目标
awesome-bioie项目旨在汇集与这一学科相关的优秀资源,主要集中在那些无需经济成本且许可要求有限的资源上。所收录的方法和数据集应该是公开可访问且持续维护的。
内容和结构
研究综述
项目提供了关于生物医学信息提取(IE)的各种研究综述,包括基于大型语言模型(LLMs)的最新进展和在LLMs之前的方法综述。这些综述涉及LLMs在医疗语言任务中的应用、研究全景和临床效用,以及这些模型应用中存在的伦理和监管挑战。
活跃的研究小组和组织
项目介绍了在BioIE领域内活跃的研究团体与组织。例如,波士顿儿童医院的自然语言处理实验室、Brown中美研究所的生物医学信息学中心等。这些组织各自在临床自然语言处理(NLP)与信息提取(IE)领域作出了重要贡献。
期刊和事件
BioIE的跨学科特性决定了研究人员可以通过多种途径分享他们的发现和工具,包括期刊文章、会议论文和预印本出版。项目列出了相关的期刊,如“Journal of Biomedical Informatics”和著名的会议如ISMB、PSB等。这些会议和活动为研究者提供了交流成果的平台。
教程和指南
项目提供了适合初学者和进阶研究者的教程和指南,旨在帮助用户快速掌握医疗和生物文本数据的挖掘技术。
代码库与工具
项目收录了多种免费开放的代码库和工具,例如Biopython、medaCy等,适用于不同的生物医学文本处理任务,还包括一些专用数据集的代码库。
技术和模型
项目展示了多个针对生物医学文本优化而定制的语言模型,如BioBERT、ClinicalBERT和SciBERT等。这些模型在生物医药信息提取中展示了很强的性能。
数据集与本体
项目收集了多种生物医学文本及注释数据集,如PubMed Central开放获取子集、BioScope等,并介绍了一些常用的生物医学本体和受控词汇。
参与方式
任何对这个领域有兴趣并愿意贡献资源的个人,欢迎阅读贡献指南并通过拉取请求的方式进行贡献。
总结
awesome-bioie项目为生物信息提取领域汇聚了丰富多样的资源,推动了未结构化生物医学数据的知识化进程,为研究人员提供了便利的工具和信息来源。通过对这些资源的开放分享与合作,该项目在不断促进这一领域的发展与创新。