BioGPT
本仓库包含了论文BioGPT:用于生物医学文本生成和挖掘的生成式预训练Transformer模型的实现,作者为罗仁谦、孙礼爱、夏英策、秦涛、张生、Hoifung Poon和刘铁岩。
要求和安装
- PyTorch 版本 == 1.12.0
- Python 版本 == 3.10
- fairseq 版本 == 0.12.0:
git clone https://github.com/pytorch/fairseq
cd fairseq
git checkout v0.12.0
pip install .
python setup.py build_ext --inplace
cd ..
- Moses
git clone https://github.com/moses-smt/mosesdecoder.git
export MOSES=${PWD}/mosesdecoder
- fastBPE
git clone https://github.com/glample/fastBPE.git
export FASTBPE=${PWD}/fastBPE
cd fastBPE
g++ -std=c++11 -pthread -O3 fastBPE/main.cc -IfastBPE -o fast
- sacremoses
pip install sacremoses
- sklearn
pip install scikit-learn
请记得将环境变量MOSES
和FASTBPE
分别设置为Moses和fastBPE的路径,因为稍后会用到。
入门指南
预训练模型
我们提供了预训练的BioGPT模型检查点以及针对下游任务的微调检查点,可以通过URL下载或通过Hugging Face 🤗 Hub获取。
模型 | 描述 | URL | 🤗 Hub |
---|---|---|---|
BioGPT | 预训练的BioGPT模型检查点 | 链接 | 链接 |
BioGPT-Large | 预训练的BioGPT-Large模型检查点 | 链接 | 链接 |
BioGPT-QA-PubMedQA-BioGPT | 在PubMedQA上微调的BioGPT问答任务模型 | 链接 | |
BioGPT-QA-PubMedQA-BioGPT-Large | 在PubMedQA上微调的BioGPT-Large问答任务模型 | 链接 | |
BioGPT-RE-BC5CDR | 在BC5CDR上微调的BioGPT关系抽取任务模型 | 链接 | |
BioGPT-RE-DDI | 在DDI上微调的BioGPT关系抽取任务模型 | 链接 | |
BioGPT-RE-DTI | 在KD-DTI上微调的BioGPT关系抽取任务模型 | 链接 | |
BioGPT-DC-HoC | 在HoC上微调的BioGPT文档分类任务模型 | 链接 |
下载这些文件并将它们解压到本项目的checkpoints
文件夹中。
例如:
mkdir checkpoints
cd checkpoints
wget https://msralaphilly2.blob.core.windows.net/release/BioGPT/checkpoints/Pre-trained-BioGPT.tgz?sp=r&st=2023-11-13T15:37:35Z&se=2099-12-30T23:37:35Z&spr=https&sv=2022-11-02&sr=b&sig=3CcG1TOhqJPBhkVutvVn3PtUq0vPyLBgwggUfojypfY%3D
tar -zxvf Pre-trained-BioGPT.tgz
使用示例
在代码中使用预训练的BioGPT模型:
import torch
from fairseq.models.transformer_lm import TransformerLanguageModel
m = TransformerLanguageModel.from_pretrained(
"checkpoints/Pre-trained-BioGPT",
"checkpoint.pt",
"data",
tokenizer='moses',
bpe='fastbpe',
bpe_codes="data/bpecodes",
min_len=100,
max_len_b=1024)
m.cuda()
src_tokens = m.encode("COVID-19 is")
generate = m.generate([src_tokens], beam=5)[0]
output = m.decode(generate[0]["tokens"])
print(output)
在代码中使用针对药物-靶点相互作用的KD-DTI数据集微调的BioGPT模型:
import torch
from src.transformer_lm_prompt import TransformerLanguageModelPrompt
m = TransformerLanguageModelPrompt.from_pretrained(
"checkpoints/RE-DTI-BioGPT",
"checkpoint_avg.pt",
"data/KD-DTI/relis-bin",
tokenizer='moses',
bpe='fastbpe',
bpe_codes="data/bpecodes",
max_len_b=1024,
beam=1)
m.cuda()
src_text="" # 输入文本,例如PubMed摘要
src_tokens = m.encode(src_text)
generate = m.generate([src_tokens], beam=args.beam)[0]
output = m.decode(generate[0]["tokens"])
print(output)
更多下游任务请参见下文。
下游任务
请查看examples文件夹中的相应子文件夹:
BC5CDR关系抽取
KD-DTI关系抽取
DDI关系抽取
HoC文档分类
PubMedQA问答
文本生成
Hugging Face 🤗 使用方法
BioGPT已集成到Hugging Face的transformers
库中,模型检查点可在Hugging Face Hub上获取。
你可以直接使用pipeline进行文本生成。由于生成过程涉及一些随机性,我们设置了种子以确保可重复性:
from transformers import pipeline, set_seed
from transformers import BioGptTokenizer, BioGptForCausalLM
model = BioGptForCausalLM.from_pretrained("microsoft/biogpt")
tokenizer = BioGptTokenizer.from_pretrained("microsoft/biogpt")
generator = pipeline('text-generation', model=model, tokenizer=tokenizer)
set_seed(42)
generator("COVID-19 is", max_length=20, num_return_sequences=5, do_sample=True)
以下是如何使用此模型在PyTorch中获取给定文本特征的方法:
from transformers import BioGptTokenizer, BioGptForCausalLM
tokenizer = BioGptTokenizer.from_pretrained("microsoft/biogpt")
model = BioGptForCausalLM.from_pretrained("microsoft/biogpt")
text = "用你想要的任何文本替换我。"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
束搜索解码:
import torch
from transformers import BioGptTokenizer, BioGptForCausalLM, set_seed
tokenizer = BioGptTokenizer.from_pretrained("microsoft/biogpt")
model = BioGptForCausalLM.from_pretrained("microsoft/biogpt")
sentence = "COVID-19 is"
inputs = tokenizer(sentence, return_tensors="pt")
set_seed(42)
with torch.no_grad():
beam_output = model.generate(**inputs,
min_length=100,
max_length=1024,
num_beams=5,
early_stopping=True
)
tokenizer.decode(beam_output[0], skip_special_tokens=True)
更多信息请参阅Hugging Face网站上的文档。
演示
查看Hugging Face Spaces上的这些演示:
许可证
BioGPT采用MIT许可证。 该许可证同样适用于预训练模型。
贡献
本项目欢迎贡献和建议。大多数贡献需要你同意贡献者许可协议(CLA),声明你有权并确实授予我们使用你贡献的权利。详情请访问https://cla.opensource.microsoft.com。
当你提交拉取请求时,CLA机器人会自动确定你是否需要提供CLA,并适当地修饰PR(例如,状态检查、评论)。只需按照机器人提供的说明操作即可。你只需在所有使用我们CLA的仓库中执行一次此操作。
本项目已采用Microsoft开源行为准则。 更多信息请参阅行为准则常见问题解答或联系opencode@microsoft.com提出任何其他问题或意见。
商标
本项目可能包含项目、产品或服务的商标或标识。Microsoft 商标或标识的授权使用必须遵循并遵守 Microsoft的商标和品牌指南。 在本项目的修改版本中使用Microsoft商标或标识不得引起混淆或暗示Microsoft赞助。 任何第三方商标或标识的使用均须遵守这些第三方的政策。