Project Icon

prot_bert_bfd

用于自监督蛋白质序列分析的ProtBert-BFD模型

ProtBert-BFD模型是一种利用Bert架构进行蛋白质序列自监督学习的预训练工具。该模型使用BFD数据集进行训练,能够捕捉蛋白质的生物物理特性,适用于特征提取和下游任务。其遮蔽语言建模方法无需人工标记即可从大规模数据中进行学习,成为生物信息学中理解蛋白质编码的有效工具。

ProtBert-BFD 项目介绍

项目概述

ProtBert-BFD 是一个预训练的蛋白质序列模型,应用了掩蔽语言模型(MLM)的目标。这一模型首次在此论文中提出,并在这个仓库中发布。该模型专门针对大写氨基酸进行训练,使用时也需要大写的氨基酸字母。

模型描述

ProtBert-BFD 基于 Bert 模型,通过自监督学习在大规模蛋白质序列语料库上进行预训练。这意味着它只在原始蛋白质序列上进行训练,而无需人工标记,这使得模型可以利用大量的公开数据来自动生成输入和标签。

这个模型与原始 Bert 模型的一个重要区别在于它将每个序列视为独立的文档,因此不使用“下一句预测”策略。而在掩蔽方面,模型遵循 Bert 的训练方法,随机掩盖输入中15%的氨基酸。

最终,从这个模型中提取的特征表明,未经标记的数据(仅有蛋白质序列)的语言模型嵌入捕获了蛋白质形状的重要生物物理性质。这意味着模型学到了一些生命语言在蛋白质序列中呈现的语法。

使用意图与限制

ProtBert-BFD 模型可以用于蛋白质特征提取或在下游任务中进行微调。在某些任务中,通过微调模型而不是仅用作特征提取,可以获得更高的准确率。

如何使用

用户可以直接使用此模型与掩蔽语言模型(MLM)管道进行结合:

>>> from transformers import BertForMaskedLM, BertTokenizer, pipeline
>>> tokenizer = BertTokenizer.from_pretrained('Rostlab/prot_bert_bfd', do_lower_case=False)
>>> model = BertForMaskedLM.from_pretrained("Rostlab/prot_bert_bfd")
>>> unmasker = pipeline('fill-mask', model=model, tokenizer=tokenizer)
>>> unmasker('D L I P T S S K L V V [MASK] D T S L Q V K K A F F A L V T')

此外,还可以使用下面的方法获取给定蛋白质序列的特征:

from transformers import BertModel, BertTokenizer
import re
tokenizer = BertTokenizer.from_pretrained('Rostlab/prot_bert_bfd', do_lower_case=False)
model = BertModel.from_pretrained("Rostlab/prot_bert_bfd")
sequence_Example = "A E T C Z A O"
sequence_Example = re.sub(r"[UZOB]", "X", sequence_Example)
encoded_input = tokenizer(sequence_Example, return_tensors='pt')
output = model(**encoded_input)

训练数据

ProtBert-BFD 模型在 BFD 数据集上进行了预训练,这个数据集中包含了 21 亿蛋白质序列。

训练过程

数据预处理

蛋白质序列使用大写处理,按空格分割并使用21个字的词汇表进行标记。模型的输入格式如下:

[CLS] 蛋白质序列 A [SEP] 蛋白质序列 B [SEP]

每个蛋白质序列被视为一个单独文档进行处理。预处理步骤重复进行两次,一次是在两个序列组合长度少于 512 个氨基酸时,另一次是在组合长度少于 2048 个氨基酸时。

掩蔽过程详细地遵循原始 Bert 模型:

  • 15% 的氨基酸被掩盖
  • 在 80% 的情况下,掩盖的氨基酸替换为 [MASK]
  • 在 10% 的情况下,掩盖的氨基酸替换为一个不同的随机氨基酸
  • 在剩下的 10% 情况下,掩盖的氨基酸保持不变。

预训练

模型在一个 TPU Pod V3-1024 上经历了一百万步的训练,其中 80 万步使用了序列长度 512(批量大小 32k),和 20 万步使用了序列长度 2048(批量大小 6k)。使用 Lamb 优化器,学习率为 0.002,权重衰减为 0.01,学习率在 140k 步时进行热启,之后呈线性衰减。

评估结果

在对下游任务进行微调时,该模型在以下任务中取得了良好的效果:

任务/数据集二级结构(三状态)二级结构(八状态)定位膜蛋白
CASP127665
TS1158473
CB5138370
DeepLoc7891

这种表现表明 ProtBert-BFD 具有很强的蛋白质序列特征提取能力,是生物信息学研究中的重要工具。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号