esm1b_t33_650M_UR50S项目介绍
项目背景
ESM-1b是一个由Meta AI研发的蛋白质语言模型。在生物信息学和人工智能领域,ESM-1b以其在无监督学习的框架下,卓越地解析蛋白质序列数据而闻名。此模型的预训练目标是通过掩码语言建模(Masked Language Modeling, MLM)预测蛋白质序列中的氨基酸。通过这种无监督学习,ESM-1b能够捕捉到序列中的有用特征,从而在多种下游预测任务中得到应用和拓展。
模型描述
ESM-1b模型建立在RoBERTa架构的基础上,在2018年3月数据版本的Uniref50蛋白质序列数据库上进行了训练。不同于有监督学习,这次的训练没有涉及任何结构或功能相关的标签输入。模型采用了一种称作“预激活层归一化”的技术,并在训练过程中随机掩盖15%的输入氨基酸,以便模型在不完整信息下进行预测。
在下游任务中,ESM-1b所学习的表示可以用作特征。例如,在已知蛋白活性数据的情况下,可以利用ESM-1b输出的特征进行回归分析,以预测新序列的活性。此外,模型还可以根据需要进行微调。
模型的应用与局限
ESM-1b在没有任何进一步监督的情况下进行蛋白质结构与功能的推断,被称为“零样本转移学习”。研究表明,该模型的注意力头能够直接反映出蛋白质三维结构中的接触点。此外,它对于评估序列变化对蛋白质功能的影响也有很高的准确度。
虽然ESM-1b适用于多种任务,但随着ESM-2的推出,用于大多数任务的表现更为优越。因此,除非是特定需要对比ESM-1b,否则建议使用ESM-2。
训练数据与过程
ESM-1b模型在约3000万个蛋白质序列的Uniref50数据库上进行了预训练。整个训练过程包括将序列大写化并进行分词,词汇表的大小为21。同时,序列超过1023个标记的部分会被随机剪裁。
在训练阶段,使用了128个NVIDIA v100 GPU进行500,000次更新,批量包含131,072个标记。优化器选择的是Adam,学习率设为1e-4,通过学习率预热和反平方根衰减技术进行调整。
总结下来,esm1b_t33_650M_UR50S项目为蛋白质研究和功能推断提供了宝贵的工具,通过深度学习算法的引入,使得蛋白质序列的功能分析变得更加智能和高效。