#蛋白质序列
alphamissense - 全蛋白质组错义突变效应预测的革命性工具
AlphaMissense氨基酸替换蛋白质序列模型实现基因数据库Github开源项目
AlphaMissense是一个预测蛋白质错义变异效应的开源模型。该项目提供模型实现、数据处理流程和人类氨基酸替换的预计算结果。基于AlphaFold开发,AlphaMissense利用多个遗传数据库进行序列比对,为研究人员提供蛋白质变异影响分析。其预测结果可通过Ensembl VEP工具使用,支持蛋白质功能研究和相关疾病研究。
esm1b_t33_650M_UR50S - 以高级特征提取和预测提高蛋白质序列无监督学习的有效性
无监督学习Github开源项目ESM-1b结构预测蛋白质序列功能预测Huggingface模型
ESM-1b是一个Transformer架构的蛋白质语言模型,通过对未标记的蛋白质序列进行自监督预训练,具备了结构与功能预测的无监督能力。该模型在远程同源检测和二级结构预测等任务上表现优良,可用于特征提取和模型微调。虽然ESM-2性能优越,但ESM-1b仍是研究蛋白质特征的重要工具。
prot_bert_bfd - 用于自监督蛋白质序列分析的ProtBert-BFD模型
掩码语言模型Huggingface蛋白质序列特征提取开源项目模型Github语言模型ProtBert-BFD
ProtBert-BFD模型是一种利用Bert架构进行蛋白质序列自监督学习的预训练工具。该模型使用BFD数据集进行训练,能够捕捉蛋白质的生物物理特性,适用于特征提取和下游任务。其遮蔽语言建模方法无需人工标记即可从大规模数据中进行学习,成为生物信息学中理解蛋白质编码的有效工具。