#ProtT5-XL-UniRef50
prot_t5_xl_uniref50 - 基于T5架构的大规模蛋白质序列预训练模型
模型GithubProtT5-XL-UniRef50蛋白质语言模型UniRef50特征提取开源项目Huggingface生物信息学
ProtT5-XL-UniRef50是基于T5-3B架构的蛋白质序列预训练模型,在UniRef50数据集的4500万个序列上进行自监督学习。该模型采用改进的掩码语言建模目标,能够捕捉蛋白质序列中的关键生物物理特性。ProtT5-XL-UniRef50可用于蛋白质特征提取和下游任务微调,在二级结构预测等任务中表现优异,为蛋白质序列研究提供了有力工具。
prot_t5_xl_half_uniref50-enc - 低内存蛋白质序列特征提取模型
模型开源项目半精度模型HuggingfaceProtT5-XL-UniRef50特征提取Github蛋白质语言模型氨基酸嵌入
这是一个基于ProtT5-XL-UniRef50的半精度编码器模型,专门用于蛋白质序列特征提取。该模型在大规模蛋白质序列数据集上进行自监督预训练,可高效生成蛋白质和氨基酸的嵌入表示。仅需8GB显存即可运行,适用于资源受限环境,在多项下游任务中性能与原始模型相当。