GENA_LM
GENA-LM是专为长DNA序列设计的开源基础模型家族。它采用BPE分词方法,支持最长36k bp的输入序列,并基于最新T2T人类基因组进行预训练。该项目提供多种预训练模型,包括BERT和BigBird架构,可用于启动子预测和剪接位点识别等多种下游任务。GENA-LM为基因组学研究提供了新的分析工具,促进了DNA序列分析技术的进步。