项目介绍:Evo-1-8k-base
项目概述
Evo-1-8k-base是Evo项目中的一个预训练模型,专为生物学领域的长上下文建模和设计而开发。这个项目运用了StripedHyena架构,可以有效处理单核酸、字节级别的序列,并在计算和内存上与上下文长度近乎线性地扩展。Evo模型含有70亿个参数,并在OpenGenome数据集上进行训练,该数据集包含约3000亿个标记。
Evo项目是由Arc Institute和TogetherAI合作开发的,铜鼓开放科学的承诺,项目中发布了包括训练阶段1和阶段2的15个中间预训练检查点。
模型特色
StripedHyena架构
StripedHyena是一种深度信号处理的混合架构,结合了多头注意力机制和门控卷积,以Hyena块的形式排列,比传统的仅解码Transformers模型有显著提升。其设计特色包括:
- 高效的自回归生成,可在单个80GB GPU上实现超过50万的生成效果。
- 较快的训练和微调速度,尤其在长上下文下(在131k时提升超过3倍)。
- 改进的扩展定律,与当前最先进的架构(如Transformer++)相比,无论在自然语言还是生物序列处理上都有显著提升。
- 能够超越计算最优前沿进行训练,例如,支持超过Chinchilla最优标记数量的训练。
模型的使用
不同的参数化方法可基于预训练、微调或推理的不同需求进行选择,以调整记忆性、表现力和因果性。主要参数化分类包括:
- 模态标准:无约束或有约束的极值。
- 伴随标准/理性参数:待定。
- 超网络:超网络和调制超网络。
- 显式:调制显式。
StripedHyena是一个混合精度模型,在处理更长的提示或训练时,应确保使用float32精度的极点和残数。
模型应用
项目提供了在GitHub的独立仓库中使用Evo模型的示例代码和指南,以方便用户进行推理和微调。
注意事项
要在遊乐场环境以外使用StripedHyena,需要安装自定义内核,可以按照独立仓库中的说明进行操作。
引用
有关Evo项目的详细技术信息,可以在Arc基金会的预印本中找到。