#局部注意力

Gemma 2B - 突破10M上下文长度的开创性模型

3 个月前

Gemma 2B 长上下文局部注意力内存优化推理优化 Github 开源项目

3 个月前

相关项目

gemma-2B-10M

gemma-2B-10M项目采用递归局部注意力机制，在32GB内存限制下实现了处理1000万token上下文的能力。该项目为Gemma 2B模型提供CUDA优化的推理功能，显著提升了处理效率。项目设计简洁易用，便于开发者快速应用。虽然目前处于早期阶段，但在长文本处理领域展现出巨大潜力，有望推动相关技术的进步。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com