热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#定量模型
Llama-3-8B-Instruct-262k - 增强长距离上下文处理,支持自主助手功能
生成式模型
Github
定量模型
开源项目
长上下文
自监督学习
Huggingface
Llama-3
模型
Llama-3 8B-Instruct-262k通过优化RoPE theta,将上下文处理长度从8k扩展至超160k。由Gradient开发并借助Crusoe Energy的算力资源,展示了该模型在低训练条件下的长上下文处理能力,同时通过微调增强了其聊天功能。采用NTK-aware插值及数据驱动的RoPE theta优化,结合渐进式训练策略,在高性能集群中实现了多达262144 tokens的上下文扩展训练,并提供了多种量化版本以适应不同应用场景。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号