热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#LongRoPE
LongRoPE:突破200万token的大语言模型上下文窗口扩展技术
2 个月前
LongRoPE是一项革命性的技术,首次将预训练大语言模型的上下文窗口扩展到了惊人的2048k tokens,仅需在256k训练长度内进行不超过1k步的微调,同时保持了原有短上下文窗口的性能。本文深入探讨了LongRoPE的工作原理、实现细节及其在自然语言处理领域的潜在应用。
LongRoPE
大语言模型
上下文窗口
位置编码
Transformer
Github
开源项目
2 个月前
相关项目
LongRoPE
LongRoPE项目提出了一种将大语言模型(LLM)上下文窗口扩展至超过200万个标记的方法。通过利用位置嵌入中的非均匀性,项目实现了8倍的上下文窗口扩展,无需微调。采用逐步扩展策略从256k微调至2048k上下文,避免了对超长文本的直接微调。LongRoPE还调整了原始窗口长度内的嵌入,确保在各种任务中保持高效表现,适用于对话、问答、长文档摘要及少样本学习。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号