#ChunkLlama

ChunkLlama - 双重块注意力技术实现大语言模型上下文窗口扩展

ChunkLlama大语言模型长上下文注意力机制无需训练Github开源项目

ChunkLlama项目开发了双重块注意力(DCA)技术，无需额外训练即可将大语言模型的上下文窗口扩展至原始长度的8倍以上。DCA可与主流外推技术和高效推理库兼容，支持Llama、Mistral等多种模型。实验表明，应用DCA后的Llama-2/3 70B模型能处理长达100k的上下文，并在长文本任务中表现出色。

相关文章

Article Cover

ChunkLlama: 突破大语言模型长上下文限制的无训练方法

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号