#ChunkLlama

ChunkLlama: 突破大语言模型长上下文限制的无训练方法

3 个月前

ChunkLlama 大语言模型长上下文注意力机制无需训练 Github 开源项目

3 个月前

相关项目

ChunkLlama

ChunkLlama项目开发了双重块注意力(DCA)技术，无需额外训练即可将大语言模型的上下文窗口扩展至原始长度的8倍以上。DCA可与主流外推技术和高效推理库兼容，支持Llama、Mistral等多种模型。实验表明，应用DCA后的Llama-2/3 70B模型能处理长达100k的上下文，并在长文本任务中表现出色。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com