#高效流处理

Attention Sinks 入门指南 - 实现无限长度文本生成的高效流式语言模型

2 个月前

attention_sinks transformers 流畅生成深度学习模型高效流处理 Github 开源项目

2 个月前

Attention Sinks: 让大语言模型无限流畅生成文本的新技术

3 个月前

attention_sinks transformers 流畅生成深度学习模型高效流处理 Github 开源项目

3 个月前

相关项目

attention_sinks

通过`attention_sinks`改进预训练语言模型，结合滑动窗口注意力，实现流畅文字生成。与传统`transformers`不同，保持显存恒定使用，确保高效性能。支持Llama、Mistral、Falcon、MPT、GPTNeoX等多种模型，适用于多步生成任务，如聊天机器人。详细benchmark测试结果显示，该技术在处理数百万个令牌后依然保持低困惑度和高流畅度，是多任务处理的理想选择。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com