#LLaMA-7B

KVQuant入门指南 - 突破1000万上下文长度的大规模语言模型推理技术

2 个月前

KVQuant LLaMA-7B 长上下文长度推断低精度量化大模型 Github 开源项目

2 个月前

KVQuant：突破10百万上下文长度的大语言模型推理技术

3 个月前

KVQuant LLaMA-7B 长上下文长度推断低精度量化大模型 Github 开源项目

3 个月前

相关项目

KVQuant

KVQuant通过精确的低精度量化技术显著提升长上下文长度推理的效率。其创新包括每通道的RoPE前关键量化和非均匀量化，以应对不同LLM中缓存的KV值模式。KVQuant支持在单个A100-80GB GPU上进行LLaMA-7B模型的1M上下文长度推理，甚至在8-GPU系统上支持长达10M上下文长度，从而减少推理过程中KV缓存的内存瓶颈，并通过并行topK支持和注意力感知量化等多项改进提升推理性能。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com