热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#HQQ
mixtral-offloading
该项目实现了Mixtral-8x7B模型的高效推理,使用混合量化和MoE卸载策略。通过HQQ量化方案分别处理注意力层和专家层,使模型适应GPU和CPU内存。每层的专家单独卸载并在需要时重新加载到GPU,活跃专家存储在LRU缓存中以减少GPU-RAM通信。更多技术细节和结果请参阅技术报告。
hqq
HQQ是一种无需校准数据即可快速精确量化大模型的工具,支持从8bit到1bit的多种量化模式。兼容LLMs和视觉模型,并与多种优化的CUDA和Triton内核兼容,同时支持PEFT训练和Pytorch编译,提升推理和训练速度。详细基准测试和使用指南请访问官方博客。
相关文章
Mixtral-8x7B模型的高效推理:Mixtral Offloading技术解析
2 个月前
HQQ: 快速高效的大型机器学习模型量化方法
2 个月前
mixtral-offloading入门指南 - 在普通硬件上运行大型语言模型的高效方案
1 个月前
HQQ量化学习资料汇总 - 快速准确的大模型量化工具
1 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号