#HQQ

Mixtral-8x7B模型的高效推理：Mixtral Offloading技术解析

3 个月前

Cover of Mixtral-8x7B模型的高效推理：Mixtral Offloading技术解析

Mixtral-8x7B HQQ MoE GPU CPU Github 开源项目

3 个月前

Cover of Mixtral-8x7B模型的高效推理：Mixtral Offloading技术解析

HQQ: 快速高效的大型机器学习模型量化方法

3 个月前

Cover of HQQ: 快速高效的大型机器学习模型量化方法

HQQ 模型量化 torch.compile CUDA 8,4,3,2,1 bits Github 开源项目

3 个月前

Cover of HQQ: 快速高效的大型机器学习模型量化方法

mixtral-offloading入门指南 - 在普通硬件上运行大型语言模型的高效方案

2 个月前

Cover of mixtral-offloading入门指南 - 在普通硬件上运行大型语言模型的高效方案

Mixtral-8x7B HQQ MoE GPU CPU Github 开源项目

2 个月前

Cover of mixtral-offloading入门指南 - 在普通硬件上运行大型语言模型的高效方案

HQQ量化学习资料汇总 - 快速准确的大模型量化工具

2 个月前

Cover of HQQ量化学习资料汇总 - 快速准确的大模型量化工具

HQQ 模型量化 torch.compile CUDA 8,4,3,2,1 bits Github 开源项目

2 个月前

Cover of HQQ量化学习资料汇总 - 快速准确的大模型量化工具

相关项目

Project Cover

mixtral-offloading

该项目实现了Mixtral-8x7B模型的高效推理，使用混合量化和MoE卸载策略。通过HQQ量化方案分别处理注意力层和专家层，使模型适应GPU和CPU内存。每层的专家单独卸载并在需要时重新加载到GPU，活跃专家存储在LRU缓存中以减少GPU-RAM通信。更多技术细节和结果请参阅技术报告。

Project Cover

hqq

HQQ是一种无需校准数据即可快速精确量化大模型的工具，支持从8bit到1bit的多种量化模式。兼容LLMs和视觉模型，并与多种优化的CUDA和Triton内核兼容，同时支持PEFT训练和Pytorch编译，提升推理和训练速度。详细基准测试和使用指南请访问官方博客。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号