#MoE

LLaMA-MoE学习资料汇总 - 基于LLaMA的轻量级混合专家模型

2 个月前

LLaMA-MoE LLaMA MoE SlimPajama Sheared LLaMA Github 开源项目

2 个月前

mixtral-offloading入门指南 - 在普通硬件上运行大型语言模型的高效方案

2 个月前

Mixtral-8x7B HQQ MoE GPU CPU Github 开源项目

2 个月前

LLaMA-MoE: 基于LLaMA的混合专家模型及其持续预训练

3 个月前

LLaMA-MoE LLaMA MoE SlimPajama Sheared LLaMA Github 开源项目

3 个月前

Mixtral-8x7B模型的高效推理：Mixtral Offloading技术解析

3 个月前

Mixtral-8x7B HQQ MoE GPU CPU Github 开源项目

3 个月前

相关项目

mixtral-offloading

该项目实现了Mixtral-8x7B模型的高效推理，使用混合量化和MoE卸载策略。通过HQQ量化方案分别处理注意力层和专家层，使模型适应GPU和CPU内存。每层的专家单独卸载并在需要时重新加载到GPU，活跃专家存储在LRU缓存中以减少GPU-RAM通信。更多技术细节和结果请参阅技术报告。

llama-moe

LLaMA-MoE是基于LLaMA和SlimPajama的开源专家混合模型。通过将LLaMA的FFN划分为稀疏专家并加入top-K门控，模型在优化的数据采样权重下进行持续预训练。特点包括轻量化、多种专家构建方法、多种门控策略和快速预训练，适合部署和研究。提供详细的安装指南和技术文档，帮助用户快速使用并评估模型性能。

tutel

Tutel MoE是一种优化的专家混合实现，支持Pytorch、CUDA、ROCm和CPU等多种框架和硬件。它加速了动态训练和推理，并提供了多项功能更新，例如tensorcore选项、自定义专家扩展和NCCL超时设置。Tutel支持灵活配置和转换工具，适用于多节点和多GPU分布式模式。用户可以轻松集成和测试Tutel，并通过详尽的示例和文档获得技术支持。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com