#Mixtral-8x7B

mixtral-offloading - Mixtral-8x7B模型高效推理的实现方法
Github开源项目GPUMixtral-8x7BHQQMoECPU
该项目实现了Mixtral-8x7B模型的高效推理,使用混合量化和MoE卸载策略。通过HQQ量化方案分别处理注意力层和专家层,使模型适应GPU和CPU内存。每层的专家单独卸载并在需要时重新加载到GPU,活跃专家存储在LRU缓存中以减少GPU-RAM通信。更多技术细节和结果请参阅技术报告。
Aurora - 通过指令调优激活 Mixtral-8x7B 稀疏专家混合体的中文聊天功能
Github开源项目语言模型Mixtral-8x7BAurora指令调优中文对话能力
Aurora项目通过整合三大中文数据集,提升了Mixtral-8x7B稀疏专家模型的中文对话能力。通过数据预处理和指令微调,该模型在C-Eval、MMLU和CMMLU基准测试中表现出色。这项研究首次在稀疏专家模型上应用指令微调,提升了模型的架构能力,特别是在零样本任务中表现卓越。
Mixtral-8x7B-v0.1 - 多语言预训练大语言模型 超越Llama 2 70B性能
Github开源项目大语言模型Hugging Face模型Mixtral-8x7B模型优化Huggingface稀疏混合专家
Mixtral-8x7B是一款预训练的生成式稀疏专家混合大语言模型,在多数基准测试中性能优于Llama 2 70B。该模型支持法语、意大利语、德语、西班牙语和英语等多语言处理。开发者可通过Hugging Face transformers库或vLLM部署使用,并可采用半精度、8位和4位量化等方法降低内存占用。作为基础模型,Mixtral-8x7B不含内置审核机制,使用时需注意。