#稀疏专家混合

makeMoE入门指南 - 从零实现稀疏混合专家语言模型

2024年09月10日

makeMoE Databricks pytorch 稀疏专家混合语言模型 Github 开源项目

2024年09月10日

makeMoE: 从零开始实现稀疏混合专家语言模型

2024年08月30日

makeMoE Databricks pytorch 稀疏专家混合语言模型 Github 开源项目

2024年08月30日

相关项目

makeMoE

makeMoE是一个基于Andrej Karpathy的makemore项目, 从零构建的稀疏混合专家语言模型。它借鉴了makemore的部分组件，例如数据预处理和生成莎士比亚风格文本。在架构上，makeMoE引入了稀疏专家混合、Top-k门控和噪声Top-k门控等改进。项目在Databricks上使用单一A100 GPU开发，支持大规模GPU集群扩展，并通过MLFlow进行指标跟踪。项目强调代码的可读性和修改性，适合深入学习和改进。

Mixtral-8x7B-Instruct-v0.1

Mixtral-8x7B是一个预训练生成式稀疏混合专家大语言模型,在多数基准测试中超越Llama 2 70B。支持法语、意大利语、德语、西班牙语和英语等多语言,采用Apache-2.0许可。模型基于Mixtral-8x7B-v0.1,可通过transformers或vLLM进行推理,并支持半精度、8位和4位量化以优化内存使用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com