#混合专家模型

Grok-1: xAI的开创性大语言模型

3 个月前

Grok-1 大型语言模型混合专家模型开源权重模型规格 Github 开源项目

3 个月前

DeepSeek-V2: 经济高效的专家混合语言模型

3 个月前

DeepSeek-V2 混合专家模型大语言模型预训练模型自然语言处理 Github 开源项目

3 个月前

相关项目

DeepSeek-V2

DeepSeek-V2是一款基于专家混合(MoE)架构的大规模语言模型,总参数量达2360亿,每个token激活210亿参数。相较于DeepSeek 67B,该模型在提升性能的同时,显著降低了训练成本和推理资源消耗。DeepSeek-V2在多项标准基准测试和开放式生成任务中表现优异,展现了其在多领域的应用潜力。

grok-1

Grok-1是一个开源的大型语言模型，拥有314B参数和8,192个token的最大序列长度。它采用混合专家系统架构，每个token使用2个专家，包含64层结构。模型具有48个查询注意力头和8个键/值注意力头，嵌入维度为6,144。Grok-1支持激活分片和8位量化。项目提供JAX示例代码用于加载和运行模型，并可通过种子链接或Hugging Face下载权重。

SauerkrautLM-Mixtral-8x7B-Instruct

SauerkrautLM-Mixtral-8x7B-Instruct是基于Mixtral-8x7B-Instruct的多语言指令微调模型，支持英、德、法、意、西五种语言。模型通过DPO对齐和数据增强技术训练，改善了德语等语言的自然表达。在多项基准测试中表现优异，德语RAG评估准确率达97.5%。该模型采用Apache 2.0许可，允许商业应用。

mixtral-7b-8expert

Mixtral-7b-8expert是MistralAI开发的混合专家(MoE)模型在Hugging Face平台的实现。这个开源项目在MMLU、hella swag等多项基准测试中表现出色，支持英、法、意、西、德五种语言。模型提供简便的推理设置，基于Apache-2.0许可发布，适合自然语言处理研究和应用开发。

DeepSeek-V2-Lite

DeepSeek-V2-Lite是一款采用创新架构的混合专家(MoE)语言模型。通过多头潜在注意力(MLA)和DeepSeekMoE技术,该模型实现了训练和推理的高效性。模型总参数量为16B,激活参数为2.4B,在多项英文和中文基准测试中表现优异,超越了同类7B密集模型和16B MoE模型。DeepSeek-V2-Lite支持单40G GPU部署和8x80G GPU微调,为自然语言处理研究提供了一个高性能且资源友好的选择。

Defne_llama3_2x8B

Defne_llama3_2x8B是一个支持多语言的混合专家结构(MoE)模型，由两个llama3模型合并而成。通过transformers库实现高效的自然语言生成，支持英语和土耳其语，适合多语言文本生成和自然语言理解。用户可通过Python代码轻松与模型交互，实现数学问题解答及友好的人机对话。该模型在动态计算环境中具备高效的运行能力。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com