#混合专家模型

DeepSeek-V2 - 兼顾效率与经济性的大规模混合专家语言模型
Github开源项目预训练模型大语言模型自然语言处理DeepSeek-V2混合专家模型
DeepSeek-V2是一款基于专家混合(MoE)架构的大规模语言模型,总参数量达2360亿,每个token激活210亿参数。相较于DeepSeek 67B,该模型在提升性能的同时,显著降低了训练成本和推理资源消耗。DeepSeek-V2在多项标准基准测试和开放式生成任务中表现优异,展现了其在多领域的应用潜力。
grok-1 - 314B参数语言模型 支持混合专家系统和8位量化
大型语言模型Github开源项目混合专家模型Grok-1开源权重模型规格
Grok-1是一个开源的大型语言模型,拥有314B参数和8,192个token的最大序列长度。它采用混合专家系统架构,每个token使用2个专家,包含64层结构。模型具有48个查询注意力头和8个键/值注意力头,嵌入维度为6,144。Grok-1支持激活分片和8位量化。项目提供JAX示例代码用于加载和运行模型,并可通过种子链接或Hugging Face下载权重。
TimeMoE-50M - 混合专家时间序列预测基础模型 提升大规模数据分析能力
Github开源项目深度学习模型基础模型时间序列预测Huggingface混合专家模型TimeMoE
TimeMoE-50M是一个基于混合专家(MoE)架构的时间序列预测基础模型,专为处理十亿规模数据而设计。此模型旨在优化大规模时间序列分析的准确性和效率。开发者可在GitHub页面上找到详细的使用指南和实现方法,有助于将其整合到各类时间序列分析项目中,提升预测能力。
SauerkrautLM-Mixtral-8x7B-Instruct - Mixtral-8x7B基础上的多语言指令微调大模型
Github开源项目自然语言处理多语言模型Huggingface混合专家模型DPO对齐SauerkrautLM-Mixtral-8x7B-Instruct
SauerkrautLM-Mixtral-8x7B-Instruct是基于Mixtral-8x7B-Instruct的多语言指令微调模型,支持英、德、法、意、西五种语言。模型通过DPO对齐和数据增强技术训练,改善了德语等语言的自然表达。在多项基准测试中表现优异,德语RAG评估准确率达97.5%。该模型采用Apache 2.0许可,允许商业应用。
mixtral-7b-8expert - 高性能开源混合专家语言模型,支持多语言并具有出色的基准分数
Github开源项目自然语言处理机器学习人工智能模型模型HuggingfaceMixtral混合专家模型
Mixtral-7b-8expert是MistralAI开发的混合专家(MoE)模型在Hugging Face平台的实现。这个开源项目在MMLU、hella swag等多项基准测试中表现出色,支持英、法、意、西、德五种语言。模型提供简便的推理设置,基于Apache-2.0许可发布,适合自然语言处理研究和应用开发。
DeepSeek-V2-Lite - 创新架构驱动的高效混合专家语言模型
Github开源项目自然语言处理DeepSeek-V2模型Huggingface大规模语言模型混合专家模型多头潜在注意力
DeepSeek-V2-Lite是一款采用创新架构的混合专家(MoE)语言模型。通过多头潜在注意力(MLA)和DeepSeekMoE技术,该模型实现了训练和推理的高效性。模型总参数量为16B,激活参数为2.4B,在多项英文和中文基准测试中表现优异,超越了同类7B密集模型和16B MoE模型。DeepSeek-V2-Lite支持单40G GPU部署和8x80G GPU微调,为自然语言处理研究提供了一个高性能且资源友好的选择。
Defne_llama3_2x8B - 增强型MoE模型,结合llama3的融合创新
Github开源项目文本生成自然语言处理模型transformersHuggingface混合专家模型Defne_llama3_2x8B
Defne_llama3_2x8B是一个支持多语言的混合专家结构(MoE)模型,由两个llama3模型合并而成。通过transformers库实现高效的自然语言生成,支持英语和土耳其语,适合多语言文本生成和自然语言理解。用户可通过Python代码轻松与模型交互,实现数学问题解答及友好的人机对话。该模型在动态计算环境中具备高效的运行能力。