#专家模型

CBTM: 一种新型的大规模语言模型训练方法

2 个月前

c-BTM 语言模型聚类专家模型评估 Github 开源项目

2 个月前

相关项目

cbtm

Cluster-Branch-Train-Merge (c-BTM)项目提出了一种通过无监督领域发现技术扩展专家语言模型的方法。该项目包含完整的训练评估流程，涵盖数据准备、聚类、模型训练和评估等步骤。c-BTM旨在提升大规模语言模型在特定领域的性能，为自然语言处理研究提供新思路。

switch-base-32

Switch Transformers通过混合专家模型提高了屏蔽语言模型任务的训练速度，相较于T5，其微调任务表现更佳。该模型使用稀疏MLP替代传统前馈层，并在Colossal Clean Crawled Corpus上预训练，实现了4倍训练加速。研究还探讨了其环境影响并提供详细技术细节及源代码链接。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com