#混合专家

ChatLaw:革新法律服务的智能助手

3 个月前
Cover of ChatLaw:革新法律服务的智能助手

DiT-MoE: 扩展扩散变换器到160亿参数

3 个月前
Cover of DiT-MoE: 扩展扩散变换器到160亿参数
相关项目
Project Cover

mergoo

mergoo是一款工具库,用于高效合并和训练不同领域的LLM专家。支持Mixture-of-Experts、多层合并以及多种训练平台。适配Llama、Mistral、Phi3及BERT模型,兼容CPU、MPS和GPU设备。提供灵活配置及多种训练器支持,包括Hugging Face Trainer和PEFT,以便模型合并与微调。

Project Cover

DiT-MoE

DiT-MoE项目采用混合专家模型,将扩散Transformer扩展至16亿参数规模。作为扩散Transformer的稀疏版本,DiT-MoE在保持与密集网络相当性能的同时,实现了高效的推理。项目提供PyTorch实现、预训练权重和训练/采样代码,并包含专家路由分析和Hugging Face检查点。通过混合专家方法,DiT-MoE在模型扩展和推理优化方面展现出显著优势。

Project Cover

ChatLaw

ChatLaw作为一款先进的AI法律助手,结合了混合专家模型和多智能体系统,致力于增强AI法律服务的可靠性和准确性。项目通过整合知识图谱和人工筛选方法,打造高质量法律数据集,用于训练混合专家模型,从而优化法律回应的精确度。引入标准操作程序后,ChatLaw有效减少了错误和幻觉问题。在Lawbench评测和法律职业资格统一考试中,ChatLaw均取得了出色成绩,充分展示了其在法律咨询领域的卓越能力。

Project Cover

switch-base-128

Switch Transformers采用专家混合(MoE)模型架构,针对掩码语言模型(MLM)任务进行训练。该模型使用稀疏多层感知器层取代传统的前馈层,提升了训练效率。在Colossal Clean Crawled Corpus上完成了高达万亿参数的预训练,表现出优于T5的微调效果,并实现了相较于T5-XXL模型的四倍加速,适合需要高效语言模型的应用。

Project Cover

switch-base-8

Switch Transformers是一个创新的专家混合模型,专为在Colossal Clean Crawled Corpus数据集上进行掩码语言建模任务而设计,在训练速度上较T5-XXL模型提升4倍。其架构使用Sparse MLP层替代传统T5模型中的前馈层,提供更快训练且性能优异。该模型在未微调前并不适用于直接应用任务,需进一步调优。Switch Transformers适合需要高效和短时间内取得优异结果的开发者与研究者。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号