相关项目
MoE-LLaVA
MoE-LLaVA项目采用混合专家技术,实现了高效的大规模视觉语言模型。该模型仅使用3B稀疏激活参数就达到了与7B参数模型相当的性能,在多项视觉理解任务中表现优异。项目提供简单的基线方法,通过稀疏路径学习多模态交互,可在8张A100 GPU上1天内完成训练。MoE-LLaVA为构建高性能、低参数量的视觉语言模型探索了新的方向。
bge-reranker-v2.5-gemma2-lightweight
该多语言轻量级排序模型通过词元压缩和逐层优化,节省资源同时维持高性能。根据使用场景和资源限制,用户可灵活选择模型的压缩比例和输出层次,实现高效推理。项目已在BEIR和MIRACL上达到新SOTA性能,技术细节报告将于稍后发布。
distilbart-mnli-12-3
distilbart-mnli项目是利用No Teacher Distillation技术实现的bart-large-mnli的精简版,着重于零样本分类应用。该模型在保留主要性能的基础上,匹配准确度接近90%。通过复制bart-large-mnli的交替层并在同一数据集上进行微调,模型不断优化提升。用户可按照简单步骤进行微调,实现卓越的分类效果。