#模型蒸馏
相关项目
DMD2
DMD2是一种改进的分布匹配蒸馏技术,用于快速图像合成。通过消除回归损失、集成GAN损失和支持多步采样,该技术显著提升了图像生成的质量和效率。在ImageNet-64x64和COCO 2014数据集上,DMD2的FID评分超越原始模型,同时将推理成本降低500倍。此外,DMD2还能生成百万像素级图像,在少步方法中展现出卓越的视觉效果。
llm_distillation_playbook
LLM Distillation Playbook项目提供了系统化的大语言模型蒸馏实践指南。该项目探讨了模型蒸馏的关键概念、评估标准和实用技巧,涵盖数据准备到模型部署的全流程。它为工程师和ML实践者提供见解,帮助在生产环境中将大型语言模型压缩为高效小型版本。该指南融合学术研究和实践经验,是开源LLM开发的参考资源。
MixFormerV2
MixFormerV2是一个统一的全Transformer跟踪模型,无需密集卷积操作和复杂评分预测模块。该模型提出四个关键预测token,有效捕捉目标模板与搜索区域的相关性。项目还引入新型蒸馏模型压缩方法,包括密集到稀疏和深层到浅层两个阶段。MixFormerV2在LaSOT和TNL2k等多个基准测试中表现优异,分别达到70.6%和57.4%的AUC,同时在GPU上保持165fps的推理速度。值得注意的是,MixFormerV2-S是首个在CPU上实现实时运行的基于Transformer的单流跟踪器。