GroupMixFormer
GroupMixFormer是一种创新的视觉Transformer模型,引入群组混合注意力(GMA)机制来增强传统自注意力。GMA可同时捕捉不同尺度的token和群组相关性,显著提升模型表征能力。在多项计算机视觉任务中,GroupMixFormer以较少参数实现了领先性能。其中GroupMixFormer-L在ImageNet-1K分类上达到86.2% Top-1准确率,GroupMixFormer-B在ADE20K分割上获得51.2% mIoU,展现出强大潜力。