主动和被动损失:深度学习中的归一化损失函数

Ray

Active-Passive-Losses

主动和被动损失:深度学习中的归一化损失函数

在机器学习和深度学习领域,处理带噪标签的数据一直是一个重要而具有挑战性的问题。噪声标签会严重影响模型的训练和泛化性能。为了解决这个问题,研究人员提出了一种新的损失函数 - 主动和被动损失(Active Passive Losses,简称APL),可以有效地处理带噪标签的数据,提高模型的鲁棒性。

APL的基本原理

APL损失函数由两部分组成:主动损失(Active Loss)和被动损失(Passive Loss)。主动损失用于学习干净的标签,而被动损失则用于抑制噪声标签的影响。这两种损失通过一个平衡参数进行加权组合,形成最终的APL损失函数。

具体来说,主动损失采用了归一化的交叉熵(Normalized Cross Entropy, NCE)形式:

NCE = -1/N * sum(y_i * log(p_i) / sum(y_j))

其中N是类别数,y_i是真实标签,p_i是预测概率。NCE通过归一化,可以降低不同类别之间的不平衡影响。

被动损失则采用了反向交叉熵(Reverse Cross Entropy, RCE)的形式:

RCE = -1/N * sum(p_i * log(y_i))

RCE通过最小化预测概率和真实标签之间的差异,可以有效抑制噪声标签的影响。

APL的优势

APL具有以下几个主要优势:

对噪声标签具有很强的鲁棒性,可以有效降低噪声的影响。
损失函数是归一化的,避免了不同类别之间的不平衡问题。
主动和被动损失的组合使得模型既能学习干净标签,又能抑制噪声标签。
不需要对数据进行预处理或样本筛选,可以直接应用于原始数据集。
计算简单,易于实现和优化。

实验结果

研究人员在CIFAR-10、CIFAR-100等数据集上进行了大量实验。结果表明,APL在各种噪声类型和噪声率下,都取得了优于现有方法的性能。特别是在高噪声率(如40%或60%)的情况下,APL的优势更加明显。

APL在CIFAR-10上的实验结果

上图展示了APL在CIFAR-10数据集上的实验结果。可以看到,随着噪声率的增加,APL相比其他方法保持了更高的准确率。

代码实现

APL的PyTorch实现非常简单,核心代码如下:

class APLoss(nn.Module):
    def __init__(self, alpha=1.0):
        super(APLoss, self).__init__()
        self.alpha = alpha    
    
    def forward(self, logits, targets):
        ce_loss = F.cross_entropy(logits, targets)
        pred = F.softmax(logits, dim=1)
        pred = torch.clamp(pred, min=1e-7, max=1.0)
        nce_loss = -torch.sum(torch.log(pred) * targets, dim=1).mean()
        rce_loss = -torch.sum(pred * torch.log(targets), dim=1).mean()
        return ce_loss + self.alpha * (nce_loss + rce_loss)

使用时只需将普通的交叉熵损失替换为APLoss即可: