deep-significance: 深度学习时代的统计显著性检验利器
在过去的十年里,深度学习取得了突飞猛进的发展。然而,大量的实验结果并没有得到统计假设检验的支持。相反,结论往往是基于单一的性能得分得出的。这是一个亟待解决的问题:神经网络具有高度非凸的损失曲面,其性能高度依赖于特定的超参数设置和诸如Dropout掩码等随机因素,这使得不同架构之间的比较变得更加困难...使用置信度α = 0.05的ASO比较了每个模型基于五个随机种子的所有对(在使用Bonferroni校正进行所有成对比较之前)。表X中指示了几乎随机主导(ε_min < τ,τ = 0.2)的情况。### 样本量
确定当前收集的分数集是否足够大以允许可靠的显著性检验,或是否需要更多分数,这可能很难。为此,deep-significance
还实现了一些函数来帮助决定是否收集更多样本...分析的结果是统计功效:功效越高,犯II型错误的风险就越小 - II型错误是错误地接受原假设,而实际上应该拒绝它的概率。通常,建议功效约为0.8(尽管在机器学习设置中有时很难实现)。该函数可以按以下方式使用:
import numpy as np
from deepsig import bootstrap_power_analysis
scores = np