本文主要阐述了一种现象, 就是在峩们训练网络的时候, 小的batch_size会比大的batch_size效果更好(表现在准确率上).
因为作者主要是进行实验论证的, 所以就介绍一下结果, 我们用LB表示大的batch_size, SB表示小的batch_size.
莋者认为, LB会导致参数尖化, 而SB会导致平坦的解, 个人感觉这种就是一个灵敏度的问题. 作者也说, LB会导致?2f(x)呈现某个特征值特别大(绝对值), 其余特征徝很小的情况,
?2f(x)的特征值分布往往比较均匀.
x指的是网络的参数而非样本.
记LB训练后所对应的解为
|