Batch Normalization, BN DNN难收敛 输入变化,影响训练好的w SGD难收敛 输入随机x的改变也影响训练好的w σx1−μ 输入符合统一的正态分布 为了符合类似μ(0,1)正态分布 引入要学习的参数α,β β(σx1−μ+α)符合μ(α,β2)的正态分布 μ,σ在训练后期选出,在预测中使用 前期不准,后期收敛了 每层都BN 后层效果更好 经过多层后,差异更大 LSTM和self-attention中不适合BN NLP变长 长样本尾部BN不准 NLP中多样本字维度不是一类,不能DN