• Batch Normalization, BN
  • DNN难收敛
    • 输入变化,影响训练好的w
  • SGD难收敛
    • 输入随机x的改变也影响训练好的w
    • 输入符合统一的正态分布
    • 为了符合类似正态分布
      • 引入要学习的参数
      • 符合的正态分布
      • 在训练后期选出,在预测中使用
        • 前期不准,后期收敛了
  • 每层都BN
    • 后层效果更好
      • 经过多层后,差异更大
  • LSTM和self-attention中不适合BN
    • NLP变长
      • 长样本尾部BN不准
    • NLP中多样本字维度不是一类,不能DN