Ukeate笔记

批标准化

Batch Normalization, BN
DNN难收敛
- 输入变化，影响训练好的w
SGD难收敛
- 输入随机x的改变也影响训练好的w
$\frac{x _{1} - μ}{σ}$
- 输入符合统一的正态分布
- 为了符合类似 $μ (0, 1)$ 正态分布
  - 引入要学习的参数 $α, β$
  - $β (\frac{x _{1} - μ}{σ} + α)$ 符合 $μ (α, β^{2})$ 的正态分布
  - $μ, σ$ 在训练后期选出，在预测中使用
    - 前期不准，后期收敛了
每层都BN
- 后层效果更好
  - 经过多层后，差异更大
LSTM和self-attention中不适合BN
- NLP变长
  - 长样本尾部BN不准
- NLP中多样本字维度不是一类，不能DN

关系图谱

反向链接

Attention机制

Created with Quartz v4.5.2 © 2026