Ukeate笔记

Adam

Adagrad
自适应动量估计法，梯度下降法改良
动量法
- $g = \frac{\partial L oss}{\partial w} v_{t} = α v_{t - 1} + ϵ g w_{t} = w_{t - 1} - v_{t}$
  - $ϵ$ 是学习因子
    - 自适应
      - $r_{t} = r_{t - 1} + ⟨ g, g ⟩ v_{t} = \frac{α}{r _{t}} g w_{t} = w_{t - 1} - v_{t}$
        
        $⟨ g, g ⟩$ 一定大于0
        
        不好的点，学习因子越来越小，学习变慢
        
        $r_{t} = ρ_{1} r_{t - 1} + (1 - ρ_{1}) ⟨ g, g ⟩$
        
        $ρ$ 是衰减因子，加权控制
        
        预防 $r_{t}$ 为0
        
        $v_{t} = \frac{α}{r _{t} + δ} g$
        
        $δ$ 很小
        
        起步加速
        
        $\overset{v_{t}}{^} = \frac{v _{t}}{1 - ρ _{1}^{t}}$
适用
- 各维度差异较大
与Adagrad区别
- 梯度平方变为指数移动平均数
  - 学习率自适应更灵活
- 处理稀疏梯度更稳定

关系图谱

反向链接

梯度下降法

Created with Quartz v4.5.2 © 2026