Adagrad 自适应动量估计法,梯度下降法改良 动量法 g=∂w∂Lossvt=αvt−1+ϵgwt=wt−1−vt ϵ是学习因子 自适应 rt=rt−1+⟨g,g⟩vt=rtαgwt=wt−1−vt ⟨g,g⟩一定大于0 不好的点,学习因子越来越小,学习变慢 rt=ρ1rt−1+(1−ρ1)⟨g,g⟩ ρ是衰减因子,加权控制 预防rt为0 vt=rt+δαg δ很小 起步加速 vt^=1−ρ1tvt 适用 各维度差异较大 与Adagrad区别 梯度平方变为指数移动平均数 学习率自适应更灵活 处理稀疏梯度更稳定