• Adagrad
  • 自适应动量估计法,梯度下降法改良
  • 动量法
      • 是学习因子
        • 自适应
            • 一定大于0
            • 不好的点,学习因子越来越小,学习变慢
              • 是衰减因子,加权控制
            • 预防为0
                • 很小
            • 起步加速
  • 适用
    • 各维度差异较大
  • 与Adagrad区别
    • 梯度平方变为指数移动平均数
      • 学习率自适应更灵活
    • 处理稀疏梯度更稳定