• 随机初始化w,根据导数变化调整w,直到mse最少
    • w(1) = w(0) -
  • 对w复合求导
    • 学习因子,人为调整
    • 步幅小太慢,步幅大震荡
  • 线性回归中没有局部最小问题
  • 为什么不解方程求解
    • 数据量太大
  • n太大时,随机采样成m来计算
    • m太小时,结果会震荡
      • 震荡幅度
      • 实际中会取小m多算几次
    • 一般取2的次方,方便并行计算
  • 多分类的梯度下降法
  • 改进
    • k大时计算量大,负采样
    • 增加问题难度
    • 加速计算
        • 替换成
          • 求max软化求导版
    • SGD
      • 避免鞍点不学习
        • 鞍点是不稳定点
      • 抽batchsize个算梯度,m越大越小
        • batchsize过大
          • 梯度稳定,不易逃出鞍点,学习次数变小,学习慢
        • batchsize过小
          • 梯度随机性强,易逃出鞍点,学习过程不稳定,学习次数多,学习快
        • batchsize早期小,后期大
    • Adam