- 随机初始化w,根据导数变化调整w,直到mse最少
- w(1) = w(0) -
- 对w复合求导
-
- 学习因子,人为调整
- 步幅小太慢,步幅大震荡
- 线性回归中没有局部最小问题
- 为什么不解方程求解
- 数据量太大
- n太大时,随机采样成m来计算
- m太小时,结果会震荡
- 震荡幅度
- 实际中会取小m多算几次
- 一般取2的次方,方便并行计算
- m太小时,结果会震荡
- 多分类的梯度下降法
- 改进
- k大时计算量大,负采样
- SampledSoftmax
- NCE
- 增加问题难度
- 加速计算
-
- 替换成
- 求max软化求导版
- 求max软化求导版
- 替换成
-
- SGD
- 避免鞍点不学习
- 鞍点是不稳定点
- 抽batchsize个算梯度,m越大越小
- batchsize过大
- 梯度稳定,不易逃出鞍点,学习次数变小,学习慢
- batchsize过小
- 梯度随机性强,易逃出鞍点,学习过程不稳定,学习次数多,学习快
- batchsize早期小,后期大
- batchsize过大
- 避免鞍点不学习
- Adam
- k大时计算量大,负采样