• 前向过程更新梯度,随机忽略神经元
    • 相当于每次都训练子网络
      • 没有这个特征也能得到好效果
    • 对抗过拟合
    • 替代了正则
    • 训练中用,预测不用
      • 预测值偏大,每层修正
        • d(1-p), p为dropout的神经元数
        • 修正完再激活