前向过程更新梯度,随机忽略神经元 相当于每次都训练子网络 没有这个特征也能得到好效果 对抗过拟合 替代了正则 训练中用,预测不用 预测值偏大,每层修正 d(1-p), p为dropout的神经元数 修正完再激活