结果相加概率为1,归一 化 输出区间(0,1) 连续可导 yi′=j=1∑kedjedi d表示输入 ∂w∂Loss=i=1∑k∂di∂Loss∂w∂di Loss=j=1∑k−yjlogyj′ yj表示真实情况,只有一个为1 Loss=−yjlogyj′ ∂dj∂Loss=∂yj∂Loss∂dj∂yj 链式法则 =yj′−yj⋅[j=1∑kedjedj+−(j=1∑kedj)2edjedj] =yj′−yjyj′(1−yj′) 输出概率 真实概率 且yj=1 =yj′−yj ∂w1∂Loss=(y′−y)wnf′(dn−1)wn−1...f′(d1)x =(y′−y)i=2∏nwii=1∏n−1f(di)x 梯度消失 f′最大0.25 n越大i=1∏n−1f(di)越趋向0 n大的原因 层数多 w向前求的多 w如果用了正则项 加速梯度消失 实际上不会有一项为0 实际上有多神经元 不适合中间层 属于logit函数 倾向产生onehot向量,会参数放大 导数比较小