Ukeate笔记

softmax

结果相加概率为1，归一化
输出区间 $(0, 1)$
连续可导
$y_{i}^{'} = \frac{e ^{d_{i}}}{j = 1 \sum k e ^{d_{j}}}$
- d表示输入
$\frac{\partial L oss}{\partial w} = i = 1 \sum k \frac{\partial L oss}{\partial d _{i}} \frac{\partial d _{i}}{\partial w}$
- $L oss = j = 1 \sum k - y_{j} lo g y_{j}^{'}$
  - $y_{j}$ 表示真实情况，只有一个为1
    - $L oss = - y_{j} lo g y_{j}^{'}$
- $\frac{\partial L oss}{\partial d _{j}} = \frac{\partial L oss}{\partial y _{j}} \frac{\partial y _{j}}{\partial d _{j}}$
  - 链式法则
  - $= \frac{- y _{j}}{y _{j}^{'}} \cdot [\frac{e ^{d_{j}}}{j = 1 \sum k e ^{d_{j}}} + - \frac{e ^{d_{j}}}{( j = 1 \sum k e ^{d_{j}} ) ^{2}} e^{d_{j}}]$
  - $= \frac{- y _{j}}{y _{j}^{'}} y_{j}^{'} (1 - y_{j}^{'})$
    - 输出概率
    - 真实概率
      - 且 $y_{j} = 1$
        
        $= y_{j}^{'} - y_{j}$
- $\frac{\partial L oss}{\partial w _{1}} = (y^{'} - y) w_{n} f^{'} (d_{n - 1}) w_{n - 1} ... f^{'} (d_{1}) x$
  - $= (y^{'} - y) i = 2 \prod n w_{i} i = 1 \prod n - 1 f (d_{i}) x$
    - 梯度消失
      - $f^{'}$ 最大0.25
      - n越大 $i = 1 \prod n - 1 f (d_{i})$ 越趋向0
      - n大的原因
        
        层数多
        
        w向前求的多
      - w如果用了正则项
        
        加速梯度消失
    - 实际上不会有一项为0
      - 实际上有多神经元
不适合中间层
- 属于logit函数
  - 倾向产生onehot向量，会参数放大
- 导数比较小

关系图谱

反向链接

激活函数

Created with Quartz v4.5.2 © 2026