• 结果相加概率为1,归一 化
  • 输出区间
  • 连续可导
    • d表示输入
      • 表示真实情况,只有一个为1
      • 链式法则
        • 输出概率
        • 真实概率
        • 梯度消失
          • 最大0.25
          • n越大越趋向0
          • n大的原因
            • 层数多
            • w向前求的多
          • w如果用了正则项
            • 加速梯度消失
        • 实际上不会有一项为0
          • 实际上有多神经元
  • 不适合中间层
    • 属于logit函数
      • 倾向产生onehot向量,会参数放大
    • 导数比较小