• 求概率间的距离,香农提出
  • 公式
      • 如果x是连续值,改求积分
      • 没有对称性
        • JS距离
    • 为什么
      • 最大似然估计
          • max
          • = min
    • 感觉
        • P大时,Q越大越好
        • P小时,Q无所谓
        • 所以要把Q分布在P大的时候
        • 形状固定,所以 越大越好
          • P小的时候logP趋向负无穷,所以P小的时候Q尽量小
      • 结论
        • 使KL(P, Q)小, Q尽可能匹配P的大值
        • 使KL(Q, P)小, Q尽可能匹配P的小值
      • 不能用单独训练
        • y=1时,f可以度量
        • f=0时,f度量不出来
  • 损失函数
    • 用交叉熵损失函数
        • 两边总有一个为0
        • 简化,只保留与f相关的
            • ,不存在log0为
  • 优化
  • 连续KL距离