- 求概率间的距离,香农提出
- 公式
- kl(P,Q)=n1i=1∑nP(xi)⋅logQ(xi)P(xi)
- 为什么
- 最大似然估计
- i=1∏nP(xi,yi)=i=1∏nP(yi∣xi)P(xi)
- =i=1∑n[logP(yi∣xi)+logP(xi)]
- P(y=1∣x)=f(x),P(y=0∣x)=1−f(x)
- logP(yi∣xi)=logfy⋅(1−f)(1−y)
- max ylogf+(1−y)log(1−f)
- = min −ylogf−(1−y)log(1−f)
- 感觉
- P(xi)⋅logP(xi)−P(xi)⋅logQ(xi)
- P大时,Q越大越好
- P小时,Q无所谓
- ΣQ=1所以要把Q分布在P大的时候
- QlogPQ=QlogQ−QlogP
- QlogQ 形状固定,所以QlogP 越大越好
- QlogP
- P小的时候logP趋向负无穷,所以P小的时候Q尽量小
- 结论
- 使KL(P, Q)小, Q尽可能匹配P的大值
- 使KL(Q, P)小, Q尽可能匹配P的小值
- 不能用ylogfy单独训练
- 损失函数
- 用交叉熵损失函数
- n1Σi=1n[yi⋅logfiyi+(1−yi)⋅log(1−fi)(1−yi)]
- 两边总有一个为0
- 简化,只保留与f相关的
- n−1Σi=1n[yilogfi+(1−yi)log(1−fi)]
- n−1Σi=1n(fiyi−1−fi(1−yi))
- 优化
- 连续KL距离