KL距离 FM模型 分类函数 f=1+e−(wx+w0)1 为什么 概率密度 f(x)=2πσ1e−2σ2(x−μ)2 P(y=1∣x)=P(x)P(y=1)⋅P(x∣y=1) 判别模型,可以用来做分类 实现 随机一个w 计算模型输出和真实数值差异,得到损失函数(mse, kl距离) 不停调整w让损失函数变小 计算 f=1+e−(wx+w0)1对w求导 ∂w∂f=f(1−f)x w=w−∂∂w∂kl ∂w∂kl=∂f∂kl×∂w∂f=n−1Σi=1n(fiyi−1−fi(1−yi))⋅fi(1−fi)x n−1Σi=1n[yi(1−fi)−(1−yi)fi]⋅x 两边总有一个为0 为什么不用mse ∂w∂mse=n2Σni=1(fi−yi)(fi)(1−fi)⋅x w非常大时,fi趋向1或0 (fi)(1−fi)很小,∂w∂mse很小,训练效果不好,走向局部最小值 体现出取w正常值时,也会很小 是否通过选初始点解决 局部极小的数量和维数平方成正比