- EM算法
- 无监督模型
- 质心
- 到各个点距离之和最短
- 公式
-
- 函数和导数不连续
- 不能梯度下降
- EM算法
- Expectation Maximization,期望最大算法
- 随机选质心,算各个距离
- 每类重新求质心
- 重新随机质心
- 直到质心不再变化
- 或Loss足够小
- 可能有点震荡
- 函数和导数不连续
-
- 评价指标
- 熵
- 内部误差
- 同一个预测类别里不同的真实类别的个数
- 数大,表示k设置的较小
- 同一个预测类别里不同的真实类别的个数
- 外部误差
- 同一个真实类别里不同的预测类别的个数
- 数大,表示k设置的较大
- 同一个真实类别里不同的预测类别的个数
- 计算两类的相似度
- 局限性
- 维度灾难
- 对初始点敏感
- 局部极小越多,对初始点越敏感
- K-Means++
- 之间尽量远
- 异常点排除,否则质心偏移
- 方法1,找离其它点都远的点
- 方法2,中位数代替平均值
- 各维度归一化
- 确定类簇数k
- k越大, Loss越小
- 趋势变缓的k点
- k越大, Loss越小
- 无解问题
- 要特征转换
- 化整为零方法
- 先分类再回归
- 向量归一化时
- 回归校正
- K-Means的距离可以从欧式距离替换成内积