• EM算法
  • 无监督模型
  • 质心
    • 到各个点距离之和最短
  • 公式
      • 函数和导数不连续
        • 不能梯度下降
        • EM算法
          • Expectation Maximization,期望最大算法
          • 随机选质心,算各个距离
          • 每类重新求质心
          • 重新随机质心
            • 直到质心不再变化
            • 或Loss足够小
              • 可能有点震荡
  • 评价指标
    • 内部误差
      • 同一个预测类别里不同的真实类别的个数
        • 数大,表示k设置的较小
    • 外部误差
      • 同一个真实类别里不同的预测类别的个数
        • 数大,表示k设置的较大
    • 计算两类的相似度
  • 局限性
    • 维度灾难
    • 对初始点敏感
      • 局部极小越多,对初始点越敏感
    • K-Means++
      • 之间尽量远
    • 异常点排除,否则质心偏移
      • 方法1,找离其它点都远的点
      • 方法2,中位数代替平均值
    • 各维度归一化
    • 确定类簇数k
      • k越大, Loss越小
        • 趋势变缓的k点
    • 无解问题
      • 要特征转换
    • 化整为零方法
      • 先分类再回归
  • 向量归一化时
    • 回归校正
    • K-Means的距离可以从欧式距离替换成内积