• 震荡
    • w等高线
      • 情况
        • 一圈表示kl距离相等
        • x1取值范围大,w1算的大
      • 与x量级的关系
        • y预测接近1时,正样本训练好了
        • y预测接近0时,负样本训练好了
        • x量级大,导数就大,w走的值就大
    • 输入正规化
      • 能加速训练速度
      • 均值,
        • 异常大小数据会使数区别变小
      • 均方差
          • 因为同号,w1, w2只能同增同减,等高线训练慢
          • 要让x1, x2可正可负,特征转换
            • m1表示x均值,再除以方差
  • 多元分类
    • 直接分
      • p1 + p2 + … 不等于1
    • one vs one
    • n分类变成n个二分类
      • 可以灵活增减
  • 异或问题
  • 数据倾斜问题
    • 数据类别均衡
      • 下采样
        • 大样本变小
      • 上采样
        • 小样本变大
        • 实际中比较多,因为人工不断标注
  • 模型变换
    • w取反
      • 无影响
    • w同时扩大
      • 分类函数越容易趋向1或0
        • 信号放大,没有区分度
      • 信息冗余
        • 由于有噪声,扩大10倍,真实信息扩大去噪声的7倍,噪声却扩大10倍
        • 信噪比减少
  • 输出概率
    • 训练集、测试集差异性最小
      • w=0, 预测都是0.5
    • 正则项