λ∥w∥ λ∝σ1 方差越大,λ越大来控制 表示对样本的信任程度 L1正则 ∣w1∣+∣w2∣ 拉普拉斯分布 均匀变小,砍掉了小w 降维了 L2正则 w12+w22 正态分布 不重要的变小,变化被放大 小w降到一定程度保留,降其它w 提高推广能力(泛化能力) 表示在测试集上表现和训练集差不多 损失函数 yilogfi+(1−yi)log(1−fi)+λ∥w∥ 数据量越大,λ越小,不需要控制 作用 没有λ∥w∥,w溢出,趋向无穷 减少测试集训练集的差异性 破坏训练集效果