Skip to content

正则化

Regularization

正则化是机器学习中用于防止模型过拟合的核心技术。当模型过于复杂时,它可能会死记硬背训练数据中的噪声,导致在新数据上表现不佳。正则化通过在损失函数中增加一个惩罚项,限制模型的复杂度,鼓励模型学习更简单、更泛化的模式。

对于线性回归模型,使用L1正则化的模型叫做 Lasso回归,使用L2正则化的模型叫做 Ridge回归(岭回归)

L1正则化

假设原始损失函数为 J0(θ),则加入L1正则化后的总损失为:

J(θ)=J0(θ)+λi=1n|θi|

L1正则化惩罚的是权重的绝对值之和。它的效果是:

  • 让许多权重直接变为零,产生稀疏解。这意味着它能够自动进行特征选择,只保留少数重要特征。
  • 因为L1的梯度是常数(除零点外),在优化过程中,如果某个权重的绝对值较小,它很容易被“推”到零并保持为零。

对于线性回归,其形式为:

minw[i=1N(wTxiyi)2+λw1]

几何解释

L1正则化对应的是菱形(曼哈顿)约束:|θ1|+|θ2|r。菱形的顶点位于坐标轴上,因此最优解往往出现在顶点,导致某些权重为零。

L2正则化(权重衰减)

假设原始损失函数为 J0(θ),则加入L2正则化后的总损失为:

J(θ)=J0(θ)+λi=1nθi2

其中 θi 是模型的权重参数,λ 是正则化系数(超参数),控制惩罚的强度。λ 越大,模型越倾向于让权重接近零。

L2正则化惩罚的是权重的平方和。在梯度下降优化时,它会让权重在每次更新时额外减去一小部分(这就是“权重衰减”名字的由来)。最终效果是:

  • 让所有权重尽可能小,但不会强制为零。模型变得“平滑”,对输入的小变化不敏感。
  • 它假设所有特征都对输出有一定贡献,因此保留所有特征,只是削弱它们的影响。

对于线性回归,其形式为:

minw[i=1N(wTxiyi)2+λw22]

几何解释

在权重的二维空间中,L2正则化相当于对权重向量施加了一个圆形约束(因为 θ12+θ22r)。优化过程就是在圆形区域内寻找使原始损失最小的点。圆形边界是光滑的,所以最优解通常不在坐标轴上,即权重不会为零。

总结

  • L1正则化:通过强制权重为零,实现特征选择,适用于高维稀疏场景。
  • L2正则化:通过抑制权重的幅度,使模型平滑,适用于所有特征都有用的情况。

例子:画线拟合

假设你有几个数据点,需要用一条线去拟合它们。

  • 没有正则化(过拟合): 画了一条弯弯曲曲的线,完美穿过了每一个点,但线非常扭曲(权重极大)。来一个新点,肯定不准。
  • L2 正则化: 想扭曲也可以,但扭曲要扣分。所以模型只能稍微弯一点,尽量平滑。线没有那么精确,但更稳。
  • L1 正则化: 想弯一下?可以,但弯一次扣一次分。模型一算,扣分太多,不如直接画条直线。于是,所有的“弯曲特征”权重都被设为 0,只留下一条直线。