岭回归与LASSO回归

引言

岭回归: 通过向线性回归中引入L2正则化项防止过拟合。

LASSO回归: 通过向线性回归中引入L1正则化项实现特征选择。

L1正则化与LASSO回归

L1正则化通过在损失函数中添加参数权重的绝对值和的惩罚项来进行正则化。给定损失函数:

$$
J(\theta)=\mathrm{MSE}+\lambda \sum_{i=1}^p\left|\theta_i\right|
$$

其中:
– MSE 是模型在训练数据上的均方误差
– \(\theta\) 是模型参数
– \(\lambda\) 是正则化强度的超参数
– \(p\) 是特征的数量

L1正则化的工作原理是实现稀疏性:L1正则化倾向于产生稀疏权重矩阵,即模型的许多参数会被精确地设置为零。这有助于模型忽略不重要的特征。由于L1正则化倾向于让权重为零,它自然地实现了一种形式的特征选择,只有一部分重要的特征的权重会被保留。至于为什么,我们可以从两个角度理解:

从几何直观理解:

在优化过程中,正则化为我们的优化问题添加了一个约束。在没有正则化的情况下,我们只是简单地最小化损失函数(例如均方误差)。当我们添加L1正则化时,我们也在尽量保持权重向量的L1范数(权重的绝对值之和)尽可能小。可以想象如果在三维的权重空间中,我们在最小化原始损失函数的同时,也尽可能使权重向量靠近原点。几何上,L1正则化的约束在参数空间中形成了一个以原点为中心的“菱形”区域(在二维空间,即只有两个参数的情况中,所有满足 \(\left|\theta_1\right|+\left|\theta_2\right|=C\) 的 \(\left(\theta_1, \theta_2\right)\) 点组成的几何形状是一个菱形。这是由绝对值符号引起的,它在正负交界处产生尖角)。优化问题的解往往出现在这个菱形区域的顶点上,而这些顶点通常在坐标轴上,意味着某些权重正好为零。

从数学优化角度理解:

当我们将L1正则化项加到目标函数中时,我们将绝对值项∣θ ∣加到了损失函数中。由于绝对值函数在0点处的斜率发生突变,这就给优化问题引入了一种倾向于产生稀疏解的性质:在优化过程中,一些参数会被精确地推到零。

我们可以将L1正则化看作一种特征选择的机制。通过让某些权重参数精确为零,L1正则化实际上是在选择那些对模型输出影响最大的特征。换句话说,它倾向于完全排除一些特征的影响。更重要的是,一个稀疏模型通常在未见过的新数据上具有更好的泛化能力,因为它倾向于捕获那些在训练数据和未知数据上都显著的特征。L1正则化帮助模型关注那些“真正重要”的特征,从而提高其在新数据上的预测性能,并减小过拟训练数据的可能性。

L2正则化与岭回归

L2正则化通过在损失函数中添加参数权重的平方和的惩罚项来进行正则化。给定损失函数:

$$
J(\theta)=\mathrm{MSE}+\lambda \sum_{i=1}^p \theta_i^2
$$

其中,符号的含义与L1正则化相同。

L2正则化的工作原理是通过对权重参数施加惩罚,L2正则化阻止模型过于依赖训练数据中的任何一个特征,增强模型的泛化能力。而且,当数据中的特征高度相关时,L2正则化能够稳定模型参数的估计,并防止它们变得过大。

继续刚才的两个角度,

从几何角度来说,想象如果在二维的权重空间中,L2正则与L1正则类似我们在最小化原始损失函数的同时,也尽可能使权重向量靠近原点,使所有参数的大小受到限制,避免过大。不同的是在二维空间中,所有满足 \(\theta_1^2+\theta_2^2=C\) 的 \(\left(\theta_1, \theta_2\right)\) 点组成的几何形状是一个圆。这是由于平方项在所有方向上都是光滑的,没有尖点。因此L2正则化倾向于找到一个较为“平滑”的决策边界,而非过于复杂或“锯齿状”的边界,这有助于防止模型过于拟合训练数据的噪声和异常点。

从数学优化角度理解,由于L2正则化惩罚大的权重,模型不太可能过分依赖数据中的任何一个特征或样本,因此增强了模型的泛化能力,减小了过拟合的风险。而且,在多重共线性的情况下,即输入特征之间存在高度相关性时,线性回归模型的参数估计会变得不稳定,权重可能异常地大。L2正则化通过施加惩罚项,限制这些权重的大小,从而使得模型参数的估计更为稳定。

算法评价

小结一下,L1和L2正则化是机器学习中两种常见的正则化技术,它们虽然有共同的目标,但在实现上和支持的效果上存在明显的不同。

共同目标

  1. 防止过拟合:通过对模型权重施加惩罚,L1和L2正则化都旨在防止过拟合,提高模型的泛化能力。
  2. 参数惩罚:L1和L2正则化都通过在损失函数中添加与模型权重相关的惩罚项来限制模型权重的大小。
  3. 模型泛化:L1和L2正则化都通过约束模型的复杂度(通过控制权重的大小)来提高模型在未见数据上的表现。

不同之处

1. 产生稀疏模型:

L1正则化:通过产生稀疏权重矩阵(即很多权重精确为0)来进行特征选择。

L2正则化:不会产生稀疏权重矩阵,所有权重通常都非零。

2.参数大小的控制方式:

L1正则化:参数的控制是通过绝对值大小来实现的,更倾向于得到精确为0的权重。

L2正则化:参数的控制是通过平方值大小来实现的,倾向于得到接近0的权重。

3.对异常值的敏感性:

L1正则化:由于L1正则化能产生稀疏解,它可能对模型中的异常值或不重要的特征更为鲁棒。

L2正则化:通常对异常值更敏感,因为它会尽可能地拟合数据中的每一个点(权重不易为0)。

4.应用场景:

L1正则化:通常在特征选择或者稀疏模型的场景中更为有用。

L2正则化:在预测任务中(尤其是特征间存在多重共线性时)通常更为有效。

尽管L1和L2正则化有着共同的目标,即通过权重惩罚来防止过拟合并提高模型的泛化能力,但它们在实现和产生的模型效果上有显著的不同,为我们提供了在不同应用场景下选择的灵活性。

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容