岭回归与LASSO回归-点头深度学习网站

引言

岭回归: 通过向线性回归中引入L2正则化项防止过拟合。

LASSO回归: 通过向线性回归中引入L1正则化项实现特征选择。

L1正则化与LASSO回归

L1正则化通过在损失函数中添加参数权重的绝对值和的惩罚项来进行正则化。给定损失函数：

$$
J(\theta)=\mathrm{MSE}+\lambda \sum_{i=1}^p\left|\theta_i\right|
$$

其中:
– MSE 是模型在训练数据上的均方误差
– $\theta$ 是模型参数
– $\lambda$ 是正则化强度的超参数
– $p$ 是特征的数量

L1正则化的工作原理是实现稀疏性：L1正则化倾向于产生稀疏权重矩阵，即模型的许多参数会被精确地设置为零。这有助于模型忽略不重要的特征。由于L1正则化倾向于让权重为零，它自然地实现了一种形式的特征选择，只有一部分重要的特征的权重会被保留。至于为什么，我们可以从两个角度理解：

从几何直观理解:

在优化过程中，正则化为我们的优化问题添加了一个约束。在没有正则化的情况下，我们只是简单地最小化损失函数（例如均方误差）。当我们添加L1正则化时，我们也在尽量保持权重向量的L1范数（权重的绝对值之和）尽可能小。可以想象如果在三维的权重空间中，我们在最小化原始损失函数的同时，也尽可能使权重向量靠近原点。几何上，L1正则化的约束在参数空间中形成了一个以原点为中心的“菱形”区域（在二维空间，即只有两个参数的情况中，所有满足 $\left|\theta_1\right|+\left|\theta_2\right|=C$ 的 $\left(\theta_1, \theta_2\right)$ 点组成的几何形状是一个菱形。这是由绝对值符号引起的，它在正负交界处产生尖角）。优化问题的解往往出现在这个菱形区域的顶点上，而这些顶点通常在坐标轴上，意味着某些权重正好为零。

从数学优化角度理解:

当我们将L1正则化项加到目标函数中时，我们将绝对值项∣θ ∣加到了损失函数中。由于绝对值函数在0点处的斜率发生突变，这就给优化问题引入了一种倾向于产生稀疏解的性质：在优化过程中，一些参数会被精确地推到零。

我们可以将L1正则化看作一种特征选择的机制。通过让某些权重参数精确为零，L1正则化实际上是在选择那些对模型输出影响最大的特征。换句话说，它倾向于完全排除一些特征的影响。更重要的是，一个稀疏模型通常在未见过的新数据上具有更好的泛化能力，因为它倾向于捕获那些在训练数据和未知数据上都显著的特征。L1正则化帮助模型关注那些“真正重要”的特征，从而提高其在新数据上的预测性能，并减小过拟训练数据的可能性。

L2正则化与岭回归

L2正则化通过在损失函数中添加参数权重的平方和的惩罚项来进行正则化。给定损失函数：

$$
J(\theta)=\mathrm{MSE}+\lambda \sum_{i=1}^p \theta_i^2
$$

其中，符号的含义与L1正则化相同。

L2正则化的工作原理是通过对权重参数施加惩罚，L2正则化阻止模型过于依赖训练数据中的任何一个特征，增强模型的泛化能力。而且，当数据中的特征高度相关时，L2正则化能够稳定模型参数的估计，并防止它们变得过大。

继续刚才的两个角度，

从几何角度来说，想象如果在二维的权重空间中，L2正则与L1正则类似我们在最小化原始损失函数的同时，也尽可能使权重向量靠近原点，使所有参数的大小受到限制，避免过大。不同的是在二维空间中，所有满足 $\theta_1^2+\theta_2^2=C$ 的 $\left(\theta_1, \theta_2\right)$ 点组成的几何形状是一个圆。这是由于平方项在所有方向上都是光滑的，没有尖点。因此L2正则化倾向于找到一个较为“平滑”的决策边界，而非过于复杂或“锯齿状”的边界，这有助于防止模型过于拟合训练数据的噪声和异常点。

从数学优化角度理解，由于L2正则化惩罚大的权重，模型不太可能过分依赖数据中的任何一个特征或样本，因此增强了模型的泛化能力，减小了过拟合的风险。而且，在多重共线性的情况下，即输入特征之间存在高度相关性时，线性回归模型的参数估计会变得不稳定，权重可能异常地大。L2正则化通过施加惩罚项，限制这些权重的大小，从而使得模型参数的估计更为稳定。