【返璞归真】-Lasso 回归（Least Absolute Shrinkage and Selection Operator，最小绝对值收缩和选择算子）

🕗 发布于 2024-12-09 07:55 回归数据挖掘 人工智能

Lasso 回归（Least Absolute Shrinkage and Selection Operator，最小绝对值收缩和选择算子）是一种线性回归方法，主要用于变量选择和特征稀疏化。其基本思想是在最小化残差平方和的目标函数中加入一个 $\ell_1$ 范数的惩罚项，从而对模型的复杂度进行约束。

Lasso 回归的目标函数可以表示为：

$\hat{\beta} = \underset{\beta}{\text{argmin}} \left\{ \frac{1}{2n} \sum_{i=1}^{n} \left( y_i - \mathbf{x}_i^\top \beta \right)^2 + \lambda \sum_{j=1}^{p} |\beta_j| \right\}$

公式解释

第一部分（ $\frac{1}{2n} \sum_{i=1}^{n} \left( y_i - \mathbf{x}_i^\top \beta \right)^2$ ）：
- 这是普通线性回归中的最小化残差平方和项。
- $y_i$ 是第 $i$ 个观测值的目标变量。
- $\mathbf{x}_i^\top \beta$ 是第 $i$ 个观测值的预测值。
- $\frac{1}{2n}$ 是常数因子，用于简化梯度计算。
第二部分（ $\lambda \sum_{j=1}^{p} |\beta_j|$ ）：
- 这是 $\ell_1$ 范数惩罚项，用于对回归系数 $\beta$ 施加约束。
- $|\beta_j|$ 表示回归系数的绝对值。
- $\lambda \geq 0$ 是超参数，控制惩罚项的强度。
  - 当 $\lambda = 0$ 时，Lasso 回归退化为普通最小二乘法（OLS）。
  - 当 $\lambda$ 很大时，许多 $\beta_j$ 会被强制为零，从而实现特征选择。
优化目标：
- 在保持拟合误差较小的同时，通过惩罚项缩小回归系数的绝对值，有效地消除不重要的特征（ $\beta_j = 0$ ）。

Lasso 的两个核心作用

变量选择：
- 由于 $\ell_1$ 惩罚的特点，Lasso 会将某些回归系数缩减为零，从而选择出重要变量。
特征稀疏化：
- 大多数不重要的特征对应的系数被压缩为零，使得模型更加简单、可解释。

与 Ridge 回归的区别

Lasso 回归使用的是 $\ell_1$ 范数，而 Ridge 回归使用的是 $\ell_2$ 范数：

$\text{Ridge 的目标函数：} \quad \hat{\beta} = \underset{\beta}{\text{argmin}} \left\{ \frac{1}{2n} \sum_{i=1}^{n} \left( y_i - \mathbf{x}_i^\top \beta \right)^2 + \lambda \sum_{j=1}^{p} \beta_j^2 \right\}$

Ridge 回归（ $\ell_2$ 惩罚）会缩小系数的大小，但不会将其缩减为零，因此无法进行特征选择。
Lasso 回归（ $\ell_1$ 惩罚）可以使系数完全为零，因此更适合特征选择。

图示解释

如果将目标函数看作约束优化问题，可以写为：

$\min \frac{1}{2n} \sum_{i=1}^{n} \left( y_i - \mathbf{x}_i^\top \beta \right)^2 \quad \text{subject to} \quad \sum_{j=1}^{p} |\beta_j| \leq t$

$\ell_1$ 范数的约束区域是一个菱形（对称图形）。
$\ell_2$ 范数的约束区域是一个圆。
$\ell_1$ 的菱形形状使得优化过程更容易在某些轴（特征）的方向上产生零解。

优化算法

Lasso 回归的目标函数由于 $\ell_1$ 惩罚项的不可导性，通常采用以下优化方法：

坐标下降法（Coordinate Descent）。
最小角回归（Least Angle Regression, LARS）。
梯度下降法或其变种。

Lasso 是一种强大的工具，尤其适合高维数据场景。

为什么 Lasso 会收缩到 0，而 Ridge 只是减少？

Lasso 和 Ridge 的核心区别在于惩罚项的形式和优化路径的几何特性：

Lasso ( $\ell_1$ 惩罚)：
- $\ell_1$ 范数是系数的绝对值和 ( $\sum_{j=1}^p |\beta_j|$ )，它在约束区域边界上形成了尖点（如二维中是菱形）。
- 这种尖点使得目标函数的优化更容易停留在坐标轴上（即某些系数完全为 0）。在求解过程中，当某个特征的重要性较低时，其对应的系数可能直接被优化为零。
Ridge ( $\ell_2$ 惩罚)：
- $\ell_2$ 范数是系数的平方和的平方根 ( $\sqrt{\sum_{j=1}^p \beta_j^2}$ )，其约束区域是光滑的（如二维中是圆形）。
- 由于边界光滑，没有尖点，优化不会将系数完全收缩到 0，而是均匀地缩小所有系数。这导致 Ridge 回归不能实现特征选择。

菱形和圆形是什么意思？

为了更直观地理解，我们将回归问题转化为 带约束的优化问题，约束区域对应的是惩罚项。

1. 约束形式化：

可以将目标函数改写为以下形式：

$\min_{\beta} \frac{1}{2n} \sum_{i=1}^n \left( y_i - \mathbf{x}_i^\top \beta \right)^2 \quad \text{subject to} \quad \text{惩罚项的约束区域}$

对于 Lasso，约束为 $\sum_{j=1}^p |\beta_j| \leq t$ ，这是一个 $\ell_1$ 范数的约束区域。
对于 Ridge，约束为 $\sum_{j=1}^p \beta_j^2 \leq t^2$ ，这是一个 $\ell_2$ 范数的约束区域。

2. 几何解释：

在二维系数空间（即 $(\beta_1, \beta_2)$ 平面）：
- $\ell_1$ 范数的约束区域是一个菱形，四个顶点位于坐标轴上。
- $\ell_2$ 范数的约束区域是一个圆形，是对称的平滑曲线。
在高维空间中：
- $\ell_1$ 范数的约束是一个高维菱形（数学上称为超正交体，类似于正方体的变种）。
- $\ell_2$ 范数的约束是一个高维球体。

3. 优化过程：

优化目标是最小化残差平方和，同时满足约束条件。因此，优化路径的几何形状受到惩罚项的约束：

Lasso：
- 优化路径可能在菱形的尖点（即坐标轴交点）处找到最优解。
- 如果尖点对应某个系数 $\beta_j$ 恰好为零，优化过程会选择该解。这就是 Lasso 能够将系数收缩到 0 的原因。
Ridge：
- 圆形边界光滑，优化路径不会停留在任何坐标轴上。因此，系数仅被缩小，而不会完全为零。

直观类比

可以将优化过程比作一个弹性球在约束区域中滚动：

在 Lasso 的菱形边界中，球更容易滚到某个尖点（对应某些 $\beta_j = 0$ ）。
在 Ridge 的圆形边界中，球无法停留在尖点（因为没有尖点），只会在光滑的边界上找到解。

总结

菱形和圆形的几何特性：
- 菱形有尖点，容易使某些系数为零。
- 圆形光滑，不会让系数变为零。
优化结果：
- Lasso 能进行特征选择（部分系数为零）。
- Ridge 仅缩小系数（无法选择特征）。

原文地址：https://blog.csdn.net/AdamCY888/article/details/144330223

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：k8s 为什么需要Pod？
下一篇：深度学习中的数学基础【学习笔记】——第七章：概率论基础

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14