【机器学习】L1、L2正则化

🕗 发布于 2024-05-25 11:19 机器学习 人工智能

一、引言

正则化是机器学习中用于防止过拟合并提高模型泛化能力的技术。当模型过拟合时，它已经很好地学习了训练数据，甚至是训练数据中的噪声，所以可能无法在新的、未见过的数据上表现良好。

如下图的分类问题：

其中， $x_1$ 和 $x_2$ 为特征， $f$ 为拟合模型， $w_1$ 和 $w_2$ 为模型权重， $b$ 为模型偏执。左图拟合模型公式最高阶次为1，即一条直线，对应欠拟合；中图拟合模型公式最高阶次为2，即一条简单的曲线；右图拟合模型公式最高阶次为4甚至更高，即一条复杂的曲线，对应过拟合。

可以看出，欠拟合时模型未有效学习数据中的信息，错分样本很多；过拟合时模型学习过于充分，甚至连包裹在红色类中的两个明显的噪声都被学习了，训练样本不会被错分，但无法保证对没见过的测试样本进行有效划分。所以我们更希望得到中间的这种模型。

一般神经网络结构较为复杂，学习能力强，所以更容易过拟合。对比中图和右图，我们容易发现模型阶次越高，分类超平面弯曲越多，高阶项前系数越大，弯曲程度越大，所以减少过拟合其实就是要减少模型的阶次或弱化高阶项。 L1正则化和L2正则化就是减少模型复杂度的两个典型方法。

一、L1正则化

L1正则化，也称为LASSO正则化，将模型权重系数的绝对值之和添加到损失函数中。它能够将模型中某些权重置0使对应的特征不再发挥作用以达到降低模型复杂度的目的。

假设原本模型的分类损失为标准交叉熵，则加上L1正则化项后如下：
$J(w)=-\frac{1}{N}\sum_{i=1}^Ny_i\log p_i+\lambda\sum_{j=1}^M|w_j|$

其中， $y_i$ 和 $p_i$ 是样本 $x_i$ 的真实标签和预测概率， $w_j$ 为权重系数， $\lambda$ 用来平衡学习和正则化程度。

直观来看，有了后面这一项，在优化损失时， $w_j|$ 会一定程度的减小，从而达到弱化高阶项的作用（其实低阶项也会被弱化，但分类超平面的复杂度主要受高阶项控制）。其实，L1正则化能够达到使模型稀疏化的作用，即有些权重被置0。

我们简化上面的损失函数只有一个权重系数，写作 $J(w)=L(w)+\lambda|w|$ ，假设 $L (w)$ 在 $w = 0$ 时的导数如下：
$\frac{\partial L(w)}{\partial w}\bigg|_{w=0}=d_0$

于是有：
$\frac{\partial J(w)}{\partial w}\bigg|_{w=0^-}=d_0-\lambda,~\frac{\partial J(w)}{\partial w}\bigg|_{w=0^+}=d_0+\lambda$

如果 $\lambda$ 较大，会使损失函数的导数在 $w = 0$ 的左右两侧异号，则该点极可能是一个极小值点，在优化时，很可能将 $w$ 优化至 $0$ 。对于多个 $w$ 的情况，与之类似，但只是一部分 $w$ 取0即可达到极小值。部分 $w$ 置0，则对应的特征将不再发挥作用，从而使模型稀疏化。

综上，L1正则化能够通过使模型稀疏化达到降低模型复杂度的作用。这种稀疏化特性使它能够作为一种特征选择策略，适合在高维且特征相关性不强的场景中使用。

二、L2正则化

L2正则化，也称为 Ridge 正则化，将模型系数的平方值之和添加到损失函数中。与 L1 正则化不同，L2 正则化不会强制系数恰好为零，而是鼓励系数变小。

仍然假设原本模型的分类损失为标准交叉熵，则加上L2正则化项后如下：
$J(w)=-\frac{1}{N}\sum_{i=1}^Ny_i\log p_i+\lambda\sum_{j=1}^Mw^2_j$

同样地，我们简化上面的损失函数只有一个权重系数，写作 $J(w)=L(w)+\lambda w^2$ ，假设 $L (w)$ 在 $w = 0$ 时的导数如下：
$\frac{\partial L(w)}{\partial w}\bigg|_{w=0}=d_0$

有：
$\frac{\partial L(w)}{\partial w}\bigg|_{w=0}=d_0+2\lambda w\big|_{w=0}=d_0$

可见，L2正则化项的加入不影响 $w = 0$ 处损失函数的导数，也就不容易在 $w = 0$ 处形成极小值。相应地， $w$ 就不容易被优化为0。对于多个 $w$ 的情况，所有 $w_j$ 都不为0，却又希望损失 $J (w)$ 小，就会将各个 $w_j$ 优化的很小，也就使高阶项发挥的作用变小，从而降低了模型复杂度。

综上，L2正则化能够通过将各项权重系数优化的很小达到降低模型复杂度的目的。它能够减少单个特征的在模型中的作用，避免某个特征主导整个预测方向。L2正则化项是可微的，优化计算效率更高，适合处理低维且特征间具有强相关性的场景。

致谢：

本博客仅做记录使用，无任何商业用途，参考内容如下：
(强推|双字)2022吴恩达机器学习Deeplearning.ai课程
 L1 和 L2 正则化解释、何时使用它们以及实际示例

原文地址：https://blog.csdn.net/beginner1207/article/details/139027559

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：笔记89：LeetCode_135_分发糖果
下一篇：基于python实现的深度学习的车牌识别系统

Java中的事件（动作监听-ActionListener）
那么MyJFrame就成为了ActionListener接口的实现类，而在addActionListener()方法中所要传递的参数本就是ActionListener接口的实现类，所以当MyJFram
阅读更多2024-09-23
如何进行Ubuntu磁盘空间深度清理？
这些步骤可以帮助你进行深度的 Ubuntu 磁盘清理，并释放大量磁盘空间。记得定期清理不再需要的文件和缓存，以保持系统的高效运行。这个操作将系统盘从19G降到了13G，节省了18%系统盘空间。
阅读更多2024-09-23
语法note
但这也是不保险的——在MinGW的gcc中，要把％lld改成％I64d，但奇怪的是VC2008里又得改回％lld。long long在Linux下的输入输出格式符为％lld，但Windows平台中有时
阅读更多2024-09-23
基于Airoha AN8855H的千兆简易型网络交换机方案
在当今信息化、数字化的时代，网络已成为我们生活和工作中不可或缺的一部分。而在庞大而复杂的网络世界中，有一个默默无闻却至关重要的“交通警察”—— 交换机。
阅读更多2024-09-23
Unity3D 小案例像素贪吃蛇 03 蛇的碰撞
Unity3D 小案例像素贪吃蛇第三期蛇的碰撞（完结）
阅读更多2024-09-23
2024年9月21日---关于Maven
1、都是同样的代码，为什么在我的机器上可以编译执行，而在他的机器上就不行？2、为什么在我的机器上可以正常打包，而配置管理员却打不出来?3、项目组加入了新的人员，我要给他说明编译环境如何设置，但是让我挠
阅读更多2024-09-23
使用pe工具制作ubuntu备份系统和还原系统
输入fsck -y /dev/sda2(替换成自己的，我的是sda2)的命令成功执行后会出现file system was modified字样。1，因为我个人觉得这个工具实现起来比systembac
阅读更多2024-09-23
Ubuntu 20.04(linux) cuda(12)+cudnn的deb方式安装以及验证
Ubuntu 20.04(linux) cuda(12)+cudnn的deb方式安装以及验证
阅读更多2024-09-23
Git 向远程仓库推送更改时加注释
当使用 Git 向远程仓库推送更改时，实际上是在提交更改之前加上提交信息（commit message），这个信息可以理解为对此次提交所做的工作的简要说明或注释。提交信息非常重要，因为它帮助团队成员了
阅读更多2024-09-23
vue3基础
Vue 3 是一个渐进式JavaScript框架，用于构建用户界面和单页应用程序。
阅读更多2024-09-23

【机器学习】L1、L2正则化

一、引言

一、L1正则化

二、L2正则化

致谢：

相关文章