机器学习_线性回归_线性回归过拟合和欠拟合+正则化线性模型学习总结

🕗 发布于 2024-10-15 14:20 机器学习 回归 人工智能 python scikit-learn

线性回归的缺陷--欠拟合和过拟合

欠拟合:

简介

训练集和测试集表现都不怎么样, 模型太简单

产生原因:

学习到的特征太少

改进方法:

1.添加其他特征

组合

泛化

过拟合:

简介

原始特征过多,存在嘈杂特征,模型尝试兼顾各个测试点

产生原因:

训练集表现好,测试集表现不好, 模型过于复杂

改进方法:

1.重新清洗数据

过拟合可能因为数据不纯导致的

2.增大数据的训练量

过拟合可能因为训练的数据量太少,没有代表性,训练数据占总数据的比例过小

3.正则化

4.减少特征维度, 防止维灾难

改进方法-正则化:

通过限制高次项的系数来尽量减小高次项特征的影响,

以达到防止过拟合的目的

L1正则化

将某些高次项前面的系数W变为0, 去除该特征值的影响

应用

LASSO回归

缺点

模型不是平滑的曲线,会出现很多顶点不可导

L2正则化

让某些高次项系数W值很小,接近零,削弱该特征其影响

应用

Ridge回归

优点

模型是平滑曲线, 高次项参数越小, 说明模型越简单, 越不容易产生过拟合

正则化线性模型

1.RidgeRegression-岭回归

简介:

在系数前面添加平方项, 然后用α来限制系数值的大小,

α越大, 系数值越小, α越小, 系数值越大

api:

sklearn.linear_model.Ridge()

参数:

alpha--正则化强度

solver-选择的线性回归算法

默认SAG(随机平均梯度下降算法)

normalize-是否对数据进行标准化

normalize=True, 自动调用算法进行标准化

normalize=False, 不对数据进行标准化

2.Lasso回归

简介:

处理系数的绝对值, 用α来影响系数值大小,

α越大, 系数值越小, α越小, 系数值越大

3.Elastic Net 弹性网络

简介:

前两个的综合, 即

在系数前面添加平方项, 然后用rα来限制系数值的大小,

处理系数的绝对值, 用1-r/2α来影响系数值大小,

当r为0时, 算法变成lasso回归

当r为1时, 算法变成ridge回归

4.算法推荐:

常用算法: Ridge回归

当只有少部分特征可以使用时:

- Elastic Net(弹性网络)

- Lasso回归

弹性网络使用更广泛,因为在特征维度高于样本数时, 或者特征维度为强相关时, Lasso回归表现不佳

5.Early stopping(扩展, 了解即可)

通过限制错误率的阈值, 即时停止

当错误率最小时, 停止执行算法

扩展--维灾难:

随着维度增加,分类器性能逐步上升, 到达某一顶点之后, 性能逐渐下降

维数灾难的核心问题:

随着维数的增加，数据的体积指数级增长，导致可用数据变得稀疏。

这使得在统计学上获得正确且可靠的结果所需的数据量也呈指数级增长。

此外，高维空间中的数据分析和模型构建变得更加复杂和困难，容易导致过拟合等问题

我的唠叨--下述内容与上述内容无关

哦, 对于机器学习感兴趣的小伙伴, 推荐你们可以看一看

【不讲废话！北大教授花198小时整理出来的人工智能【机器学习+深度学习】教程，全程干货无废话，学不会自我反省！-哔哩哔哩】 https://b23.tv/XYti299

或者吴恩达的<机器学习>, 可能刚刚进去的时候容易被他的英文字幕给吓到, 但是没关系的,

国内b站上面的中文字幕到处都是, 而且这位大佬讲的确实浅显易懂,

我估摸着学习好点的高中生完全可以听得懂, 这里链接我就不推荐了

最近在学爬虫, 找了好多课程, 发现了一个内容质量挺高的一个博主<轻松学python>,

个人感觉, 搞爬虫, 他是专业的🤣, 话不多说, 要开始我下午的生活了

原文地址：https://blog.csdn.net/JR521314/article/details/142915974

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[含文档+PPT+源码等]精品基于asp.net实现的原生Andriod病例管理随访系统[包运行成功+永久免费答疑辅导]
下一篇：【已知当前表字段名注入】

【Linux】进程优先级&&进程切换
在操作系统中，进程优先级（Process Priority）是指操作系统对进程进行调度时所赋予的优先级值，用于决定进程何时获得处理器时间。进程优先级是一种实现多任务操作系统中任务调度的重要机制，它允许
阅读更多2024-10-17
外包干了5天，技术明显退步
我是一名本科生，自2019年起，我便在南京某软件公司担任功能测试的工作。这份工作虽然稳定，但日复一日的重复性工作让我逐渐陷入了舒适区，失去了前进的动力。两年的时光匆匆流逝，我却在原地踏步，技术没有丝
阅读更多2024-10-17
《深度学习》OpenCV 风格迁移、DNN模块案例解析及实现
风格迁移是一种计算机视觉技术，通过将一幅图像的风格与另一幅图像的内容结合，生成一个新的图像。在OpenCV中，风格迁移通常使用神经网络来实现。import cv2def resize(image,wi
阅读更多2024-10-17
搜维尔科技：力反馈五指灵巧手数据手套解决方案
搜维尔科技：力反馈五指灵巧手数据手套解决方案。五指灵巧手数据手套解决方案。
阅读更多2024-10-17
mysql的重置
今天用Navicat16去连接mysql突然就连不上了。一直报错连接本地mysql时出现2003-Can‘t connect to MySql server on ‘localhost‘(10061)
阅读更多2024-10-17
【智能大数据分析 | 实验三】Storm实验：实时WordCountTopology
智能大数据分析实验三，Storm实验：实时WordCountTopology。掌握如何用Java代码来实现Storm任务的拓扑，理解一个拓扑中Spout和Bolt的关系及如何组织它们之间的关系，最后将
阅读更多2024-10-17
C++和OpenGL实现3D游戏编程【连载15】——着色器初步
OpenGL着色器（Shader）是用着色器语言(OpenGL Shading Language, GLSL)写的，是一种在图形渲染管线中用于执行特定渲染计算的小程序。当今大多数显卡都有成千上万的小处
阅读更多2024-10-17
【无标题】
本文提出了一种处理账户余额模型的分片系统中跨分片交易的处理协议，基于账户间的交易图切分以及账户分割机制来平衡分片间的负载，同时引入做市商账户协调跨片交易的处理过程，过程中利用“状态时间锁”保证跨片交易
阅读更多2024-10-17
Spring Boot异步任务、任务调度与异步请求线程池的使用及原理
默认情况下，Spring会使用来执行异步任务。然而，不是真正的线程池，每次调用都会创建一个新的线程，这在高并发情况下会导致性能问题。因此，通常建议自定义线程池。@Override本文详细讲解了Spri
阅读更多2024-10-17
centos nvidia-docker2安装及使用
可选：您还可以选择配置存储库，以便使用实验性软件包。idia-docker2安装。
阅读更多2024-10-17

机器学习_线性回归_线性回归过拟合和欠拟合+正则化线性模型学习总结

线性回归的缺陷--欠拟合和过拟合

欠拟合:

简介

产生原因:

改进方法:

过拟合:

简介

产生原因:

改进方法:

改进方法-正则化:

L1正则化

L2正则化

正则化线性模型

1.RidgeRegression-岭回归

简介:

api:

2.Lasso回归

3.Elastic Net 弹性网络

4.算法推荐:

5.Early stopping(扩展, 了解即可)

扩展--维灾难:

维数灾难的核心问题:

我的唠叨--下述内容与上述内容无关

相关文章