大数据-210 数据挖掘机器学习理论 - 逻辑回归 scikit-learn 实现 penalty solver

🕗 发布于 2024-11-06 11:22 数据挖掘 机器学习 大数据 人工智能 python

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（已更完）
ClickHouse（已更完）
Kudu（已更完）
Druid（已更完）
Kylin（已更完）
Elasticsearch（已更完）
DataX（已更完）
Tez（已更完）
数据挖掘（正在更新…）

章节内容

上节我们完成了如下的内容：

梯度下降
梯度下降算法调优

在这里插入图片描述

逻辑回归的Scikit-Learn实现

参数详解

class sklearn.linear_model.LogisticRegression(
    penalty='l2',
    dual=False,
    tol=0.0001,
    C=1.0,
    fit_intercept=True,
    intercept_scaling=1,
    class_weight=None,
    random_state=None,
    solver='warn',
    max_iter=100,
    multi_class='warn',
    verbose=0,
    warm_start=False,
    n_jobs=None
)

penalty

正则化参数，LogisticRegression默认带了正则化项，penalty参数可选择的值有1和2，分别对应L1的正则化和L2的正则化，默认是L2的正则化。
在调参时如果我们主要的目的只是为了解决过拟合，一般penalty选择L2正则化就够了，但是如果选择L2正则化后还是过拟合，即预测效果差的时候，就可以考虑L1正则化。另外，如果模型的特征非常多，我们希望一些不重要的特征系数归零，从而让模型稀疏化的话，也可以使用L1正则化。
penalty参数的选择会影响我们损失函数优化算法的选择，即参数solver的选择，如果是L2正则化，那么4种可选的算法（newton-cg、lbfgs、礼包里near、sag)都可以选择。但是如果penalty是L1正则化的话，就只能liblinear了。
这是因为L1正则化的损失函数不是连续可导的，而（newton-cg、lbfgs、sag）这三种优化算法时都需要损失函数的一阶或者二阶段连续倒数。而libnear并没有这个依赖。
而两种正则化下的C的取值，都可以通过学习曲线来进行调整。
建立两个逻辑回归，L1正则化和L2正则化的差别一目了然：

from sklearn.linear_model import LogisticRegression as LR
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import StandardScaler
import numpy as np

# 加载数据集
data = load_breast_cancer()
X = data.data
y = data.target

# 对数据进行标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 使用L1正则化的逻辑回归
lrl1 = LR(penalty="l1", solver="liblinear", C=0.5, max_iter=1000)

# 使用L2正则化的逻辑回归
lrl2 = LR(penalty="l2", solver="liblinear", C=0.5, max_iter=1000)

# 训练L1正则化的模型
lrl1 = lrl1.fit(X_scaled, y)

# 打印L1模型的系数
print(lrl1.coef_)

# 统计非零系数的数量
print((lrl1.coef_ != 0).sum(axis=1))

# 训练L2正则化的模型
lrl2 = lrl2.fit(X_scaled, y)

# 打印L2模型的系数
print(lrl2.coef_)

执行结果如下图所示：
在这里插入图片描述
可以看出，当我们选择L1正则化的时候，许多特征的参数都被设置了0，这些特征在真正建模的时候，就不会出现在我们的模型当中了，而L2正则化是对所有特征都给出了参数。

究竟哪个正则化的效果更好呢？还是都差不多？

l1 = []
l2 = []
l1test = []
l2test = []
Xtrain, Xtest, Ytrain, Ytest =
train_test_split(X,y,test_size=0.3,random_state=420)
for i in np.linspace(0.05,1,19):
lrl1 = LR(penalty="l1",solver="liblinear",C=i,max_iter=1000)
lrl2 = LR(penalty="l2",solver="liblinear",C=i,max_iter=1000)
lrl1 = lrl1.fit(Xtrain,Ytrain)
l1.append(accuracy_score(lrl1.predict(Xtrain),Ytrain))
l1test.append(accuracy_score(lrl1.predict(Xtest),Ytest))
lrl2 = lrl2.fit(Xtrain,Ytrain)
l2.append(accuracy_score(lrl2.predict(Xtrain),Ytrain))
l2test.append(accuracy_score(lrl2.predict(Xtest),Ytest))
graph = [l1,l2,l1test,l2test]
color = ["green","black","lightgreen","gray"]
label = ["L1","L2","L1test","L2test"]
plt.figure(figsize=(6,6))
for i in range(len(graph)):
plt.plot(np.linspace(0.05,1,19),graph[i],color[i],label=label[i])
plt.legend(loc=4) #图例的位置在哪⾥?4表示，右下⻆
plt.show()

执行结果如下图所示：
在这里插入图片描述
对应的图如下所示：

可见，在我们的乳腺癌数据集下，两种正则化的结果区别不大。但随着C的逐渐变大，正则化的强度越来越小，模型在训练集和测试集上表现呈现了上升趋势，直到C=0.8左右，训练集上的表现依然走高，但模型在未知数据集上的表现就开始下跌，这时候就是出现了过拟合。我们可以认为，C设置0.8会比较好。
在实际使用中，基本就默认使用L2正则化，如果感觉到效果不好，就试试L1。

solver

solver参数决定了我们对逻辑回归损失函数的优化方法，有4种算法可以选择，分别是：

liblinear：使用了开源的liblinear库实现，内部使用了坐标轴下降来迭代优化损失函数
lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数
newton-cg：也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数
sag：即随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅用一部分的样本来计算梯度，适合于样本数据多的时候。

从上面的描述可以看出，newton-cg，lbfgs和sag这三种优化算法时都需要损失函数一阶或者二阶连续导数，因此不能用于没有连续导数的L1正则化，只能用于L2正则化。而liblinear通吃L1正则化和L2正则化。同时，sag每次仅使用部分样本进行梯度迭代，所以当样本量少的时候不要选择它，而如果样本非常大，比如大于10万，sag是第一选择。
但是sag不能用于L1正则化，所以当你有大量的样本，又需要L1的时候就需要自己做取舍了，要么通过对样本采样来降低样本量，要么回到L2正则化。

此时大家可能觉着，既然newton-cg、lbfgs和sag这么多限制，如果不是大样本，我们选择liblinear不就行了吗？因为liblinear也有自己的弱点，我们知道逻辑回归二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见有one-vs-rest（OvR）和many-vs-many（MvM）两种，而MvM一般比OvR分类相对准确一些。liblinear只支持OvR，不支持MvM，这样如果我们需要相对精准的多元逻辑回归时就不能选择liblinear。这也意味着我们需要相对精确的多元回归逻辑就不能用L1正则化了。

原文地址：https://blog.csdn.net/w776341482/article/details/143557782

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：青少年编程与数学 02-003 Go语言网络编程 01课题、网络编程概述
下一篇：10.31.2024刷华为OD C题型

浏览器内置对象XMLHttpRequest
XMLHttpRequest 是浏览器提供的一个强大工具，使得开发者可以在不刷新页面的情况下，与服务器进行数据交互。它支持多种数据格式，并且以异步方式工作，极大地增强了 Web 应用的交互性和响应性。
阅读更多2024-11-08
Ubuntu使用Qt虚拟键盘，支持中英文切换
最近领导给了个需求，希望将web嵌入到客户端里面，做一个客户端外壳，可以控制程序的启动、停止、重启，并且可以调出键盘在触摸屏上使用(我们的程序虽然是BS架构，但程序还是运行在本地工控机上的)，我研
阅读更多2024-11-08
C++数据类型
C++定义了算数类型和空类型在内的基本数据类型。空类型不对应具体的值，仅用在特殊场合，如：函数返回值。
阅读更多2024-11-08
【JS】字符串方法速览
返回字符串中指定索引的字符 unicode 编码。方法搜索特定值的字符串，并返回匹配的位置。返回字符串中指定下标（位置）的字符串。未完，有空再更~~~~~~~
阅读更多2024-11-08
第二十六章 Vue之在当前组件范围内获取dom元素和组件实例
我们过去在想要获取一个dom元素的时候，一般会使用到document.querySelector('class样式')这种全页面范围的查找方式。如果在页面比较复杂（如有多个组件且可能存在相同样式）的情
阅读更多2024-11-08
STL标准模板库详解-1
STL分为容器、迭代器、算法、函数对象和适配器等；容器：存储数据的序列。
阅读更多2024-11-08
C#笔记 —— 事件
访问修饰符 + event + 委托类型 + 事件名；例： public event Action myEvent;
阅读更多2024-11-08
【C++】socket套接字编程
IP 地址的意义就是标识公网内唯一一台主机。传输层协议（TCP 和 UDP）的数据段中也有两个端口号, 分别叫做源端口号和目的端口号.，它们描述 “数据是那个进程发送的, 要发给另外那个进程”。
阅读更多2024-11-08
tomato靶机
如果allow_url_fopen和allow_url_include同时是On状态，同时开着那就是远程文件上传包含漏洞。allow_url_fopen是On状态，打开着有可能是文件包含漏洞，而且是本
阅读更多2024-11-08
IP协议知识点总结
IP协议主要分为三个每个网络上的设备, 要能分配一个的地址小A 给小B 发消息, 具体应该IP 地址. 本质上是一个位的整数通常将, 32 位的整数使用点分十进制来表示, 如 192.168.1.1一
阅读更多2024-11-08

大数据-210 数据挖掘 机器学习理论 - 逻辑回归 scikit-learn 实现 penalty solver