关于懒惰学习与渴求学习的一份介绍

🕗 发布于 2024-10-04 19:04 学习 机器学习 人工智能

在这篇文章中，我将介绍些懒惰学习与渴求学习的算法例子，会介绍其概念、优缺点以及其python的运用。

一、渴求学习

1.1概念

渴求学习（Eager Learning）是指在训练阶段构建出复杂的模型，然后在预测阶段运用这个构建出的模型来进行预测。（在西瓜书中，将其翻译为“急切学习”）

1.2 优缺点

优点：预测效率高（因为已经构建好，所以直接拿来用即可）、适用范围广泛、可解释性强。

缺点：训练时间长、对静态数据集有效（对于一个动态的数据集，渴求学习需要对其频繁计算与训练，这样在有些时候是不符合实际需求的）、模型更新能力弱。

1.3 常见渴求学习的算法

通常，像逻辑回归、决策树、逻辑森林、SVM、深度学习等都属于渴求学习。

二、懒惰学习

1.1 概念

懒惰学习（Lazy Learning）与传统的渴求学习对应，它是一种机器学习的范式。通常地，这类学习算法会在训练阶段做极少或压根不做计算，而在之后的预测阶段才进行计算。可以说这类学习算法不进行复杂运算而是转向简单的存储并用这些存储去做出决策。

仔细观察，我们会发现渴求学习与懒惰学习间实际反应了时间复杂度与空间复杂度间的权衡。在渴求学习中，我们在训练阶段就要去构建一个模型，此时的时间复杂度通常会很高，而到了预测阶段则会相对降低，因为此时我们直接使用了那个构建的模型，而在整个过程中，真正需要去存储的只有那个构建好的模型，而不是庞大的训练集；而懒惰学习则与之相反，它起先时间复杂度很低，而后变高，因为开始时只要存储数据即可，而到了之后的预测阶段才开始构建局部模型去预测，所以复杂度升高，在整个过程中，其空间复杂度都会很高，因为它需要存储的不是一个构建好的模型而是整个庞大的训练集。所以，在实际运用是可以根据需求找到对于时间与空间之间的平衡点而进行正确的决定。

1.2 优缺点

优点：适应性强、灵活性高、训练时间较少。

缺点：内存消耗大、可解释性弱。

1.3 常见懒惰学习的算法

1）KNN算法

之前，我有详细介绍过KNN算法，所以在这里我只放一份代码，有需要的可以看我以往的文章。代码如下：

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt

# 加载数据集并分割
iris = load_iris()
X = iris.data[:, [2, 3]]  # 只使用花瓣长度和宽度
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1, stratify=y)

# 标准化
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

# KNN实例化
knn = KNeighborsClassifier(n_neighbors=3, p=2, metric='minkowski')
knn.fit(X_train_std, y_train)

# 预测
y_pred = knn.predict(X_test_std)

# 计算准确率
accuracy = np.mean(y_pred == y_test)
print(f'Accuracy: {accuracy * 100:.2f}%')

# 可视化结果
# 训练集
plt.scatter(X_train_std[y_train==0, 0], X_train_std[y_train==0, 1], color='red', marker='o', label='setosa')
plt.scatter(X_train_std[y_train==1, 0], X_train_std[y_train==1, 1], color='blue', marker='x', label='versicolor')
plt.scatter(X_train_std[y_train==2, 0], X_train_std[y_train==2, 1], color='green', marker='s', label='virginica')
# 测试集
plt.scatter(X_test_std[y_test==0, 0], X_test_std[y_test==0, 1], color='lightcoral', marker='o', label='test setosa')
plt.scatter(X_test_std[y_test==1, 0], X_test_std[y_test==1, 1], color='lightblue', marker='x', label='test versicolor')
plt.scatter(X_test_std[y_test==2, 0], X_test_std[y_test==2, 1], color='lightgreen', marker='s', label='test virginica')
plt.xlabel('Petal length [standardized]')
plt.ylabel('Petal width [standardized]')
plt.legend(loc='upper left')
plt.show()

其绘制出的图表为：

2）局部加权回归（LRW）

局部加权回归的思路是：在训练阶段不进行计算只存储数据，然后到了预测阶段则对于每一个新的输入数据点都根据周围附近的数据点来构建一个局部线性回归模型并对这个输入数据点去预测，预测完则作废。

其代码如下：

import numpy as np
import matplotlib.pyplot as plt

# 生成模拟数据
np.random.seed(42)
X = np.linspace(0, 10, 100).reshape(-1, 1)
y = np.sin(X).ravel() + np.random.normal(0, 0.1, size=X.shape[0])

# LWR算法实现
def lw_regression(X_train, y_train, X_test, tau):# 带宽参数tau
    m = X_train.shape[0]
    weights = np.eye(m)

    for i in range(m):
        diff = X_train[i] - X_test
        weights[i, i] = np.exp(-diff * diff.T / (2.0 * tau * tau))

    theta = np.linalg.solve(X_train.T.dot(weights.dot(X_train)), X_train.T.dot(weights.dot(y_train)))
    return X_test.dot(theta)

# 预测
predictions = []
tau = 0.1
for point in X:
    predictions.append(lw_regression(X, y, point, tau))
predictions = np.array(predictions)

# 可视化结果
plt.figure(figsize=(10, 6))
plt.scatter(X, y, color='blue', label='Training data')
plt.plot(X, predictions, color='red', linewidth=2, label='LWR fit')
plt.xlabel('Feature')
plt.ylabel('Target')
plt.title('Locally Weighted Regression (LWR)')
plt.legend()
plt.show()

然后代码做出的图表如下：

在这里，我给出代码的流程图如下：

这个流程图就是LWR的主要流程，至于整个代码，则是分为了三部分，生成模拟数据、预测以及可视化。其中关于生成模拟数据的过程中，我先设置了随机数种子，然后生成了0到10均匀分布的100个点，接着将之reshape成一列，最后生成正弦波形数据，并添加一些正态分布的噪声。

最后，我再解释下生成的图像，其中蓝色的点是生成的数据点，然后红色的曲线是加权回归算法的拟合结果。可以看出，局部加权回归算法生成的拟合曲线相当平滑。这是因为算法通过给每个训练样本分配权重，并根据权重构建局部线性模型，从而减少了噪声的影响。其中关于参数tau是指带宽，它控制着参数下降的速度，较小的tau值意味着权重随距离的增加而迅速下降，这会导致模型更加关注附近的点，可能产生过拟合。较大的tau值会使权重衰减得更慢，模型会考虑到更远的点，可能导致欠拟合。

3）懒惰朴素贝叶斯

虽然朴素贝叶斯通常属于渴求学习，但是让我们将其所有训练数据保存下来，然后在预测时计算每个类别的条件概率，而不是预先计算并存储概率分布。那么此时它就属于懒惰学习了。

4）懒惰SVM

在训练阶段我们只让它去存储训练数据与支持向量，而不去构建决策边界，然后在预测阶段根据输入数据与支持向量的关系再去做分类决策，那么此时的支持向量机就可以被称为“懒惰SVM”。

除上述外，还有懒惰强化学习、懒惰实例基学习、懒惰决策规则等也属于懒惰学习的范畴，在此不一一叙述了。

此上

原文地址：https://blog.csdn.net/2301_79096986/article/details/142703228

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：文件删除了回收站也删除了还能找回来吗？深度解析与恢复策略
下一篇：智能制造--EAP设备自动化程序

十一国庆节，学生们使用打字侠练习键盘指法
国庆节不仅是一个纪念祖国伟大历程的节日，也是学生们自我提升的好时机。通过打字侠练习键盘指法，学生们不仅能够在学习中体验到乐趣，还为未来的学习和工作打下坚实的基础。希望更多的学生能够在这个假期里，利用打
阅读更多2024-10-05
实战OpenCV之轮廓检测
轮廓检测，是指在图像中找到物体边缘的过程。这些边缘通常代表物体的外部边界或者内部结构的重要特征。通过检测这些轮廓，我们可以获取关于物体形状、大小和位置等有价值的信息。在OpenCV中，我们可以通过cv
阅读更多2024-10-05
图解大模型计算加速系列：vLLM源码解析3，Prefix Caching
当一个物理块没有任何逻辑块引用时（例如一个seq刚做完整个推理），这时它理应被释放。
阅读更多2024-10-05
C++中，如何使你设计的迭代器被标准算法库所支持。
DListNodeIterator : _DList正向迭代器，继承于。下面是_DList源码，最后修改于2024-10-01。std::iterator : 标准库读写迭代器。_DList ：是一个
阅读更多2024-10-05
idea2023-快速搭建一个本地tomcat的javaWeb项目（从0到1保姆教学）
idea创建javaweb项目，配置tomcat
阅读更多2024-10-05
手把手教你使用ECharts绘制金字塔结构图
大家好，今天我将为大家分享一篇关于如何使用ECharts绘制金字塔结构图的教程。ECharts是一款功能强大的图表库，可以轻松实现各种数据可视化效果。接下来，让我们一步步来学习如何绘制金字塔结构图。
阅读更多2024-10-05
认知杂谈96《反人性与顺人性》
举个例子来说，假如你知晓同事最近家里发生了一些事情，心情不太舒畅，那么在与他沟通工作的时候，你就可以多一些理解和耐心，而不是仅仅盯着工作结果不放。在这个过程中，我们不能仅仅关注自己的成长，还必须深刻理
阅读更多2024-10-05
手机使用技巧：8 个 Android 锁屏移除工具 [解锁 Android]
有时候，您会被锁定在自己的 Android 设备之外，而且似乎不可能重新进入。一个例子就是你买了一部二手手机，后来发现无法使用。另一种情况是你忘记了屏幕锁定密码和用于验证密码的 Google 帐户凭据
阅读更多2024-10-05
回执单识别-银行回单识别API-文字识别OCR API
银行回单识别接口简单高效易集成，只需要上传银行回单照片即可自动识别、提取银行回单上的文字信息，该接口一班由第三方接口来实现，例如翔云等平台，银行回单识别接口现已被广泛应用于企业财务管理、金融机构、电子
阅读更多2024-10-05
Java报错输出的信息究竟是什么？
相信看到这里，你会发出疑问，什么是栈帧呢？虚拟机栈中放入的栈帧到底是个什么东西呢？栈帧是虚拟机栈的基本存储单元，主要是由三部分组成：用于存放方法的参数和局部变量。这些变量在方法执行过程中会被频繁访问，
阅读更多2024-10-05

关于懒惰学习与渴求学习的一份介绍

一、渴求学习

1.1概念

1.2 优缺点

1.3 常见渴求学习的算法

二、懒惰学习

1.1 概念

1.2 优缺点

1.3 常见懒惰学习的算法

相关文章