机器学习（5）：支持向量机

🕗 发布于 2025-01-22 12:29 机器学习 支持向量机 人工智能

1 介绍

支持向量机（Support Vector Machine，简称 SVM）是一种监督学习算法，主要用于分类和回归问题。SVM 的核心思想是找到一个最优的超平面，将不同类别的数据分开。这个超平面不仅要能够正确分类数据，还要使得两个类别之间的间隔（margin）最大化。

1.1 线性可分

在二维空间上，两类点被一条直线完全分开叫做线性可分。

样本中距离超平面最近的一些点，这些点叫做支持向量。

1.2 软间隔

在实际应用中，完全线性可分的样本是很少的，如果遇到了不能够完全线性可分的样本，我们应该怎么办？比如下面这个：

于是我们就有了软间隔，相比于硬间隔的苛刻条件，我们允许个别样本点出现在间隔带里面，比如：

1.3 线性不可分

我们刚刚讨论的硬间隔和软间隔都是在说样本的完全线性可分或者大部分样本点的线性可分。但我们可能会碰到的一种情况是样本点不是线性可分的，比如：

这种情况的解决方法就是将二维线性不可分样本映射到高维空间中，让样本点在高维空间线性可分，比如：

对于在有限维度向量空间中线性不可分的样本，我们将其映射到更高维度的向量空间里，再通过间隔最大化的方式，学习得到支持向量机，就是非线性 SVM。

1.4 优缺点

优点

有严格的数学理论支持，可解释性强，不依靠统计方法，从而简化了通常的分类和回归问题
能找出对任务至关重要的关键样本（即：支持向量）
采用核技巧之后，可以处理非线性分类/回归任务
最终决策函数只由少数的支持向量所确定，计算的复杂性取决于支持向量的数目，而不是样本空间的维数，这在某种意义上避免了“维数灾难”。

缺点

训练时间长。当采用 SMO 算法时，由于每次都需要挑选一对参数，因此时间复杂度为 O(N2) ，其中 N 为训练样本的数量；
当采用核技巧时，如果需要存储核矩阵，则空间复杂度为 O(N2) ；
模型预测时，预测时间与支持向量的个数成正比。当支持向量的数量较大时，预测计算复杂度较高。

因此支持向量机目前只适合小批量样本的任务，无法适应百万甚至上亿样本的任务。

2 使用 Python 实现 SVM

2.1 安装必要的库

首先，确保你已经安装了scikit-learn库。如果没有安装，可以使用以下命令进行安装：

pip install scikit-learn

2.2 导入库

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

2.3 加载数据集

我们将使用scikit-learn自带的鸢尾花（Iris）数据集。

# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data[:, :2]  # 只使用前两个特征
y = iris.target

2.4 划分训练集和测试集

# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

2.5 训练 SVM 模型

# 创建SVM分类器
clf = svm.SVC(kernel='linear')  # 使用线性核函数

# 训练模型
clf.fit(X_train, y_train)

2.6 预测与评估

# 在测试集上进行预测
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy:.2f}")

2.7 可视化结果

# 绘制决策边界
def plot_decision_boundary(X, y, model):
    h = .02  # 网格步长
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, alpha=0.8)
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o')
    plt.xlabel('Sepal length')
    plt.ylabel('Sepal width')
    plt.title('SVM Decision Boundary')
    plt.show()


plot_decision_boundary(X_train, y_train, clf)

原文地址：https://blog.csdn.net/qq_40298351/article/details/145276685

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：JavaScript学习笔记（1）
下一篇：springBoot发布https服务及调用

jvm学习总结
在硬盘上查找并通过io读写字节码文件，使用类时才加载，例如调用来的main方法，new对象等等，在加载阶段会在内存中生成一个代表这个类的java.lang.Class对象，作为方法区这个类的各种数据的
阅读更多2025-01-22
【gopher的java学习笔记】Java中Mapper与Entity的关系详解
在Java后端开发中，特别是在使用MyBatis等持久层框架时，Mapper与Entity的关系是架构设计中不可忽视的一部分。本文将从Java Web应用程序的角度出发，详细探讨Mapper与Enti
阅读更多2025-01-22
【gopher的java学习笔记】Java中Service与Mapper的关系详解
在后端开发中，Java作为一种广泛使用的编程语言，其架构设计和层次划分对于系统的可维护性、可扩展性和性能有着至关重要的影响。特别是在使用MyBatis等持久层框架时，Service层与Mapper层的
阅读更多2025-01-22
基于单片机的直流电机控制系统（论文+源码）
1系统方案设计本设计基于单片机的直流电机控制系统的总体架构设计如图2.1所示，其采用STM32F103单片机作为控制器，结合ESP8266WiFi通信模块、L9110电机驱动电路、OLED液晶、按键等
阅读更多2025-01-22
探索 Vue.js 的高级插槽特性：动态插槽与作用域插槽优化
<thead><tr></th></tr></thead><tbody></td></tr></t
阅读更多2025-01-22
HarmonyOS NEXT：华为分享-碰一碰开发分享
碰一碰”是HarmonyOS NEXT系统中的一项创新功能，它允许用户通过简单的设备接触，实现多种内容的快速分享。这一功能打破了传统文件传输和分享的局限性，无需复杂的网络设置或社交关系，只需将两个设备
阅读更多2025-01-22
第17章安全培训筑牢梦想根基
在确认同事情况有所好转后，我们才回到考场，继续完成考试。王瑞瑞紧握着笔记本，点了点头，她的马尾辫随着动作轻轻摆动，但眼神却异常坚定：“是的，这让我们更加明白，我们的每一个小错误，都可能导致无法挽回的后
阅读更多2025-01-22
C# 中的Stopwatch和timer
Stopwatch：用于测量时间间隔，适合性能分析和精确计时。Timer：用于在指定的时间间隔后执行代码，适合定时任务。根据你的具体需求，可以选择使用Stopwatch来测量时间间隔，或使用Timer
阅读更多2025-01-22
学Python的人…
它主要负责包管理比较臃肿，我也是后面学深度学习才开始用这个的不是必需，初学者可安可不安。提前思考好学习路线：思维导图中的基础部分所有的都要学，但高阶部分选定一个方向学就好。，它的交互性的确更强，但我觉
阅读更多2025-01-22
Comment(爆破+git泄漏+二次注入)
即用户名为admin%27%0Aor%0A%271%27%3E%270%27%0Aor%0Aname%0Alike%0A%27admin。使用bugscanteam的githack工具，下载泄漏的源码
阅读更多2025-01-22