支持向量机 SVM

🕗 发布于 2024-11-11 12:06 支持向量机算法 机器学习

SVM 是机器学习中的一种分类方法，SVM 的目标是找到一个超平面，找到每个分类的数据点离超平面的距离最小，这些最小距离的数据点就是 Support Vector 支持向量。
在这里插入图片描述
SVM 分为线性可分和线性不可分，线性可分又分为硬距离和软距离，软距离添加了一些容错，允许某些数据点分类错误。对于线性不可分，通过核函数转为线性可分。

线性可分，公式如下，确保 yi(w⋅xi+b)≥1
软距离，允许分类错误，确保 yi(w⋅xi+b)≥1−ξi
线性不可分，通过核函数将非线性函数转为线性函数，核函数可以是线性函数或者高斯函数。确保 0≤αi≤C，α 为拉格朗日乘子。

SKLearn 实现 SVM

线性可分，硬距离，完全可分。
在这里插入图片描述

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 导入sklearn模拟二分类数据生成模块
from sklearn.datasets import make_blobs
# 生成模拟二分类数据集
X, y =  make_blobs(n_samples=150, n_features=2, centers=2, cluster_std=1.2, random_state=40)
# 设置颜色参数
colors = {0:'r', 1:'g'}
# 绘制二分类数据集的散点图
plt.scatter(X[:,0], X[:,1], marker='o', c=pd.Series(y).map(colors))
plt.show();

# 导入sklearn线性SVM分类模块
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
# 创建模型实例
clf = LinearSVC(random_state=0, tol=1e-5)
# 训练
clf.fit(X_train, y_train)
# 预测
y_pred = clf.predict(X_test)
# 计算测试集准确率
print(accuracy_score(y_test, y_pred))

线性可分，软距离，大部分可分。
在这里插入图片描述

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

mean1, mean2 = np.array([0, 2]), np.array([2, 0])
covar = np.array([[1.5, 1.0], [1.0, 1.5]])
X1 = np.random.multivariate_normal(mean1, covar, 100)
y1 = np.ones(X1.shape[0])
X2 = np.random.multivariate_normal(mean2, covar, 100)
y2 = -1 * np.ones(X2.shape[0])
X_train = np.vstack((X1[:80], X2[:80]))
y_train = np.hstack((y1[:80], y2[:80]))
X_test = np.vstack((X1[80:], X2[80:]))
y_test = np.hstack((y1[80:], y2[80:]))
print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)

# 设置颜色参数
colors = {1:'r', -1:'g'}
# 绘制二分类数据集的散点图
plt.scatter(X_train[:,0], X_train[:,1], marker='o', c=pd.Series(y_train).map(colors))
plt.show();

from sklearn import svm
from sklearn.metrics import accuracy_score
# 创建svm模型实例
clf = svm.SVC(kernel='linear')
# 模型拟合
clf.fit(X_train, y_train)
# 模型预测
y_pred = clf.predict(X_test)
# 计算测试集准确率
print('Accuracy of soft margin svm based on sklearn: ', 
      accuracy_score(y_test, y_pred))

线性不可分，使用 RBF / 高斯核函数，
在这里插入图片描述

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

mean1, mean2 = np.array([-1, 2]), np.array([1, -1])
mean3, mean4 = np.array([4, -4]), np.array([-4, 4])
covar = np.array([[1.0, 0.8], [0.8, 1.0]])
X1 = np.random.multivariate_normal(mean1, covar, 50)
X1 = np.vstack((X1, np.random.multivariate_normal(mean3, covar, 50)))
y1 = np.ones(X1.shape[0])
X2 = np.random.multivariate_normal(mean2, covar, 50)
X2 = np.vstack((X2, np.random.multivariate_normal(mean4, covar, 50)))
y2 = -1 * np.ones(X2.shape[0])
X_train = np.vstack((X1[:80], X2[:80]))
y_train = np.hstack((y1[:80], y2[:80]))
X_test = np.vstack((X1[80:], X2[80:]))
y_test = np.hstack((y1[80:], y2[80:]))
print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)

# 设置颜色参数
colors = {1:'r', -1:'g'}
# 绘制二分类数据集的散点图
plt.scatter(X_train[:,0], X_train[:,1], marker='o', c=pd.Series(y_train).map(colors))
plt.show();

from sklearn import svm
from sklearn.metrics import accuracy_score
# 创建svm模型实例
clf = svm.SVC(kernel='rbf')
# 模型拟合
clf.fit(X_train, y_train)
# 模型预测
y_pred = clf.predict(X_test)
# 计算测试集准确率
print('Accuracy of soft margin svm based on sklearn: ', 
      accuracy_score(y_test, y_pred))

总结

本文使用 SkLearn 实现不同类型 SVM 进行数据分类，除了 SVM，线性回归也可以进行分类，可以通过以下建议进行选择。

比较标准	逻辑回归 (LR)	支持向量机 (SVM)
数据的线性可分性	适合线性可分数据	适合线性和非线性数据
可解释性	高	低（尤其是非线性核）
计算复杂性	低（速度快）	高（使用RBF核时较慢）
高维数据	表现良好	表现良好（尤其是文本数据）
不平衡数据	易于调整	调整较复杂
超参数调优	少（只有正则化参数）	多（如 ( C ) 和 ( gamma )）
常见应用	欺诈检测、医疗诊断	文本分类、图像识别

原文地址：https://blog.csdn.net/hawk2014bj/article/details/143657766

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：开源，已整理原生 Three.js Cesium 案例超200个
下一篇：多模态对话与 AI 搜索产品 | 书生大模型

Android 开发与救砖工具介绍
fastboot 是一个在 Android 设备的 bootloader 模式下使用的诊断工具，它可以用来修改（如刷写）设备的固件。fastboot 模式通常用于安装新的系统镜像、解锁 bootloa
阅读更多2024-11-17
MySQL：表设计
从需求中获得类，类对应到数据库中的实体，实体在数据库中表现为一张一张的表，类中的属性就对应着表中的字段（也就是表中的列）
阅读更多2024-11-17
【c++笔试强训】（第十篇）
给一个01矩阵，1代表是陆地，0代表海洋，如果两个1相邻，那么这两个1属于同一个岛。经典的floodfill算法。⽤dfs或者是bfs找出⼀个联通的区域，并且标记上。遍历整个字符串，遇到数字的时候，
阅读更多2024-11-17
力扣路径总和-112
在C++中，常量表达式是指在编译期间就能计算出结果的表达式。其值在程序运行过程中不会改变，并且可以在编译时确定。常量表达式可以是一个简单的常量，如字面常量（42、3.14等），也可以是由常量和运算符组
阅读更多2024-11-17
动态规划不同维度分析leetcode198.打家劫舍问题
一般来说，遇到递归时，先思考一维再思考二维，对于复杂的问题，可直接先对二维进行思考。一维一般注意点：（1）dp数组中当前索引对应存储空间存储的是从下标0到当前索引最优值，还是必须考虑当前索引的次优值，
阅读更多2024-11-17
算法【Java】—— 动态规划之简单多状态 dp 问题
算法【Java】—— 动态规划之简单多状态 dp 问题
阅读更多2024-11-17
深度学习工具和框架详细指南：PyTorch、TensorFlow、Keras
在深度学习的世界中，PyTorch、TensorFlow和Keras是最受欢迎的工具和框架，它们为研究者和开发者提供了强大且易于使用的接口。在本文中，我们将深入探索这三个框架，涵盖如何用它们实现经典深
阅读更多2024-11-17
[产品管理-82]：《产品经理从入门到精通》产品经理的基本思维与核心思想
定义：产品经理是任务的提出者，主要负责产品的规划、设计、推进及优化等工作，需要具备较强的创造力和一定的项目管理能力。角色：产品经理在公司内部是各个角色的粘合剂，也是公司内外的接口。他们需要负责把用户的
阅读更多2024-11-17
LeetCode Hot100 15.三数之和
2024.11.16 持续进步（双指针）
阅读更多2024-11-17
快速上手：Docker 安装详细教程（适用于 Windows、macOS、Linux）
1. **常用命令**：如 `docker pull`, `docker build`, `docker run`, `docker ps`, `docker stop` 等。2. 登录 Docker
阅读更多2024-11-17

支持向量机 SVM

SKLearn 实现 SVM

总结

相关文章