机器学习（五）——支持向量机SVM（支持向量、间隔、正则化参数C、误差容忍度ε、核函数、软间隔、SVR、回归分类源码）

🕗 发布于 2024-11-08 01:08 机器学习 支持向量机 svm SVR

关于

本文是基于西瓜书（第六章）的学习记录。内容包括SVM模型间隔、支持向量、正则化参数C、误差容忍度 $ε$ 、核函数、软间隔、SVR模型、Python实现分类和回归的源码。
西瓜书电子版：百度网盘分享链接

1 间隔与支持向量

支持向量机（SVM）是一种监督学习算法，用于分类和回归分析。
分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开.
怎样的超平面是最好的？——找位于两类训练样本“正中间”的划分超平面，这样的超平面对训练样本的局部扰动的“容忍性”最好。
支持向量机的基本思想是找到样本空间中的最佳划分超平面，以区分不同类别的样本。
支持向量：距离超平面最近的训练样本点，它们决定了超平面的位置。
间隔：两个异类支持向量到超平面的距离之和，称为间隔，SVM的目标是最大化这个间隔。
支持向量机的基本型：

2 对偶问题

SVM的优化问题可以通过拉格朗日乘子法转化为对偶问题，这样可以更高效地求解。
问题的求解不是本文重心所在，在此不介绍，大家可参考电子书学习。

3 核函数

在现实任务中，原始样本空间内也许并不存在一个能正确划分两类样本的超平面，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分
但是映射到高维空间意味着更大的计算量，这时候就引出了核函数：核函数允许SVM在高维空间或无穷维空间中寻找最优超平面，而无需显式地映射样本。
核函数生效的技巧：通过核函数计算原始样本空间中的内积，避免了直接在高维空间中计算。
哪些函数可以作为核函数：只要一个对称函数所对应的核矩阵半正定，它就能作为核函数使用。
常用核函数：包括线性核、多项式核、高斯核等。

4 软间隔与正则化

在现实任务中，训练样本往往不是线性可分的（即便恰好找到了某个核函数使训练集在特征空间中线性可分，也很难断定这个貌似线性可分的结果不是由于过拟合所造成的.），这时可以引入软间隔和正则化来提高模型的泛化能力。
软间隔：允许一些样本不满足硬间隔的约束，通过引入松弛变量来实现。
替代损失函数：如hinge损失、指数损失和对率损失，用于代替0/1损失函数，使得问题更容易求解，常用的替代损失函数：
如果使用对率损失函数替代0/1损失函数，则几乎得到了对率回归模型。实际上两者确实优化目标相近，性能相近。
正则化参数C：这个参数控制着模型对误分类的惩罚程度。C值越大，模型对误分类的惩罚越高，可能导致过拟合；C值越小，模型对误分类的惩罚越低，可能导致欠拟合。

5 支持向量回归

支持向量回归（SVR）是SVM在回归问题上的应用，它假设模型输出与真实输出之间存在一定的容忍度。
$ε$ -不敏感损失：仅当模型输出与真实输出的差值超过 $ε$ 时才计算损失。
SVR的优化问题：通过引入松弛变量和正则化项来求解。
SVR的支持向量：与SVM类似，SVR的支持向量是落在 $ε$ 间隔带之外的样本。

6 核方法

核方法是一种基于核函数的学习方法，可以将线性学习器扩展为非线性学习器。
表示定理：任何在再生核希尔伯特空间中的学习问题都可以用核函数的线性组合来表示。
核化线性判别分析：通过核化将线性判别分析扩展到非线性情况。

X 案例代码

X.1 分类任务

X.1.1 源码

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
import seaborn as sns

# 1. 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
print("此时X，y的数据类型为：", type(X), type(y), '\n')

# 2. 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("此时X_train，y_train的数据类型为：", type(X_train), type(y_train), '\n')
print("X_train的前10条数据展示：")
print(pd.DataFrame(X_train).head(10).to_string(index=False, justify='left'), '\n')

# 3. 构建并训练SVM分类模型
model = SVC(kernel='rbf', random_state=42)  # 使用高斯核函数
model.fit(X_train, y_train)

# 4. 预测测试集上的目标变量
y_pred = model.predict(X_test)

# 5. 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print("模型准确率：", accuracy)

print("分类报告：")
print(classification_report(y_test, y_pred))

# 6. 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=iris.target_names, yticklabels=iris.target_names)
plt.xlabel('Predicted Labels')
plt.ylabel('True Labels')
plt.title('Confusion Matrix for Iris Dataset')
plt.tight_layout()
plt.show()

# 可选：将结果保存到DataFrame中以便进一步分析
results = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})
print("模型预测结果：")
print(results.head())

X.1.2 数据集（鸢尾花数据集）

鸢尾花数据集是机器学习领域中最著名的数据集之一，常被用于分类算法的测试和演示。
概览
- 样本数量：150个样本
- 特征数量：4个特征
- 标签种类数量：3个类别，每个类别有50个样本
特征描述
- 萼片长度 (sepal length)：花萼的长度，单位为厘米。
- 萼片宽度 (sepal width)：花萼的宽度，单位为厘米。
- 花瓣长度 (petal length)：花瓣的长度，单位为厘米。
- 花瓣宽度 (petal width)：花瓣的宽度，单位为厘米。
目标变量是鸢尾花的种类，共有三种：
1. Iris setosa
2. Iris versicolor
3. Iris virginica
使用
- 可以使用 sklearn.datasets.load_iris() 函数来加载这个数据集，并查看其详细信息。

X.1.3 模型效果

在这里插入图片描述

X.2 回归任务

X.2.1 源码

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score

# 1. 加载数据集
data = fetch_california_housing()
X, y = data.data, data.target
print("此时X，y的数据类型为：", type(X), type(y), '\n')

# 2. 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("此时X_train，y_train的数据类型为：", type(X_train), type(y_train), '\n')
print("X_train的前10条数据展示：")
print(pd.DataFrame(X_train).head(10).to_string(index=False, justify='left'), '\n')

# 3. 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 4. 构建并训练SVR模型
# 使用RBF核
svr = SVR(kernel='rbf', C=100, gamma=0.1, epsilon=.1)

# 训练模型
svr.fit(X_train, y_train)

# 5. 预测测试集上的目标变量
y_pred = svr.predict(X_test)

# 6. 评估模型性能
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("SVR模型性能：")
print(f"Mean Squared Error: {mse:.2f}")
print(f"R^2 Score: {r2:.2f}", '\n')

# 6. 绘制实际值和预测值的折线图
plt.figure(figsize=(12, 6))
plt.plot(y_test[:50], label='Actual', marker='o', color='blue')
plt.plot(y_pred[:50], label='Predicted', marker='x', color='red', linestyle='--')
plt.title('Actual vs Predicted Values for California Housing Dataset (50 Samples)')
plt.xlabel('Sample Index')
plt.ylabel('Target Value')
plt.legend()
plt.tight_layout()
plt.show()

# 可选：将结果保存到DataFrame中以便进一步分析
results = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})

# 可选：打印模型的一些参数
print("模型预测结果：")
print(results)
print("模型参数：")
print("C:", svr.C)
print("Gamma:", svr.gamma)
print("Epsilon:", svr.epsilon)
print("Kernel:", svr.kernel)

X.2.2 数据集（加州房价数据）

加州房价数据集是机器学习领域中常用的数据集之一，常被用于回归算法的测试和演示。
概览
- 样本数量：20640个样本
- 特征数量：8个特征
- 标签：1个连续的目标变量
特征描述
- MedInc (Median Income in block group)：区块组的中位数收入，单位为10,000美元。
- HouseAge (Median House Age in block group)：区块组中房屋的中位数年龄，单位为年。
- AveRooms (Average number of rooms per household)：每个家庭的平均房间数。
- AveBedrms (Average number of bedrooms per household)：每个家庭的平均卧室数。
- Population (Block group population)：区块组的人口数。
- AveOccup (Average house occupancy)：每个房屋的平均居住人数。
- Latitude (Block group latitude)：区块组的纬度。
- Longitude (Block group longitude)：区块组的经度。
目标变量
- MedHouseVal (Median house value for households in block group)：区块组中房屋的中位数价值，单位为100,000美元。
使用
- 可以使用 sklearn.datasets.fetch_california_housing() 函数来加载这个数据集，并查看其详细信息。

X.2.3 模型效果

在这里插入图片描述

原文地址：https://blog.csdn.net/qq_62888264/article/details/143602095

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

基于RK3588的移动充电机器人应用解决方案
伴随着国内新能源汽车保有量的持续增长，充电难题愈发凸显，配套充电设施的建设需求进一步扩大。可外接4G/5G、WiFi模块，用于传感数据、视频数据的上传，同时，通过网络的连接，能够远程监控机器人的状态和
阅读更多2024-11-16
开源，一天200star，解锁视频字幕生成新方式——一款轻量级开源字幕工具，免费，支持花字，剪映最新会员模式吃相太难看了
是一款基于开源的轻量级视频字幕生成工具，由开发者 @WEIFENG2333 精心打造。其主要目的是为用户提供一套免费、易用的字幕生成方案，支持各种视频格式，并结合现代化的自然语言处理技术，实现精准、高
阅读更多2024-11-16
docker：基于Dockerfile镜像制作完整案例
docker：基于Dockerfile镜像制作完整案例
阅读更多2024-11-16
【数据库系列】 Spring Boot 集成 Neo4j 的详细介绍
Spring Boot 提供了对 Neo4j 的良好支持，使得开发者可以更方便地使用图数据库。通过使用 Spring Data Neo4j，开发者可以轻松地进行数据访问、操作以及管理。本文将详细介绍如
阅读更多2024-11-16
微信小程序02-页面制作
微信小程序提供了丰富的组件，如view、image等，用于构建具有微信风格的UI界面。视口单位用于移动端页面适配，如vw和vh。表单组件用于收集用户信息，如form、button、input等。
阅读更多2024-11-16
2024 CCF中国开源大会“开源科学计算与系统建模openSCS”分论坛成功举办
目前MWORKS用户已遍及国内外295所高校，仅深圳就有41家应用验证企业，覆盖新能源、芯片、车辆、低空经济、医疗、制造、自动化、电力、航天、金融、船舶等优势行业单位，已经具备良好的生态基础。该委员会
阅读更多2024-11-16
C&C++内存管理
pChar3是指针变量，存在栈中，*pChar3是由const修饰的，pChar3指向的内容不能修改，内容具有常属性，因此pChae3存在代码段中，也就是常量区。内存泄漏并不是指内存在物理上的消失，而
阅读更多2024-11-16
单片机面试
答案：宏定义是在编译预处理阶段被处理的。预处理包含：头文件包含，宏替换，条件编译，去除注释，添加行号。
阅读更多2024-11-16
Ubuntu23.10下解决C语言调用mysql.h问题
在学习C语言和MySQL的调用的时候遇到包和版本的问题，由于使用的书很老（10年的），因此很多MySQL的包已经过时，在查找很多资料和询问gpt之后得到了解决方案
阅读更多2024-11-16
高级java每日一道面试题-2024年11月07日-Redis篇-Redis有哪些功能?
Redis 是一个功能强大且灵活的 NoSQL 数据库，广泛应用于缓存、消息队列、实时分析等多种场景。在高级 Java 面试中，了解 Redis 的数据类型、持久化、发布/订阅、事务、Lua 脚本、主
阅读更多2024-11-16

机器学习（五）——支持向量机SVM（支持向量、间隔、正则化参数C、误差容忍度ε、核函数、软间隔、SVR、回归分类源码）

目录

关于

1 间隔与支持向量

2 对偶问题

3 核函数

4 软间隔与正则化

5 支持向量回归

6 核方法

X 案例代码

X.1 分类任务

X.1.1 源码

X.1.2 数据集（鸢尾花数据集）

X.1.3 模型效果

X.2 回归任务

X.2.1 源码

X.2.2 数据集（加州房价数据）

X.2.3 模型效果

相关文章