SVM中的软间隔问题

🕗 发布于 2024-10-20 11:22 支持向量机 机器学习 人工智能

我们今天将详细讨论支持向量机（SVM）软间隔问题的数学推导，特别是引入损失函数后的优化问题。软间隔 SVM 引入了损失函数和松弛变量，使得它可以处理不可分数据，即允许某些数据点在分类时出现错误或违反间隔条件。

1. 软间隔 SVM 的基本思想

首先，回顾一下软间隔 SVM 的基本思想。在现实数据中，完全线性可分的情况较少，或者即使通过核函数映射到高维空间，也可能出现部分数据无法线性可分的情况。软间隔 SVM 允许一些数据点越过间隔边界或被错误分类，即允许违反硬间隔 SVM 的严格分类规则。

为了描述这些错误，我们引入了松弛变量 $\xi_i$ 来表示第 $i$ 个样本违反间隔的程度，并引入一个损失函数来量化这些错误。目标是最小化间隔最大化和分类错误之间的折中。

2. 软间隔 SVM 的优化问题

软间隔 SVM 的优化目标是：

最大化分类间隔，即最小化 $w\|^2$ ；
最小化分类错误，即引入损失函数来惩罚违反分类间隔的样本。

为了结合这两个目标，我们引入一个平衡参数 $C$ ，用来控制间隔最大化和分类错误之间的折中。

原始优化问题（Primal Problem）

首先，给定一个训练集 ${(x_i, y_i)\}_{i=1}^n$ ，其中 $x_i \in \mathbb{R}^d$ 表示第 $i$ 个样本， $y_i \in \{-1, 1\}$ 表示其类别标签。软间隔 SVM 的优化问题可以表示为：

$\min_{w, b, \xi} \ \frac{1}{2} \|w\|^2 + C \sum_{i=1}^n \xi_i$

其中：

$\frac{1}{2} \|w\|^2$ 是为了最大化间隔；
$\sum_{i=1}^n \xi_i$ 是为了惩罚分类错误（通过损失函数的形式体现分类误差）， $C$ 控制了分类误差的权重；
$\xi_i \geq 0$ 是松弛变量，表示样本违反分类间隔的程度。

约束条件：

为了使 SVM 能正确分类样本，我们要求每个样本 $x_i$ 满足：
$y_i (w^T x_i + b) \geq 1 - \xi_i, \quad \forall i$

当 $\xi_i = 0$ 时，样本严格位于分类间隔外；
当 $\xi_i < 1$ 时，样本位于分类间隔内部，但没有被错误分类；
当 $\xi_i \geq 1$ 时，样本被错误分类。

同时，要求 $\xi_i \geq 0$ ，以确保松弛变量的非负性。

3. 引入损失函数

为了处理分类错误和违反分类间隔的样本，SVM 引入了一种特殊的损失函数，称为合页损失函数（Hinge Loss），其定义如下：

合页损失函数：

$L(y_i, f(x_i)) = \max(0, 1 - y_i f(x_i))$

这里， $f(x_i) = w^T x_i + b$ 是分类器的预测函数， $y_i$ 是真实标签。

当 $y_i f(x_i) \geq 1$ 时，样本被正确分类且位于间隔外，损失为零；
当 $y_i f(x_i) < 1$ 时，样本位于间隔内部或被错误分类，损失为 $1 - y_i f(x_i)$ 。

合页损失函数可以通过优化问题中的松弛变量 $\xi_i$ 表达为：
$\xi_i = \max(0, 1 - y_i f(x_i))$

因此，我们可以将软间隔 SVM 的目标函数重新写成如下形式：

4. 软间隔 SVM 的优化问题（引入损失函数后的形式）

引入合页损失函数后，软间隔 SVM 的优化问题为：

$\min_{w, b} \ \frac{1}{2} \|w\|^2 + C \sum_{i=1}^n \max(0, 1 - y_i (w^T x_i + b))$

该目标函数包含两个部分：

$\frac{1}{2} \|w\|^2$ ：控制分类间隔，倾向于最大化间隔；
$\sum_{i=1}^n \max(0, 1 - y_i f(x_i))$ ：合页损失函数，惩罚分类错误。

5. 对偶问题的推导

为了方便求解，我们通常将 SVM 的原始问题转化为对偶问题。对偶问题的推导步骤如下：

构造拉格朗日函数

首先，我们构造拉格朗日函数，引入拉格朗日乘子 $\alpha_i \geq 0$ 来处理不等式约束 $y_i (w^T x_i + b) \geq 1 - \xi_i$ ，并引入乘子 $\mu_i \geq 0$ 来处理松弛变量的非负性约束 $\xi_i \geq 0$ ：

$\xi, \alpha, \mu) = \frac{1}{2} \|w\|^2 + C \sum_{i=1}^n \xi_i - \sum_{i=1}^n \alpha_i [y_i (w^T x_i + b) - 1 + \xi_i] - \sum_{i=1}^n \mu_i \xi_i$

求偏导并消去变量

为了得到对偶问题，我们需要对拉格朗日函数求偏导，并消去原始变量 $w$ 、 $b$ 和 $\xi_i$ 。

对 $w$ 求导：
$\frac{\partial L}{\partial w} = w - \sum_{i=1}^n \alpha_i y_i x_i = 0$
得：
$\sum_{i=1}^n \alpha_i y_i x_i$
对 $b$ 求导：
$\frac{\partial L}{\partial b} = -\sum_{i=1}^n \alpha_i y_i = 0$
得：
$\sum_{i=1}^n \alpha_i y_i = 0$
对 $\xi_i$ 求导：
$\frac{\partial L}{\partial \xi_i} = C - \alpha_i - \mu_i = 0$
得：
$\alpha_i \leq C$

得到对偶优化问题

将这些结果代入拉格朗日函数中，消去 $w$ 、 $b$ 和 $\xi_i$ 后，对偶问题可以表示为：

$\max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i=1}^n \sum_{j=1}^n \alpha_i \alpha_j y_i y_j x_i^T x_j$

约束条件：

$\leq \alpha_i \leq C$
$\sum_{i=1}^n \alpha_i y_i = 0$

在对偶问题中，优化变量是 $\alpha_i$ ，并且拉格朗日乘子 $\alpha_i$ 受到约束 $\leq \alpha_i \leq C$ ，这与正则化参数 $C$ 直接相关， $C$ 控制了软间隔的宽松程度。

6. 优化后的决策函数

一旦我们通过求解对偶问题得到了拉格朗日乘子 $\alpha_i$ ，分类器的最终决策函数可以写成：

$\sum_{i=1}^n \alpha_i y_i x_i^T x + b$

原文地址：https://blog.csdn.net/handsomeboysk/article/details/143067186

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Windows Tomcat 图文详细教程(包括环境配置)
下一篇：Tomcat中存放图片文件丢失问题

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

SVM中的软间隔问题

1. 软间隔 SVM 的基本思想

2. 软间隔 SVM 的优化问题

原始优化问题（Primal Problem）

约束条件：

3. 引入损失函数

合页损失函数：

4. 软间隔 SVM 的优化问题（引入损失函数后的形式）

5. 对偶问题的推导

构造拉格朗日函数

求偏导并消去变量

得到对偶优化问题

约束条件：

6. 优化后的决策函数

相关文章