支持向量机

🕗 发布于 2024-09-21 20:20 支持向量机算法 机器学习

是

支持向量机(SVMs)是一种用于分类、回归和异常检测的有监督学习方法。

支持向量机的优点有：

在高维空间里也非常有效对于数据维度远高于数据样本量的情况也有效
在决策函数中使用训练集的子集(也称为支持向量)，因此也是内存高效利用的。
通用性：可以为决策函数指定不同的核函数。已经提供了通用核函数，但也可以指定自定义核函数。

支持向量机的缺点包括：

如果特征数量远远大于样本数，则在选择核函数和正则化项时要避免过度拟合。
SVMs不直接提供概率估计，这些计算使用昂贵的五倍交叉验证(见分数和概率)。

how

原理（简述）

比如红色表示“吸烟”，黄色表示“不吸烟”，那么如何找到一个平面最大化的将两类群体分开。
在这里插入图片描述如上图所示，分开有很多种方式，左侧也可以分开，右侧也能分开。但明显的，右侧会“分的更开”，因而如何寻找到这样的一个空间平面，让标签项各类别最为明显的分开，此算法过程即为支持向量机。
将点分开时，离平面最近的点要尽可能的远，比如右侧时A点和B点离平面最近，那么算法需要想办法让该类点尽可能地远离平面，这样就称为“分的更好”。左侧时挨着平面最近的两个点离平面太近，所以右侧的分类更好。

与此同时，理论上可以找到‘空间平面’，将点彻底完全地分开，但此种情况并没有用，因为它只是数学上彻底地分开，但对真实数据业务并没有帮助，与此同时，数学计算上如果尽可能地让点分开，那么很容易出现‘过拟合’现象，即训练数据时模型构建完美，但测试数据上的表现糟糕，因而通过可对此类情况进行惩罚，即设置‘误差项惩罚系数值’。
在这里插入图片描述

另外，为构建出空间平面，还需要使用到非线性函数，SVM模型时称‘核函数’,其用用于将特征从低维（比如二维XY轴平面）向高维空间转换，并且对其进行一定参数设置，以寻找较优模型。

核心概念

最大间隔超平面：

SVM的目标是找到能够最大化训练样本间隔的超平面。间隔被定义为到最近训练样本点的距离，这些点被称为支持向量。这种策略的优势在于它提供了一种防止模型过拟合的方法，从而提高了泛化能力。

核技巧：

在实际应用中，许多数据集不是线性可分的，这就需要使用核技巧。核技巧通过一个非线性映射将原始特征空间映射到一个更高维的空间，在这个新空间中，数据更有可能是线性可分的。常用的核函数包括线性核、多项式核、径向基函数（RBF）核等。

软间隔与正则化：

在存在噪声或异常点的数据集中，强制完全分离可能不是最佳选择，因此引入了软间隔的概念。软间隔允许某些数据点违反间隔规则，从而在保持间隔宽度和减少分类误差之间达到平衡。这是通过调整正则化参数C来实现的，C值较小允许更多的违规点，提高模型的灵活性，而C较大则强制更严格的分离，增加模型的约束。

优化问题：

SVM的训练过程本质上是解决一个凸优化问题，目标是最小化一个包含正则化项的损失函数。这通常通过拉格朗日乘数法和序列最小优化（SMO）算法来实现，后者是解决SVM优化问题的一种有效方法。

多类分类：

原始的SVM是一个二分类器。对于多类分类任务，可以采用“一对一”（OvO）或“一对多”（OvR）策略将多类问题分解为多个二分类问题来处理。

where

图像分类：在ImageNet竞赛中，虽然深度学习模型逐渐占据主导地位，但SVM在早期也取得了显著的成绩。例如，通过结合SIFT等特征提取方法和SVM分类器，可以实现高效的图像分类。
金融欺诈检测：多家银行和金融机构采用SVM模型进行欺诈检测。这些模型通过分析交易数据、用户行为等特征，能够及时发现并阻止潜在的欺诈行为。【应该属于异常点检测】
医疗诊断：在医疗领域，SVM被用于多种疾病的诊断。例如，通过分析患者的医疗影像数据，SVM可以辅助医生进行肺癌、乳腺癌等疾病的早期诊断。

需要注意的是，随着技术的不断发展，SVM的应用场景也在不断拓展和深化。同时，SVM也常与其他机器学习算法结合使用，以提高模型的性能和泛化能力。

参考

[支持度向量机与深度学习的融合：未来趋势与实践] https://blog.csdn.net/universsky2015/article/details/137304073
[sklearn支持向量机说明] http://scikit-learn.org.cn/view/83.html
[支持向量机通俗导论（理解SVM的三层境界）] https://blog.csdn.net/v_july_v/article/details/7624837

原文地址：https://blog.csdn.net/heroicpoem/article/details/142421090

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：2024“华为杯”中国研究生数学建模竞赛（E题）深度剖析|数学建模完整过程+详细思路+代码全解析
下一篇：力扣刷题-9.回文数

电脑插入U盘，电脑显示新增了，但是双击却显示请将磁盘插入
`CHKDSK 无法供 RAW 驱动器使用` 表明内存卡的文件系统已损坏或丢失，当前处于 **RAW 文件系统** 状态。RAW 表示文件系统无法识别，可能由以下原因导致：
阅读更多2024-11-19
【论文阅读】InstructIR: High-Quality Image Restoration Following Human Instructions
图像恢复是一个基本问题，旨在从退化的图像中恢复出高质量的清晰图像。All-In-One 图像恢复模型能够利用退化特定的信息作为提示，引导恢复模型有效地恢复多种类型和不同程度的退化图像。本研究提出了首个
阅读更多2024-11-19
【Next】字体修改
next/font 包括任何字体文件的内置自动自托管。首先从 next/font/google 导入您想要使用的字体作为函数。（可以按住 ctrl 点进去 google 查看所有字体）然后导入该字体函
阅读更多2024-11-19
Springboot基于GIS的旅游信息管理系统
项目编号：springbootA100基于GIS的旅游信息管理系统是在旅游业迅速发展、旅游需求日益多样化的背景下应运而生的一套综合性信息管理平台，它通过整合旅游资源、提供实时信息、优化服务流程，旨在为
阅读更多2024-11-19
【gitlab】gitlabrunner部署
v /root/gitrunner/config:/etc/gitlab-runner \ ///gitlab-runner的配置目录，挂载在宿主机上方便修改,里面有config.toml配置文
阅读更多2024-11-19
【专题】2024AIGC创新应用洞察报告汇总PDF洞察（附原数据表）
在科技日新月异的今天，人工智能领域正以前所未有的速度发展，AIGC（人工智能生成内容）成为其中最耀眼的明珠。从其应用场景的不断拓展，到对各行业的深刻变革，AIGC 的影响力无处不在。本报告汇总洞察深入
阅读更多2024-11-19
面向 Java 程序员的 SQLite 替代品
以及 json/xml 格式的数据，反正你听说过和没听说过的数据源都被 esProc 做好了访问接口，只要简单的一两句代码就可以读写。不同的是，SPL 脚本是解释执行的，在修改后就会立即生效，不像存储
阅读更多2024-11-19
无人机电源,270V直流电源,如何供地面通电维护及启动用
270V 直流电源是为无人机地面启动设计的一款高性能电源设备，其输出功率150KVA，并且能够根据不同需求进行定制，输出电压范围在 1-310V 之间连续可调，同时还提供拖车式及柜式组装式等多种定制方
阅读更多2024-11-19
【taro react】 ---- 解决 input 、textarea 层级穿透
使用 alwaysEmbed 在安卓没有效果；使用 input 标签和 view 标签切换，存在抖动问题；使用 visibility: hidden 不能对 input 进行聚焦；使用 positio
阅读更多2024-11-19
提供一个集中式的数字媒体模板库，涵盖各类设计模板（如海报、视频片头、社交媒体帖子等），支持关键词、标签、风格等多维度搜索，帮助用户快速定位所需模板。
1. 模板库管理与搜索具体作用：提供一个集中式的数字媒体模板库，涵盖各类设计模板（如海报、视频片头、社交媒体帖子等），支持关键词、标签、风格等多维度搜索，帮助用户快速定位所需模板。使用方式：用户可通过
阅读更多2024-11-19