异常值理解

🕗 发布于 2024-09-24 23:50 统计学

异常值（Outlier）是指在数据集中与其他数据点显著不同的观测值。它们可能是由测量误差、数据录入错误或真实的、但罕见的现象引起的。

异常值的定义与理解

统计定义：
- 在统计学中，异常值通常是指在数据分布的尾部的点。比如，可以用标准差来定义：数据点如果离均值超过一定的标准差范围（如3个标准差），则可视为异常值。
领域定义：
- 不同领域的异常值可能有不同的含义。在金融领域，异常值可能表示欺诈行为；在医疗领域，异常值可能指代罕见疾病。
影响因素：
- 异常值可能会对模型的性能产生显著影响，导致模型偏向于错误的决策。因此，识别和处理异常值是数据预处理的重要步骤。

异常值探测的方法

统计方法：
- Z-score：计算每个数据点的Z-score，如果绝对值大于某个阈值（通常是3），则认为是异常值。
- IQR（四分位数间距）：通过计算第一四分位数（Q1）和第三四分位数（Q3），确定上下界限（Q1 - 1.5 * IQR，Q3 + 1.5 * IQR）来识别异常值。
机器学习方法：
- K-means聚类：通过聚类分析，找出距离簇中心较远的数据点。
- 孤立森林（Isolation Forest）：通过构建随机树来分离异常值，适合大规模数据集。
- 支持向量机（SVM）：使用SVM进行异常值检测，通过寻找最大边界来识别异常点。
深度学习方法：
- 自编码器（Autoencoder）：通过训练自编码器重构数据，重构误差较大的点可视为异常值。
- 循环神经网络（RNN）：在时间序列数据中，使用RNN检测不寻常的模式或行为。
其他方法：
- 密度估计：如高斯混合模型（GMM），通过评估数据点的概率密度来判断异常。
- 基于图的方法：例如，使用图算法识别节点之间的异常关系。

处理异常值

识别出异常值后，可以选择不同的处理方法：

删除：直接删除异常值，适用于异常值较少且不影响整体分析的情况。
替换：用均值、中位数等统计值替换异常值。
标记：将异常值单独标记，进行进一步分析。

原文地址：https://blog.csdn.net/AdamCY888/article/details/142442345

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

如何提高UI自动化的稳定性
1. 对于失败的用例，将失败的原因进行记录，判断失败的类型：用例不稳定、环境问题、产品问题等。6. 添加失败重试，可以过滤掉很多因网络不稳定或环境不稳定导致的用例失败。2. 对于一些可能会变化的参数，
阅读更多2024-09-25
LeetCode - 2207. 字符串中最多数目的子序列
那么我们应该如何在只遍历一遍的情况下得到原本字符串中的子序列个数（未插入情况下）呢？由于子序列长度只有2，所以要么首位插入队头，要么末位插入队尾，就能取得最大数目。的个数，两者取最大值，就是插入的字符
阅读更多2024-09-25
CaLM 因果推理评测体系：如何让大模型更贴近人类认知水平？
因果发现旨在从数据或语义中推测出潜在的因果结构，关联探索数据间的统计依赖关系，干预预测有意改变环境中的变量所带来的影响，以及反事实则对假设的替代场景进行推理。针对模型、提示词以及因果场景，CaLM 中
阅读更多2024-09-25
HOT100，二叉树题解
依赖子树结果：当前节点的答案依赖于左右子树的计算结果，在左右子树处理完成后才能得到完整的信息。减少重复计算：后序遍历确保每个节点只被计算一次，避免重复计算。全局状态更新的正确性：在处理完所有子树信息之
阅读更多2024-09-25
Vue 展示一个带有复选框的树形菜单，并通过按钮收集已选中的节点
这个代码使用 Vue.js 和 Element UI 的组件来展示一个带有复选框的树形菜单，并通过按钮收集已选中的节点。
阅读更多2024-09-25
【Temporal】方法规范
在workflow或者childWorkflow的方法代码中，不能使用golang的一些库方法，比如sleep，go协程等，必须使用其对应的封装方法，比如对应关系如下：time.Sleep -&
阅读更多2024-09-25
cmaklist流程控制——调试及发布
目前只会，并且不会workflow控制后续学习，理解整个流程，目前对流程控制理解也不够。
阅读更多2024-09-25
android 跑了一个网易云信v1.0的app, 编译的过程中报错Entry name ‘assets/sm2/r.jks‘ collided的处理
Entry name 'assets/sm2/r.jks' collided的处理
阅读更多2024-09-25
安装一个本地大模型
安装本地大模型之后，用如下方式启动 ollama run deepseek-v2:16b。
阅读更多2024-09-25
基于微信小程序的竞赛答题小程序开发笔记（一）
中小学学科答题小程序，适合各中小学校方，老师或者家长。通过互动和参与式学习，小程序能够通过游戏化元素提升学习的积极性和参与度，从而提升学习效率，促进学生自主学习。
阅读更多2024-09-25

异常值理解

异常值的定义与理解

异常值探测的方法

处理异常值

相关文章