协方差矩阵及其计算方法

🕗 发布于 2024-11-16 22:24 协方差协方差矩阵 机器学习 人工智能

协方差矩阵（Covariance Matrix）是一个描述多维数据特征之间相互关系的矩阵，广泛应用于统计学和机器学习中。它用于表示各个特征之间的协方差，是分析多维数据分布和特征依赖性的重要工具。

什么是协方差矩阵？

协方差矩阵是一个方阵，其每个元素 $\sigma_{ij}$ 代表第 $i$ 个特征与第 $j$ 个特征之间的协方差。协方差本质上是衡量两个变量是否相关以及它们的相关程度：

如果协方差为正，说明这两个特征具有正相关关系，即当一个特征增大时，另一个特征也倾向于增大。
如果协方差为负，说明这两个特征具有负相关关系，即当一个特征增大时，另一个特征倾向于减小。
如果协方差接近零，说明这两个特征之间几乎没有线性关系。

协方差矩阵是一个对称矩阵，因为 $\sigma_{ij} = \sigma_{ji}$ 。协方差矩阵的对角线元素是每个特征的方差，而非对角线元素则是特征之间的协方差。

协方差矩阵的计算

假设我们有一个包含 $n$ 个样本和 $m$ 个特征的数据集 $\mathbf{X}$ ，其中每个样本 $\mathbf{x_i} = (x_{i1}, x_{i2}, \dots, x_{im})$ 是一个 $m$ -维向量。为了计算协方差矩阵，我们通常按照以下步骤操作：

1. 计算每个特征的均值

首先，计算每个特征的均值。假设数据集的第 $i$ 列是特征 $x_i$ ，其均值 $\bar{x_i}$ 为：

$\bar{x_i} = \frac{1}{n} \sum_{k=1}^{n} x_{ki}$

2. 中心化数据

对于每个特征，减去该特征的均值，得到中心化的数据：

$x_{ki}^\prime = x_{ki} - \bar{x_i}$

3. 计算协方差矩阵

协方差矩阵的元素 $\sigma_{ij}$ 代表第 $i$ 个特征与第 $j$ 个特征之间的协方差，计算公式如下：

$\sigma_{ij} = \frac{1}{n-1} \sum_{k=1}^{n} (x_{ki}^\prime)(x_{kj}^\prime)$

协方差矩阵是对称的，因此计算出来的矩阵是一个 $\times m$ 的对称矩阵，其中对角线上的元素是特征的方差，非对角线元素是特征之间的协方差。

协方差矩阵的示例

假设我们有以下数据集，其中每行表示一个样本，每列表示一个特征：

$\mathbf{X} = \begin{pmatrix} 1 & 2 \\ 2 & 3 \\ 3 & 4 \\ 4 & 5 \end{pmatrix}$

这是一个包含 4 个样本和 2 个特征的数据集，特征分别为 “特征 1” 和 “特征 2”。

第一步：计算每个特征的均值

对于特征 1：
$\bar{x_1} = \frac{1 + 2 + 3 + 4}{4} = 2.5$
对于特征 2：
$\bar{x_2} = \frac{2 + 3 + 4 + 5}{4} = 3.5$

第二步：中心化数据

将每个特征的均值从每个数据点中减去，得到中心化的数据集：

$\mathbf{X^\prime} = \begin{pmatrix} 1 - 2.5 & 2 - 3.5 \\ 2 - 2.5 & 3 - 3.5 \\ 3 - 2.5 & 4 - 3.5 \\ 4 - 2.5 & 5 - 3.5 \end{pmatrix} = \begin{pmatrix} -1.5 & -1.5 \\ -0.5 & -0.5 \\ 0.5 & 0.5 \\ 1.5 & 1.5 \end{pmatrix}$

第三步：计算协方差矩阵

接下来，我们计算协方差矩阵的元素。由于数据集中有 2 个特征，我们需要计算以下协方差：

协方差 $\sigma_{11}$ （特征 1 的方差）：
$\sigma_{11} = \frac{1}{3} [(-1.5)^2 + (-0.5)^2 + (0.5)^2 + (1.5)^2] = \frac{1}{3} [2.25 + 0.25 + 0.25 + 2.25] = \frac{5}{3} \approx 1.6667$
协方差 $\sigma_{12}$ （特征 1 和特征 2 的协方差）：
$\sigma_{12} = \frac{1}{3} [(-1.5)(-1.5) + (-0.5)(-0.5) + (0.5)(0.5) + (1.5)(1.5)] = \frac{1}{3} [2.25 + 0.25 + 0.25 + 2.25] = \frac{5}{3} \approx 1.6667$
协方差 $\sigma_{22}$ （特征 2 的方差）：
$\sigma_{22} = \frac{1}{3} [(-1.5)^2 + (-0.5)^2 + (0.5)^2 + (1.5)^2] = \frac{5}{3} \approx 1.6667$

因此，协方差矩阵为：

$\Sigma = \begin{pmatrix} 1.6667 & 1.6667 \\ 1.6667 & 1.6667 \end{pmatrix}$

协方差矩阵的意义

从协方差矩阵中我们可以得出以下结论：

方差：特征 1 和特征 2 的方差都是 1.6667，这说明数据在这两个特征上的离散程度是相同的。
协方差：特征 1 和特征 2 之间的协方差是 1.6667，表示这两个特征之间有正相关关系。

总结

协方差矩阵是分析多维数据的重要工具，它能够描述数据集中各个特征之间的关系。在机器学习中，协方差矩阵常用于主成分分析（PCA）等技术中，以帮助理解数据的内在结构。通过计算协方差矩阵，我们可以更好地了解特征之间的相关性和数据的分布特性。

原文地址：https://blog.csdn.net/u013172930/article/details/143767603

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Unity读取Json
下一篇：单例模式(Singleton)

【python笔记02】面向对象思想
面向对象的核心思想是：不仅仅是简单的将功能进行封装（封装成函数），更是对调用该功能的主体进行封装，实现某个主体拥有多个功能，在使用的过程中，先得到对应的主体，再使用主体去实现相关的功能！计算机语言的语
阅读更多2024-11-18
《Django 5 By Example》阅读笔记：p211-p236
adv. without any interruption(连续地).
阅读更多2024-11-18
【Android】IPC机制—Serializable、Parcelable、Binder用法
Serializable是Java所提供的一个序列化接口，它是一个空接口，为对象提供标准的序列化和反序列化操作。serialVersionUID也并不是必须的，不声明serialVersionUID也
阅读更多2024-11-18
大麦抢票科技
大麦演唱会
阅读更多2024-11-18
力扣（leetcode）面试经典150题——27. 移除元素
给你一个数组nums和一个值val，你需要移除所有数值等于val的元素。元素的顺序可能发生改变。然后返回nums中与val不同的元素的数量。假设nums中不等于val的元素数量为knumsnumskv
阅读更多2024-11-18
Mongo-BI（bi-connector）配置
补充 mongosql 加到开启自启动。官网提供的配置说明-太复杂。其他人的配置-简单清晰。
阅读更多2024-11-18
【C#】C#编程基础：探索控制台应用与数据操作
本文旨在为C#语言的初学者提供一个全面的入门指南，涵盖了控制台项目的基本使用、数据类型的转换、字符串与数组的操作、引用类型与值类型的区别、常量与枚举的使用等多个方面。通过详细的代码示例和解释，读者可以
阅读更多2024-11-18
1116蓝桥杯算法双周赛小白入门赛4.5.6题题解
除了自己以外,给每个人带一块钱 ========> 自己少一块钱 ========>nums[pos]--本人是很普通的大学生,算法水平并不高,不能保证解答一定
阅读更多2024-11-18
Scala-注释、标识符、变量与常量-用法详解
Scala初步
阅读更多2024-11-18
信捷 XDH PLC C语言 Ethercat 简易绝对运动 BMC_A_DRVA_BODY函数
/全局变量给定时器的线圈通电。（1）DRVA_PAR_array是类型为BMC_A_DRVA，长度为3的数组。（3）T_MoveOK_array是类型为BMC_A_Stop，长度为3的数组。（2）st
阅读更多2024-11-18