PCA降维算法

🕗 发布于 2024-10-04 21:11 算法 numpy python

假设原数据 $X$ 是由·m·个·n·维向量组成，现在要将数据从n维降到k维：

一、如何计算：

流程如下：

0.定义数据：
1.去中心化：将 X 的每一维进行零均值化，即每个对应维分量都减去这一维度的均值
2.求出协方差矩阵 $C=\frac{1}{m}X^TX$ ：
3.求出协方差矩阵的特征值及对应的特征向量：
4.将特征向量按对应特征值大小从左到右按列排列成矩阵，取前 k 列组成矩阵 P
5. $Y = XP$ 即为降维到 k 维后的数据

0.定义数据：

如：现在有3个4维向量，我们要将每个向量降到2维：（3 * 4）->（3 * 2）

data = np.array([[1,5,3,1],
                 [2,3,4,4],
                 [6,7,8,1]])
print("data.shape:",data.shape)

输出：

data.shape: (3, 4)

1.去中心化：

将 X 的每一维进行零均值化，即每个对应维分量都减去这一维度的均值

对于第一维：μ=(1+2+6)/3=3 ，均值为3，更新第一维的分量为-2，-1，3
对于第二维：μ=(5+3+7)/3=5 ，均值为5，更新第一维的分量为0，-2，2
对于第三维：μ=(3+4+8)/3=5 ，均值为5，更新第一维的分量为-2，-1，3
对于第四维：μ=(1+4+1)/3=2 ，均值为2，更新第一维的分量为-1，2，-1

# 去中心化
Mean=data.mean(axis=0)

print("data:\n",data)
print("Mean:\n",Mean)
data = data - Mean
print("newdata:\n",data)

输出：

data:
[[1 5 3 1]
[2 3 4 4]
[6 7 8 1]]
Mean:
[3. 5. 5. 2.]
newdata:
[[-2. 0. -2. -1.]
[-1. -2. -1. 2.]
[ 3. 2. 3. -1.]]

2.求出协方差矩阵 $C=\frac{1}{m}X^TX$ ：

# 注意：计算协方差矩阵,求出来应该是4*4的矩阵，因为有4个特征
#打印维数
cov = np.dot(data.T, data) / (m) 
print("cov:\n",cov)

输出：

cov:
[[ 4.66666667 2.66666667 4.66666667 -1. ]
[ 2.66666667 2.66666667 2.66666667 -2. ]
[ 4.66666667 2.66666667 4.66666667 -1. ]
[-1. -2. -1. 2. ]]

3.求出协方差矩阵的特征值及对应的特征向量：

# 求出协方差矩阵的特征值及对应的特征向量
eig_val, eig_vec = np.linalg.eig(cov)
print("特征值:\n",eig_val)
print("特征向量:\n",eig_vec)

特征值:
[1.15092498e+01 2.49075025e+00 9.25112518e-17 8.09374965e-16]
特征向量:
[[-0.62111719 0.30159181 0.07152408 -0.42472814]
[-0.42435516 -0.48839262 0.72580926 0.69772981]
[-0.62111719 0.30159181 -0.36184778 0.14563622]
[ 0.21988535 0.76128668 0.58064741 0.55818385]]

每个特征值的特征向量对应下面矩阵中的一列，而不是一行。

4.将特征向量按对应特征值大小从左到右按列排列成矩阵，取前 k 列组成矩阵 P

# 将特征向量按对应特征值大小从左到右按列排列成矩阵，取前 k 列组成矩阵 P
k=2
P = eig_vec[:, np.argsort(-eig_val)[:k]]
print("基向量矩阵:\n",P)

基向量矩阵:
[[-0.62111719 0.30159181]
[-0.42435516 -0.48839262]
[-0.62111719 0.30159181]
[ 0.21988535 0.76128668]]

注意：
[-0.62111719， -0.42435516 ，-0.62111719 ， 0.21988535]对应一个特征向量，即是按列看的。

5. $Y = XP$ 即为降维到 k 维后的数据

降维后的结果:

# Y = XP
Y = np.dot(data, P)
print("降维后的结果:\n",Y)

输出：

Y= [[ 2.26458342 -1.96765391]
[ 2.5307154 1.89617499]
[-4.79529882 0.07147892]]

两个矩阵相乘的意义是将左边矩阵中的每一行向量变换到右边矩阵中以每一列列向量为基所表示的空间中去（这里左边矩阵的每一行代表一个数据点，右边矩阵的每一列代表一个基）

$Y = XP$ ，即将X里面的点投影到P所构成的空间中去

与PCA函数的计算结果进行对比：结果一致

# # PCA 降维到 2 维
pca = PCA(n_components=2)
reduced_data = pca.fit_transform(data)

print(reduced_data)

[[-2.26458342 1.96765391]
[-2.5307154 -1.89617499]
[ 4.79529882 -0.07147892]]

二、判断需要降到多少维：

通过计算每个PC的方差占总方差的比例，来确定需要降到多少维，既可以减少数据的存储开销，又能尽量减少数据损失。

PCA算法的实现可以分为最大可分性和最近重构性，前者更容易编程实现，显然我们使用的也是前者。

目标在于使投影后的方差最大化，但是经过数学推导后可以发现PC对应的方差其实就是协方差矩阵的特征值，所以我们可以通过协方差矩阵的特征值占比来确定需要降到多少维。


# -------------判断需要降到几维----------------

# 计算每个主成分的方差贡献率，即特征值的大小与特征值之和的比值
# 方差贡献率百分比，保留两位小数并添加百分号
var_ratio = eig_val / eig_val.sum()
var_ratio_percent = ["{:.2f}%".format(vr * 100) for vr in var_ratio]
print("方差贡献率百分比:\n", var_ratio_percent)


# 绘制方差贡献率的条形图
plt.figure(figsize=(10, 6))
plt.bar(range(len(var_ratio)), [vr * 100 for vr in var_ratio], tick_label=['PC1', 'PC2', 'PC3', 'PC4'])
plt.xlabel('λ')
plt.ylabel('rate (%)')
plt.title('rate of λ')
plt.show()

画图如下：
在这里插入图片描述
从图中也可以看出，PC1和PC2几乎占据了所有的信息，所以降到2维就是最好的选择。

由于计算机在计算浮点数时会产生一些误差，所以出现一些奇怪的值也不必惊慌。

三、降维后是否还能恢复：

使用了 PCA（主成分分析）降维算法后，一般无法完全恢复原始数据。这是因为在降维的过程中，我们丢弃了某些主成分（通常是那些对应较小特征值的主成分），从而丢失了一部分信息。

但是可进行近似重构，使用保留的主成分对数据进行重构，得到对原始数据的近似，但会有信息损失和误差。

代码

# -*- coding: utf-8 -*-
import numpy as np
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 示例数据矩阵
data = np.array([[1,5,3,1],
                 [2,3,4,4],
                 [6,7,8,1]])

m=3 # 样本数
n=4 # 特征数

print("data.shape:",data.shape)

# 去中心化
Mean=data.mean(axis=0)

print("data:\n",data)
print("Mean:\n",Mean)
data = data - Mean
print("newdata:\n",data)

# 计算协方差矩阵,求出来应该是4*4的矩阵，因为有4个特征
#打印维数
cov = np.dot(data.T, data) / (m) 
print("cov:\n",cov)

# 求出协方差矩阵的特征值及对应的特征向量
eig_val, eig_vec = np.linalg.eig(cov)
print("特征值:\n",eig_val)
print("特征向量:\n",eig_vec)


# 将特征向量按对应特征值大小从上到下按行排列成矩阵，取前 k 行组成矩阵 P
k=2
P = eig_vec[:, np.argsort(-eig_val)[:k]]
print("基向量矩阵:\n",P)


# Y = XP
Y = np.dot(data, P)
print("降维后的结果:\n",Y)


# # PCA 降维到 2 维
pca = PCA(n_components=2)
reduced_data = pca.fit_transform(data)

print(reduced_data)

# -------------判断需要降到几维----------------

# 计算每个主成分的方差贡献率，即特征值的大小与特征值之和的比值
# 方差贡献率百分比，保留两位小数并添加百分号
var_ratio = eig_val / eig_val.sum()
var_ratio_percent = ["{:.2f}%".format(vr * 100) for vr in var_ratio]
print("方差贡献率百分比:\n", var_ratio_percent)


# 绘制方差贡献率的条形图
plt.figure(figsize=(10, 6))
plt.bar(range(len(var_ratio)), [vr * 100 for vr in var_ratio], tick_label=['PC1', 'PC2', 'PC3', 'PC4'])
plt.xlabel('λ')
plt.ylabel('rate (%)')
plt.title('rate of λ')
plt.show()

原文地址：https://blog.csdn.net/weixin_73453526/article/details/142703746

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：#Swift ：回调地狱的解决 —— 通过 task/await 来替代 nested mutiple trailing closure 来进行回调的解耦
下一篇：微智启yolo数据集划分工具免费分享下载

FPGA时序分析和约束学习笔记（2、FPGA时序传输模型）
Tsu建立时间：目的寄存器自身的特性决定，在时钟上升沿到达其时钟接口时，其数据输入端（D）的数据必须提前Nns稳定下来，否则就无法确保数据正确存储。Skew时钟偏斜：时钟从源端口出发，到达目的寄存器和
阅读更多2024-10-06
打卡第一天 B2005 字符三角形
【代码】打卡第一天 B2005 字符三角形。
阅读更多2024-10-06
IEC104规约的秘密之六----配置参数k，w
w是通讯前就已经配置好的一个固定值，范围是1~32767，表示收到对方w帧后就必须给对方一个应答了，表示这些帧我已经收到了，如果不给对方应答，对方会认为自己发的这些帧没有收到，后续可以采用其他机制来让
阅读更多2024-10-06
算法闭关修炼百题计划（二）
给你一个整数数组 nums，返回数组 answer ，其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积。根据这一点，用哈希表分组，把排序后的字符串当做key，原字
阅读更多2024-10-06
C# 数组和集合
数组是具有相同数据类型的一组数据的集合。数组中的每一个变量称为数组的元素，数组能够容纳元素的数量称为数组的长度。
阅读更多2024-10-06
UE5 小地图的基础方法
UE5 平面小地图的基础方法，后续继续添加
阅读更多2024-10-06
第33次CCF计算机软件能力认证【T1~T3】：词频统计、相似度计算、化学方程式配平
CCF计算机软件能力认证，前三题包括大模拟、高斯消元、枚举等操作
阅读更多2024-10-06
洛谷刷题 P1042 [NOIP2003 普及组] 乒乓球
接着我们对二维数据循环访问处理数据，对11制和21制一轮结束情况做讨论，注意if，else if的使用（是并行情况还是多选一情况）那么数据存储我们可以用C++的vector<char>，或
阅读更多2024-10-06
spring boot发送邮件
spring boot整合mail发送邮件
阅读更多2024-10-06
银行数字化转型导师坚鹏：2025年银行开门红蓄客方法及案例
银行营销、运营、数字化营销、数字化运营、网点负责人、中高层干部等相关人员。3、第三个难题：银行需要做哪些准备工作？4、第四个难题：如何抛开疑虑、放手去做？1、第一个难题：银行锁定哪些目标客户？2
阅读更多2024-10-06