Pandas缺失值处理

🕗 发布于 2024-10-17 19:37 pandas 数据分析 大数据

NaN

加载包含缺失的数据

查看缺失值

NaN

数据库中，缺失数据表示为NULL
在某些编程语言中用NA或None表示
缺失值也可能是空字符串''或数值 0
在Pandas中使用NaN表示缺失值
- Pandas中的NaN值来自NumPy库，NumPy中缺失值有几种表示形式：NaN，NAN，nan，他们都一样
缺失值和其它类型的数据不同，它毫无意义，NaN不等于0，也不等于空字符串

from numpy import NaN,NAN,nan

print(NaN==True)  # False
print(NaN==False)  # False
print(NaN==0)  # False
print(NaN=='')  # False
print(NaN==None)  # False
print(NaN==NaN)  # False
print(NaN==nan)  # False
print(NaN==NAN)  # False
print(nan==NAN)  # False

加载包含缺失的数据

加载数据时可以通过 keep_default_na 与 na_values 指定加载数据时的缺失值

1)加载数据,观察缺失值默认的显示情况

import pandas as pd

df = pd.read_csv('../data/c_city_day.csv')
df.head()

2) 使用keep_default_na=False参数加载数据，不显示默认缺失值

df = pd.read_csv('../data/c_city_day.csv', keep_default_na=False)
df.head()

3) 使用na_values参数加载数据，通过该参数指定我们认为的缺失值

# 在这里我们通过na_values参数，指鹿为马
df = pd.read_csv('../data/c_city_day.csv', na_values=["Ahmedabad", "2015-01-01"], keep_default_na=True)
df.head(20)

查看缺失值

通过info函数查看缺失值

import pandas as pd

df = pd.read_csv('../data/c_city_day.csv')
df.info()

通过isnull函数查看缺失值

pd.isnull与pd.isna用法相同

df.head().isnull()
print('===============')
df.head().isna()

通过notnull函数查看缺失值

notnull函数和notna函数相同，判断是否存在非缺失值；与isnull函数对应，返回结果正好相反

df.head().notnull()
print('==================')
df.head().notna()

通过isnull().sum()统计空值

print(df['PM2.5'].isnull().sum())
print(df['PM2.5'].notnull().sum())

缺失值处理

删除缺失值：删除缺失值会损失信息，并不推荐删除，当缺失数据占比较高的时候，或可以忽略相关性时，可以尝试使用删除缺失值
填充缺失值：填充缺失值是指用一个估算的值来去替代缺失数
- 平均值、中位数
- 前后值填充，数据呈现顺序变化的时候可以使用缺失值前边或后边的值进行填充
线性插值：假定数据点之间存在严格的线性关系，并利用相邻数据点中的非缺失值来计算缺失数据点的值

准备数据

#%%
import pandas as pd
df = pd.read_csv('../data/c_city_day.csv')
# 随机获取10条数据
df2 = df.sample(n=10, random_state=5)
df2

dropna删除缺失值

df.dropna(axis = 0,how = 'any' ,inplace = True, subset = ['列名1','列名2',,,], thresh = n)

axis=0
- 可选参数，默认为0按行删
- 0, or 'index'：删除包含缺失值的行
- 1, or 'columns'：删除包含缺失值的列
how='any'
- 可选参数，默认为any
- any: 如果存在NA值，则删除该行或列
- all: 如果所有值都是NA，则删除该行或列
inplace=False
- 可选参数，不建议使用这个参数
- 默认False, 不对原数据集进行修改
- inplce=True，对原数据集进行修改
subset接收一个列表
- 接收一个列表，列表中的元素为列名: 对特定的列进行缺失值删除处理
thresh=n
- 可选参数
- 参数值为int类型，按行去除NaN值，去除NaN值后该行剩余数值的数量（列数）大于等于n，便保留这一行

1) 删除含有缺失值的行数据

df2.dropna()

2) 删除含有缺失值的列

# 删除含有缺失值的列
df2.dropna(axis=1)

3) 删除指定列中含有缺失值的行数据

# # 删除指定列中含有缺失值的行数据
df2.dropna(how='any', subset=['PM2.5', 'Xylene', 'AQI'])

4) 删除指定列中都含有缺失值的行数据

# 删除指定列中都含有缺失值的行数据
df2.dropna(how='all', subset=['PM2.5', 'Xylene', 'AQI'])

5) 删除非空值小于12的行数据

# 删除含有缺失值的行数据, 剩余非空值个数大于等于12的行数据保留
df2.dropna(thresh=12)

fillna平均值填充缺失值

# 目标: 用平均值填充PM2.5的缺失值
# 1 加载数据
df = pd.read_csv("../data/c_city_day.csv")
# 2 验证缺失值
df.info() # 总: 29531  PM2.5: 24933

# 3 求平均值
pm25_mean = df['PM2.5'].mean()
print(pm25_mean) # 67.45057794890272

# 4 填充平均值
df['PM2.5'].fillna(pm25_mean, inplace=True)

# 5 验证
df.info() # 总: 29531  PM2.5: 29531
print(df['PM2.5'].mean())

fillna前后值填充缺失值

时序数据在某一列值的变化往往有一定线性规律，绝大多数的时序数据，具体的列值随着时间的变化而变化，所以对于有时序的行数据缺失值处理可以 使用上一个非空值或下一个非空值填充

1) 使用上一个非空值填充空值

使用上一个非空值（参数method='ffill'）填充Xylene（二甲苯）的空值
- “ffill” 的全称是 “forward ffill”，即前向填充

# 加载数据
df = pd.read_csv('../data/c_city_day.csv')
s1 = df['Xylene'][54:64]
print(s1)
# 使用前一个非空值填充空值
print('---------------------------')
print(s1.fillna(method='ffill'))

2) 使用下一个非空值填充空值

使用下一个非空值（参数method='bfill'）填充整个数据集的空值
- “bfill” 的全称是 “backward fill”，即反向填充。

# 加载数据
df = pd.read_csv('../data/c_city_day.csv')
s1 = df['Xylene'][54:64]
print(s1)
print('---------------------------')
print(s1.fillna(method='bfill'))

interpolate线性插值

绝大多数的时序数据，具体的列值随着时间的变化而变化。因此，除了使用bfill和ffill进行插补以外还可以使用线性插值法：它假定数据点之间存在严格的线性关系，并利用相邻数据点中的非缺失值来计算缺失数据点的值。

使用df.interpolate(limit_direction="both") 对缺失数据进行线性填充
使用series_obj.interpolate(limit_direction="both") 对缺失数据进行线性填充

# 加载数据
df = pd.read_csv('../data/c_city_day.csv')
s1 = df['Xylene'][54:64]
print(s1)
print('---------------------------')
print(s1.interpolate(limit_direction='both'))

原文地址：https://blog.csdn.net/weixin_58305115/article/details/142974068

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

大数据研究实训室建设方案
大数据项目实训平台作为一个通用的项目实训管理系统，具有高度的灵活性和可扩展性，能够根据学校或机构的特定需求进行定制，内置大数据、云计算和人工智能等领域的实训实战课程资源。实训室将专注于培养学生在大数据
阅读更多2024-10-19
ollama上传本地模型到仓库
一定要添加ollama的密钥，不然上传的时候会报错登录上之后找到设置然后加入你电脑上的ollama的key。
阅读更多2024-10-19
通过PHP与API的结合，开启电商数据集成的新篇章
在数字化转型的浪潮中，电子商务数据的集成对于企业来说变得越来越重要。PHP，作为服务端脚本语言的佼佼者，为开发者提供了强大的工具和库来实现与电商API的无缝对接。通过掌握API调用，PHP开发者可以轻
阅读更多2024-10-19
Java爬虫：API接口数据爬取入门详解及示例代码
API接口数据爬取是Java爬虫技术的一个重要应用领域。通过使用Java的HTTP客户端库和数据解析库，我们可以高效地从API接口获取数据，并进行进一步的分析和应用。掌握这些技能，将使你在数据获取和处
阅读更多2024-10-19
VUE传递字符串显示二维码
1.安装插件npm install vue-qrcode2.使用<script setup lang="ts">import { ref } from
阅读更多2024-10-19
智能指针(3)
我们会发现如果使用的是普通的开辟在栈里面的成员变量或者静态的全局变量都是跟着智能指针走的，但是我们的引用计数计数的是一个空间被多少个智能指针管理着，所以这个计数是肯定要跟着被管理的空间走的，以上两种表
阅读更多2024-10-19
C#两个窗体之间传递参数
C#两个窗体之间传递参数
阅读更多2024-10-19
【C#】使用Visual Studio创建Windows Forms应用程序计算对角线之和
118 Pages（2）课后练习题
阅读更多2024-10-19
DFS算法经典题目： Leetcode 51.N皇后
题目详情如下这道题如果使用暴力解法的话，需要对N个皇后放在每个地方都进行枚举并判断是否可行，时间复杂度非常之高，肯定是过不了的，所以需要使用其他解法。根据题目可以知道每两个皇后之间的位置关系不能是在同
阅读更多2024-10-19
Mybatis多对一查询的配置及两种方法的使用示例对比以及Mybatis一对多查询两种方法使用示例及对比
同多对一的查询一样，mapper.xml配置中使用子查询嵌套的方法在SQL执行的时候会进行多次查询，最终查询次数和取得的行数成正比增加。City(id=0, cityname=北京, areaList
阅读更多2024-10-19

Pandas缺失值处理

NaN

加载包含缺失的数据

查看缺失值

通过info函数查看缺失值

通过isnull函数查看缺失值

通过notnull函数查看缺失值

通过isnull().sum()统计空值

缺失值处理

准备数据

dropna删除缺失值

fillna平均值填充缺失值

fillna前后值填充缺失值

interpolate线性插值

相关文章