Python Pandas数据清洗之缺失数据处理

🕗 发布于 2024-09-23 09:03 python pandas 开发语言

大家好，在数据分析和处理过程中，缺失数据是常见且不可避免的现象。无论是在数据收集、传输或存储的过程中，数据集可能会出现部分丢失。缺失数据的存在不仅会影响数据的完整性，还可能对后续的数据分析和建模造成不利影响。为了保证数据质量，合理处理缺失数据至关重要。

Python的Pandas库提供了强大的工具，能够高效处理数据中的缺失值，特别是通过插值和填充技术来弥补数据的缺失。本文将介绍如何使用Pandas处理数据中的缺失值，着重探讨插值和填充的技巧。通过这些方法，可以保证数据集的完整性，并提高分析结果的准确性。

1.缺失数据的检测

在Pandas中，缺失数据通常用 NaN（Not a Number）表示。Pandas提供了多种方法来检测数据中的缺失值。常见的检测方法包括 isna() 和 isnull()，这两个方法可以检测数据中的 NaN 值，并返回一个布尔值数据框。

import pandas as pd
import numpy as np

# 创建一个包含缺失数据的DataFrame
data = {
    'A': [1, 2, np.nan, 4, 5],
    'B': [10, np.nan, np.nan, 40, 50],
    'C': [100, 200, 300, np.nan, 500]
}

df = pd.DataFrame(data)

# 检测缺失值
print(df.isna())

输出结果：

       A      B      C
0  False  False  False
1  False   True  False
2   True   True  False
3  False  False   True
4  False  False  False

isna() 返回了一个布尔值数据框，标识出哪些位置有缺失值。True 表示对应位置的值为 NaN，False 表示该位置的数据是完整的。

2.删除缺失数据

在某些情况下，删除包含缺失值的行或列是处理缺失数据的一个简单有效的方法。Pandas提供了 dropna() 方法来删除缺失值。根据需要，可以删除整行或整列。

# 删除包含缺失值的行
df_dropna_rows = df.dropna()
print(df_dropna_rows)

# 删除包含缺失值的列
df_dropna_columns = df.dropna(axis=1)
print(df_dropna_columns)

删除包含缺失值的行：

     A     B      C
0  1.0  10.0  100.0
4  5.0  50.0  500.0

删除包含缺失值的列：

dropna() 的 axis 参数控制删除行还是列，axis=0 表示删除行，axis=1 表示删除列。

尽管删除缺失数据是一种简单的方法，但在某些情况下，删除数据可能导致信息丢失过多。因此，更合理的选择是使用插值和填充技术来补全缺失值。

3.使用填充技术处理缺失数据

Pandas提供了 fillna() 方法来填充缺失数据，常见的填充策略包括使用固定值填充、前向填充（ffill）和后向填充（bfill）。

3.1 使用固定值填充

# 使用固定值0填充缺失值
df_fillna_0 = df.fillna(0)
print(df_fillna_0)

输出结果：

     A     B      C
0  1.0  10.0  100.0
1  2.0   0.0  200.0
2  0.0   0.0  300.0
3  4.0  40.0    0.0
4  5.0  50.0  500.0

在这个示例中，fillna(0) 将所有的 NaN 值替换为0。

3.2 前向填充（ffill）

前向填充是指用前一个有效数据填充缺失值，常用于时间序列数据。

# 使用前向填充
df_ffill = df.fillna(method='ffill')
print(df_ffill)

输出结果：

     A     B      C
0  1.0  10.0  100.0
1  2.0  10.0  200.0
2  2.0  10.0  300.0
3  4.0  40.0  300.0
4  5.0  50.0  500.0

3.3 后向填充（bfill）

后向填充则是用后一个有效数据填充缺失值。

# 使用后向填充
df_bfill = df.fillna(method='bfill')
print(df_bfill)

输出结果：

     A     B      C
0  1.0  10.0  100.0
1  2.0  40.0  200.0
2  4.0  40.0  300.0
3  4.0  40.0  500.0
4  5.0  50.0  500.0

前向填充和后向填充对于时间序列数据尤其有效，可以根据实际业务逻辑选择合适的填充方向。

4.使用插值技术处理缺失数据

插值是一种根据已有数据来估计缺失值的技术。Pandas提供了 interpolate() 方法，可以根据多种插值方式填充缺失值。常见的插值方法包括线性插值、时间插值等。

4.1 线性插值

线性插值是最常用的插值方法，它通过现有的两个数据点之间的线性关系来填补中间的缺失值。

# 使用线性插值填充缺失值
df_interpolate = df.interpolate()
print(df_interpolate)

输出结果：

     A     B      C
0  1.0  10.0  100.0
1  2.0  25.0  200.0
2  3.0  32.5  300.0
3  4.0  40.0  400.0
4  5.0  50.0  500.0

在这个示例中，interpolate() 方法使用线性插值填补了 NaN 值，使得数据更加平滑和连续。

4.2 时间插值

时间插值对于处理时间序列数据非常有用，它基于时间轴对数据进行插值。

# 创建一个包含时间序列数据的DataFrame
time_data = {
    '日期': pd.date_range('2024-01-01', periods=5),
    '数值': [np.nan, 2, np.nan, 8, 10]
}

df_time = pd.DataFrame(time_data)
df_time.set_index('日期', inplace=True)

# 使用时间插值填充缺失值
df_time_interpolated = df_time.interpolate(method='time')
print(df_time_interpolated)

输出结果：

            数值
日期             
2024-01-01  2.0
2024-01-02  2.0
2024-01-03  5.0
2024-01-04  8.0
2024-01-05  10.0

在时间序列数据中，使用时间插值可以根据日期自动推算缺失值，填补后的数据保持了时间上的连续性。

4.3 多种插值方法

Pandas的 interpolate() 方法支持多种插值方法，包括 polynomial（多项式插值）、spline（样条插值）等。可以根据数据特性选择适合的插值方法。

# 使用多项式插值
df_poly_interpolate = df.interpolate(method='polynomial', order=2)
print(df_poly_interpolate)

在这个示例中，使用二次多项式插值填补了缺失值，多项式插值适合处理有曲线趋势的数据。

在数据分析中，缺失数据的处理是至关重要的一步，直接影响到分析结果的准确性。Python的Pandas库提供了多种有效的工具和方法来处理缺失数据，尤其是通过插值和填充技术。通过合理选择这些数据清洗方法，可以有效地弥补数据集中存在的空白，保证数据的连续性和完整性。

原文地址：https://blog.csdn.net/csdn1561168266/article/details/142446494

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【STM32】TIM定时器定时中断与定时器外部时钟的使用
下一篇：网络通信——OSI七层模型和TCP/IP模型

LeetCode Hot100 C++ 哈希 1.两数之和
nums[i] 是键，i 是值， hmap[nums[i]] = i;的意思是：将 nums[i] 作为键，将 i 作为与该键关联的值。给定一个整数数组 nums 和一个整数目标值 target，请你
阅读更多2024-09-23
ICP链绑定自定义域名，设置身份同源认证
当我们的ICP项目完成上到主网后，ICP会提供一个官方的初始域名地址，但是那个域名地址包含CanisterId比较难记。为了让项目更加容易推广和熟知，还需要申请一个简单的域名。
阅读更多2024-09-23
解决ArmDS Fast Models 中部分内核无法上电的问题
解决ArmDS Fast Models 中部分内核无法上电的问题。
阅读更多2024-09-23
中兴交换机三层配置
目的：将1-10端口划分到3001vlan，11-20端口划分到3002vlan中去。
阅读更多2024-09-23
GEE 教程：利用CHIRPS数据计算2010-2024年逐年年均降水和柱状图加载
CHIRPS（Climate Hazards group InfraRed Precipitation with Station data）是一种基于红外降水和地面站数据的降水估算方法。它由美国加州大
阅读更多2024-09-23
Spring Boot框架下的心理教育辅导系统开发
在这种形势下，充分发挥互联网快捷方便的优势，弥补传统心理咨询方式的不足，开发一个高校心理教育辅导系统，不但实时地为在校学生提供专业的心理测试咨询服务，而且在学生隐私的保护和自尊心的维护方面也很有意义，
阅读更多2024-09-23
使用python写出对比两个xlsx文件
【代码】使用python写出对比两个xlsx文件。
阅读更多2024-09-23
如何解决npm下载Puppeteer卡死的问题
如何解决npm下载Puppeteer卡死的问题
阅读更多2024-09-23
【计算机网络 - 基础问题】每日 3 题（十九）
TCP 是面向连接的、可靠的、基于字节流的传输层通信协议。面向连接：一定是「一对一」才能连接，不能像 UDP 协议可以一个主机同时向多个主机发送消息，也就是一对多是无法做到的；可靠的：无论的网络链路中
阅读更多2024-09-23
2024年找工作怎么这么难？网工该何去何从？
特别是那些中小企业，它们的招聘策略非常灵活，市场环境不好的时候，会大幅削减招聘预算，甚至不再招收新的网络工程师，而是更倾向于让现有员工“多干活”，以减少成本支出。比如说考取高级别认证，比如HCIE或C
阅读更多2024-09-23

Python Pandas数据清洗之缺失数据处理

1.缺失数据的检测

2.删除缺失数据

3.使用填充技术处理缺失数据

3.1 使用固定值填充

3.2 前向填充（ffill）

3.3 后向填充（bfill）

4.使用插值技术处理缺失数据

4.1 线性插值

4.2 时间插值

4.3 多种插值方法

相关文章