Pandas教程：近万字讲解在Pandas中如何操作Excel

🕗 发布于 2024-07-19 08:51 pandas excel python 开发语言 数据分析

1. 安装与配置

2. 读取Excel文件

2.1 基本用法

在数据分析和处理领域，Excel文件是常见的数据存储格式之一。Pandas库提供了强大的功能来读取、处理和写入Excel文件。本文将详细介绍如何使用Pandas操作Excel文件，包括读取、数据清洗、数据操作和写入等步骤。

1. 安装与配置

首先，确保你已经安装了Pandas库以及用于读写Excel文件的库（如 openpyxl 或 xlrd）。你可以使用以下命令进行安装：

pip install pandas openpyxl xlrd

2. 读取Excel文件

2.1 基本用法

使用 pd.read_excel() 函数可以从Excel文件中读取数据到DataFrame。以下是一个基本示例：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx')
print(df.head())

2.2 指定工作表

如果Excel文件包含多个工作表，可以使用 sheet_name 参数指定要读取的工作表：

# 读取名为 'Sheet1' 的工作表
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
print(df.head())

2.3 指定单元格范围

可以使用 usecols 参数指定要读取的列范围，使用 skiprows 和 nrows 参数指定要跳过的行和读取的行数：

# 读取第1到第3列，跳过前2行，读取10行
df = pd.read_excel('data.xlsx', usecols="A:C", skiprows=2, nrows=10)
print(df.head())

3. 数据检查与预处理

3.1 查看数据的基本信息

使用 head()、tail()、info() 和 describe() 函数可以查看数据的基本信息：

print(df.head())  # 显示前5行
print(df.tail())  # 显示后5行
print(df.info())  # 显示数据类型和缺失值信息
print(df.describe())  # 显示统计信息

3.2 数据类型检查与转换

可以使用 dtypes 属性查看数据类型，并使用 astype() 函数进行类型转换：

print(df.dtypes)
df['Column1'] = df['Column1'].astype('int')

3.3 检查缺失值

使用 isnull() 和 sum() 函数检查缺失值：

print(df.isnull().sum())

3.4 处理缺失值

可以使用 fillna() 函数填充缺失值，或使用 dropna() 函数删除包含缺失值的行或列：

# 填充缺失值
df.fillna(0, inplace=True)

# 删除包含缺失值的行
df.dropna(inplace=True)

4. 数据清洗与转换

4.1 重命名列

使用 rename() 函数重命名列：

df.rename(columns={'OldName': 'NewName'}, inplace=True)

4.2 删除重复数据

使用 drop_duplicates() 函数删除重复数据：

df.drop_duplicates(inplace=True)

4.3 数据替换

使用 replace() 函数进行数据替换：

df['Column1'].replace(10, 20, inplace=True)

4.4 数据排序

使用 sort_values() 函数进行数据排序：

df.sort_values(by='Column1', ascending=False, inplace=True)

4.5 数据分组与聚合

使用 groupby() 和 agg() 函数进行数据分组与聚合：

grouped = df.groupby('Category')
result = grouped['Value'].agg(['mean', 'sum'])
print(result)

5. 数据选择与过滤

5.1 按标签选择

使用 loc 按标签选择数据：

subset = df.loc[df['Column1'] > 10]
print(subset)

5.2 按位置选择

使用 iloc 按位置选择数据：

subset = df.iloc[0:5, 1:3]
print(subset)

5.3 布尔索引

使用布尔索引进行数据过滤：

subset = df[df['Column1'] > 10]
print(subset)

5.4 多条件过滤

使用多个条件进行数据过滤：

subset = df[(df['Column1'] > 10) & (df['Column2'] < 20)]
print(subset)

6. 数据操作

6.1 添加、删除列

使用 insert() 函数添加列，使用 drop() 函数删除列：

df.insert(1, 'NewColumn', [1, 2, 3, 4, 5])
df.drop(columns=['OldColumn'], inplace=True)

6.2 数据框合并

使用 concat()、merge() 和 join() 函数进行数据框合并：

# 使用 concat() 合并
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
result = pd.concat([df1, df2], ignore_index=True)

# 使用 merge() 合并
df1 = pd.DataFrame({'key': ['K0', 'K1'], 'A': [1, 2]})
df2 = pd.DataFrame({'key': ['K0', 'K1'], 'B': [3, 4]})
result = pd.merge(df1, df2, on='key')

# 使用 join() 合并
df1 = pd.DataFrame({'A': [1, 2]}, index=['K0', 'K1'])
df2 = pd.DataFrame({'B': [3, 4]}, index=['K0', 'K1'])
result = df1.join(df2)

6.3 数据透视表

使用 pivot_table() 函数创建数据透视表：

pivot_table = df.pivot_table(values='Value', index='Category', columns='Year', aggfunc='mean')
print(pivot_table)

6.4 交叉表

使用 crosstab() 函数创建交叉表：

crosstab = pd.crosstab(df['Category'], df['Year'])
print(crosstab)

7. 写入Excel文件

7.1 基本用法

使用 pd.DataFrame.to_excel() 函数将DataFrame写入Excel文件：

df.to_excel('output.xlsx', index=False)

7.2 指定工作表名称

可以使用 sheet_name 参数指定工作表名称：

df.to_excel('output.xlsx', sheet_name='Sheet1', index=False)

7.3 指定单元格位置

可以使用 startrow 和 startcol 参数指定单元格位置：

df.to_excel('output.xlsx', startrow=1, startcol=2, index=False)

7.4 处理多个工作表

使用 ExcelWriter 类处理多个工作表：

with pd.ExcelWriter('output.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Sheet1', index=False)
    df2.to_excel(writer, sheet_name='Sheet2', index=False)

7.5 设置样式和格式

可以使用 openpyxl 库设置单元格样式和格式：

from openpyxl import Workbook
from openpyxl.styles import Font

with pd.ExcelWriter('output.xlsx', engine='openpyxl') as writer:
    df.to_excel(writer, sheet_name='Sheet1', index=False)
    workbook = writer.book
    worksheet = workbook['Sheet1']
    for cell in worksheet['A'] + worksheet['B']:
        cell.font = Font(bold=True)

8. 实战项目

为了使实战项目更具实际操作性，我们设计一个简单的Excel数据集，该数据集包含一些虚拟的销售数据。这个数据集将包括以下列：

Date：销售日期
Region：销售区域
Product：产品名称
Quantity：销售数量
Unit Price：单价
Sales：销售额（通过 Quantity 和 Unit Price 计算得出）

以下是这个数据集的示例数据：

Date	Region	Product	Quantity	Unit Price	Sales
2023-01-01	North	ProductA	10	20	200
2023-01-01	South	ProductB	15	30	450
2023-01-02	East	ProductA	20	20	400
2023-01-02	West	ProductC	25	25	625
2023-01-03	North	ProductB	30	30	900
2023-01-03	South	ProductC	35	25	875
2023-01-04	East	ProductA	40	20	800
2023-01-04	West	ProductB	45	30	1350
2023-01-05	North	ProductC	50	25	1250
2023-01-05	South	ProductA	55	20	1100

你可以将以上数据保存到一个Excel文件中，例如 sales_data.xlsx，并使用以下Python代码来读取、处理和分析这些数据。

8.1 读取真实Excel数据集

读取一个包含销售数据的Excel文件：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('sales_data.xlsx')
print(df.head())

8.2 数据清洗与预处理

进行数据清洗和预处理，包括处理缺失值、重命名列、删除重复数据等：

# 检查缺失值并填充
df.fillna(0, inplace=True)

# 重命名列
df.rename(columns={'Unit Price': 'Unit_Price'}, inplace=True)

# 删除重复数据
df.drop_duplicates(inplace=True)

8.3 数据分析与可视化

进行数据分析和可视化，例如计算销售额总和并绘制图表：

import matplotlib.pyplot as plt

# 计算总销售额
total_sales = df['Sales'].sum()
print(f'Total Sales: {total_sales}')

# 按区域汇总销售额
region_sales = df.groupby('Region')['Sales'].sum()
print(region_sales)

# 绘制销售额柱状图
region_sales.plot(kind='bar')
plt.xlabel('Region')
plt.ylabel('Total Sales')
plt.title('Total Sales by Region')
plt.show()

8.4 将结果写回Excel文件

将处理后的数据和分析结果写回Excel文件：

with pd.ExcelWriter('processed_sales_data.xlsx') as writer:
    df.to_excel(writer, sheet_name='Data', index=False)
    pd.DataFrame({'Total Sales': [total_sales]}).to_excel(writer, sheet_name='Summary', index=False)
    region_sales.to_excel(writer, sheet_name='Region Sales')

9. 性能优化

9.1 数据取样

对于大型数据集，可以使用 sample() 函数进行数据取样：

sampled_df = df.sample(n=1000)

9.2 内存优化

使用 memory_usage() 函数检查内存使用情况，并使用 astype() 函数优化数据类型：

print(df.memory_usage(deep=True))
df['Column1'] = df['Column1'].astype('int32')

9.3 矢量化操作

矢量化操作是指在操作数组或数据时，通过使用向量化函数（通常是数组级函数）来替代显式的循环，以实现更高效的计算。这种方法利用了底层C、Fortran等语言的高效实现，显著提升了计算速度。

在Pandas中，矢量化操作通常涉及对整个Series或DataFrame进行操作，而不需要显式地遍历每个元素。矢量化操作不仅使代码更简洁、更易读，还能大幅提高数据处理的性能。

使用矢量化操作提高性能，例如使用 apply() 函数进行批量操作：

df['NewColumn'] = df['Column1'].apply(lambda x: x * 2)

以下是一些矢量化操作的示例：

示例1：简单数学运算

假设我们有一个包含销售数量的Series，我们希望将每个销售数量乘以2。

传统方法（使用循环）：

import pandas as pd

# 创建示例数据
sales_quantities = pd.Series([10, 20, 30, 40, 50])

# 使用循环进行操作
doubled_quantities = []
for quantity in sales_quantities:
    doubled_quantities.append(quantity * 2)

doubled_quantities = pd.Series(doubled_quantities)
print(doubled_quantities)

矢量化方法：

# 使用矢量化操作
doubled_quantities = sales_quantities * 2
print(doubled_quantities)

示例2：应用自定义函数

假设我们有一个包含产品价格的DataFrame，我们希望对每个价格应用一个折扣函数。

传统方法（使用循环和apply）：

import pandas as pd

# 创建示例数据
data = {'Product': ['A', 'B', 'C'], 'Price': [100, 200, 300]}
df = pd.DataFrame(data)

# 定义折扣函数
def apply_discount(price):
    return price * 0.9

# 使用apply方法
df['Discounted_Price'] = df['Price'].apply(apply_discount)
print(df)

矢量化方法：

# 使用矢量化操作
df['Discounted_Price'] = df['Price'] * 0.9
print(df)

示例3：条件操作

假设我们有一个包含销售数据的DataFrame，我们希望根据销售额为每个记录添加一个“高销售”标签。

传统方法（使用循环）：

import pandas as pd

# 创建示例数据
data = {'Product': ['A', 'B', 'C'], 'Sales': [150, 300, 450]}
df = pd.DataFrame(data)

# 使用循环进行操作
high_sales_label = []
for sales in df['Sales']:
    if sales > 200:
        high_sales_label.append('High')
    else:
        high_sales_label.append('Low')

df['Sales_Label'] = high_sales_label
print(df)

矢量化方法：

# 使用矢量化操作
df['Sales_Label'] = df['Sales'].apply(lambda x: 'High' if x > 200 else 'Low')
print(df)

性能对比

矢量化操作通常比使用循环快得多，尤其是当数据量较大时。下面是一个简单的性能对比示例：

import pandas as pd
import numpy as np
import time

# 创建大规模示例数据
data = np.random.randint(1, 100, size=1000000)
df = pd.DataFrame(data, columns=['Value'])

# 使用循环进行操作
start_time = time.time()
doubled_values = []
for value in df['Value']:
    doubled_values.append(value * 2)
doubled_values = pd.Series(doubled_values)
print("Loop time:", time.time() - start_time)

# 使用矢量化操作
start_time = time.time()
doubled_values = df['Value'] * 2
print("Vectorized time:", time.time() - start_time)

Loop time: 0.83 seconds
Vectorized time: 0.02 seconds

请注意，具体的时间取决于执行环境和硬件配置，但一般来说，矢量化操作的性能会显著优于显式循环。这个示例展示了在处理大数据集时，矢量化操作可以显著提升性能，通常会快一个数量级甚至多个数量级。使用矢量化操作不仅使代码更加简洁和易读，还能显著提高数据处理的效率。

原文地址：https://blog.csdn.net/weixin_40025666/article/details/140515673

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：设计模式：使用最广泛的代理模式
下一篇：Spring Boot 整合Mybatis-Plus联表分页查询

大数据机器学习算法与计算机视觉应用02：线性规划
在零和博弈中，是概率和对应收益乘积的总和（收益给定），在最大流问题中，是通往终点所有流量的总和。卡马卡方法又被称作内部点方法，它寻找最优解的方法并非从可行域边界的一个顶点出发，而是从可行域内部的一个点
阅读更多2024-11-15
Python学习------第八天
num = int (input("请输入您想存入多少钱：请输入："))print(f"{name},你好，你的余额剩余:{money}元")num = in
阅读更多2024-11-15
【qt】控件
frameGeometry是开始从红圈开始算，Geometry从黑圈算程序证明：使用一个按键，当按键按下,qdebug打印各自左上角的坐标（相当于屏幕左上角），以及窗口大小视频演示：frameGeom
阅读更多2024-11-15
Jupyter notebook如何加载torch环境
Jupyter notebook如何加载torch环境
阅读更多2024-11-15
「QT」文件类之 QDataStream 数据流类
QDataStream是Qt框架中的一个类，它提供了基于Qt数据类型的二进制流接口。通过QDataStream，可以方便地将Qt的基本数据类型（如整型、浮点型、字符串等）以及自定义的Qt对象序列化（即
阅读更多2024-11-15
在vue项目中使用SM4加密登录
在 utils 文件夹中创建 sm4Util.js 文件。
阅读更多2024-11-15
力扣654：最大二叉树
力扣654：最大二叉树。C语言
阅读更多2024-11-15
Linux各种解压命令汇总
最常用的是.tar.gz，原因：linux各种版本标准压缩方式，几乎各大版本可以直接用；【注意】：.tar不是压缩的格式，tar只是按照一定的格式将所有的文件打包在一起。压缩目录tar cf - te
阅读更多2024-11-15
命令行打包Java工程
表示跳过测试可用于指定本地maven仓库路径。
阅读更多2024-11-15
web服务器
web 服务器提供的这些数据大部分都是文件，那么我们需要在服务器端先将数据文件写好，并且放置在某个特殊的目录下面，这个目录就是我们整个网站的首页，在nginx 中，这个目录默认在浏览器是通过你在地址栏
阅读更多2024-11-15

Pandas教程：近万字讲解在Pandas中如何操作Excel

1. 安装与配置

2. 读取Excel文件

2.1 基本用法

2.2 指定工作表

2.3 指定单元格范围

3. 数据检查与预处理

3.1 查看数据的基本信息

3.2 数据类型检查与转换

3.3 检查缺失值

3.4 处理缺失值

4. 数据清洗与转换

4.1 重命名列

4.2 删除重复数据

4.3 数据替换

4.4 数据排序

4.5 数据分组与聚合

5. 数据选择与过滤

5.1 按标签选择

5.2 按位置选择

5.3 布尔索引

5.4 多条件过滤

6. 数据操作

6.1 添加、删除列

6.2 数据框合并

6.3 数据透视表

6.4 交叉表

7. 写入Excel文件

7.1 基本用法

7.2 指定工作表名称

7.3 指定单元格位置

7.4 处理多个工作表

7.5 设置样式和格式

8. 实战项目

8.1 读取真实Excel数据集

8.2 数据清洗与预处理

8.3 数据分析与可视化

8.4 将结果写回Excel文件

9. 性能优化

9.1 数据取样

9.2 内存优化

9.3 矢量化操作

示例1：简单数学运算

示例2：应用自定义函数

示例3：条件操作

性能对比

相关文章