自学内容网 自学内容网

Python-Pandas

Pandas是一个开源的Python数据分析和数据处理库,它提供了大量的数据结构和数据分析工具,特别适合于处理表格数据。

安装

pip install pandas

在使用Pandas之前,需要首先导入Pandas模块。在Python程序中,可以使用import pandas as pd代码来导入Pandas。Pandas提供了两种主要的数据结构:Series和DataFrame。

Series:一维标记数组,类似于带索引的数组。

DataFrame:二维表格型数据结构,包含有序的列和索引。

数据读取和写入

Pandas可以读取和写入各种数据格式,包括CSV文件、Excel文件等。以下是一些常用的数据读取和写入方法:

读取CSV文件:使用pd.read_csv('filename.csv')方法读取CSV文件,其中'filename.csv'是文件的路径和名称。

写入CSV文件:使用DataFrame.to_csv('filename.csv', index=False)方法将数据写入CSV文件。其中index=False表示不写入行索引。

数据选择和操作

Pandas提供了丰富的方法来选择和操作数据,包括切片、过滤、排序等。以下是一些常用的数据选择和操作方法:

选择列:使用DataFrame['column_name']来选择DataFrame中的一列数据。

过滤数据:使用布尔索引来选择满足条件的数据。例如,DataFrame[DataFrame['column_name'] > value]会选择'column_name'列中值大于'value'的行。

排序数据:使用DataFrame.sort_values(by='column_name', ascending=True)方法对数据进行排序。其中by参数指定排序的列,ascending参数指定排序方式(True为升序,False为降序)。

数据统计和分析

Pandas还提供了数据统计和分析的功能,包括描述性统计、分组聚合等。以下是一些常用的数据统计和分析方法:

描述性统计:使用DataFrame.describe()方法生成描述性统计信息,包括均值、标准差、最小值、最大值等。

分组聚合:使用DataFrame.groupby('column_name').agg(function)方法对数据进行分组并应用聚合函数。其中groupby方法用于指定分组的列,agg方法用于指定聚合函数(如均值、求和等)。

 常用方法

pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, ...):读取CSV文件。

pd.read_excel(io, sheet_name=0, header=0, ...):读取Excel文件。

DataFrame.to_csv(path_or_buf, sep=',', columns=None, ...):将数据写入CSV文件。

DataFrame.to_excel(excel_writer, sheet_name='Sheet1', index=True, ...):将数据写入Excel文件。

DataFrame.loc[row_labels, column_labels]:基于标签选择数据。

DataFrame.iloc[row_slicer, column_slicer]:基于位置选择数据。

DataFrame.drop(labels, axis=0, ...):删除行或列。

DataFrame.add(other, axis='columns', ...):加法操作。

DataFrame.sub(other, axis='columns', ...):减法操作。

DataFrame.mul(other, axis='columns', ...):乘法操作。

DataFrame.div(other, axis='columns', ...):除法操作。

DataFrame.describe(include='all', percentiles=None, ...):生成描述性统计信息。

DataFrame.groupby(by=None, axis=0, level=None, ...):对数据进行分组。

DataFrame.agg(func, axis='columns', *args, **kwargs):应用聚合函数。

DataFrame.mean(axis=None, skipna=None, numeric_only=None, ...):计算均值。

DataFrame.sum(axis=None, skipna=None, numeric_only=None, ...):计算总和。

DataFrame.info(verbose=None, null_counts=True, ...):输出DataFrame的基本信息。

DataFrame.head(n=5):返回前n行数据。

DataFrame.tail(n=5):返回后n行数据。

DataFrame.isnull():检查数据是否为空(NaN)。

DataFrame.dropna(axis=0, how='any', thresh=None, ...):删除包含空值的行或列。

DataFrame.fillna(value=None, method=None, axis=None, ...):填充空值。


原文地址:https://blog.csdn.net/weixin_52394366/article/details/142796793

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!