自学内容网 自学内容网

Anaconda数据分析清洗常用函数

在数据分析的过程中,数据的清洗和处理是非常重要的一步。利用 Anaconda 中的常用库(如 pandasnumpy)可以高效地完成数据的加载、清洗、处理等操作。以下是 Anaconda 中常用的数据结构和函数,按功能进行整理,以便大家在数据分析与清洗操作中快速参考。


1. 基本数据结构
数据结构描述
pandasSeries一维数据结构,类似于一列数据,带索引。
pandasDataFrame二维数据结构,类似于表格,带行列标签。
numpyndarray多维数组,适合数值计算和矩阵操作。

2. 数据导入与导出
功能函数描述
读取 CSV 文件pd.read_csv(filepath)从 CSV 文件读取数据。
写入 CSV 文件df.to_csv(filepath)DataFrame 写入 CSV 文件。
读取 Excel 文件pd.read_excel(filepath)从 Excel 文件读取数据。
写入 Excel 文件df.to_excel(filepath)DataFrame 写入 Excel 文件。
读取 SQL 数据库pd.read_sql(query, connection)从 SQL 数据库查询并读取数据。

3. 数据清洗
功能函数描述
处理缺失值df.isnull()检查缺失值,返回布尔值 DataFrame
填充缺失值df.fillna(value)用指定值填充缺失数据。
删除缺失值df.dropna()删除包含缺失值的行或列。
删除重复值df.drop_duplicates()删除 DataFrame 中的重复行。
替换值df.replace(to_replace, value)替换数据中的特定值。
更改数据类型df.astype(dtype)转换 DataFrame 的数据类型。
重命名列df.rename(columns={'old': 'new'})重命名 DataFrame 的列。
数据标准化(df - df.mean()) / df.std()数据标准化处理,使均值为 0,方差为 1。
数据归一化(df - df.min()) / (df.max() - df.min())数据归一化到 0-1 之间。

4. 数据选择与过滤
功能函数描述
选择列df['column']df[['col1', 'col2']]选择 DataFrame 的一列或多列。
条件筛选df[df['column'] > value]筛选满足条件的行。
切片选择df.iloc[row, col]通过位置选择数据。
按标签选择df.loc[row_label, col_label]通过行列标签选择数据。
过滤唯一值df['column'].unique()获取列中所有的唯一值。
值计数df['column'].value_counts()统计列中每个值的出现次数。

5. 数据转换
功能函数描述
数据排序df.sort_values(by='column')根据指定列排序。
重置索引df.reset_index(drop=True)重置索引,并删除旧索引。
数据分组df.groupby('column')按列分组数据。
数据聚合df.agg(['mean', 'sum'])对分组数据执行聚合操作。
转换为透视表pd.pivot_table(df, index='col1')DataFrame 转换为透视表。
批量应用函数df.apply(func)DataFrame 的行或列批量应用函数。
数据合并pd.concat([df1, df2])合并多个 DataFrame
数据连接pd.merge(df1, df2, on='column')连接两个 DataFrame,类似 SQL JOIN。

6. 数据可视化(pandas 与 matplotlib)
功能函数描述
折线图df.plot.line()绘制折线图,适合显示时间序列数据。
柱状图df.plot.bar()绘制柱状图,用于类别数据的比较。
直方图df.plot.hist()绘制直方图,用于显示数据分布。
散点图df.plot.scatter(x='col1', y='col2')绘制散点图,适合分析两列之间的关系。
箱线图df.plot.box()绘制箱线图,用于显示数据分布和异常值。

7. 统计与分析
功能函数描述
基本统计df.describe()返回 DataFrame 的基础统计信息。
计算均值df.mean()计算数据的均值。
计算中位数df.median()计算数据的中位数。
计算标准差df.std()计算数据的标准差。
计算最大值df.max()计算数据的最大值。
计算最小值df.min()计算数据的最小值。
计算分位数df.quantile(q=0.75)计算数据的特定分位数。

原文地址:https://blog.csdn.net/weixin_72391681/article/details/143781698

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!