自学内容网 自学内容网

Polars 的 DataFrame

聚合 (Aggregation)
  • agg(): 对DataFrame中的列进行聚合操作。
  • sum(): 计算列的总和。
  • mean(): 计算列的平均值。
  • max(): 找到列中的最大值。
  • min(): 找到列中的最小值。
    例子:
import polars as pl
df = pl.DataFrame({
    "a": [1, 2, 3],
    "b": [4, 5, 6]
})
# 计算每列的总和
sums = df.sum()
print(sums)
# 计算每列的平均值
means = df.mean()
print(means)
属性 (Attributes)
  • columns: 返回DataFrame中的列名列表。
  • dtypes: 返回DataFrame中每列的数据类型。
  • height: 返回DataFrame中的行数。
  • shape: 返回DataFrame的形状(行数,列数)。
    例子:
# 获取DataFrame的列名
columns = df.columns
print(columns)
# 获取DataFrame的数据类型
dtypes = df.dtypes
print(dtypes)
# 获取DataFrame的形状
shape = df.shape
print(shape)
计算 (Compute)
  • apply(): 对DataFrame中的每一行或列应用一个函数。
  • filter(): 根据条件过滤DataFrame中的行。
    例子:
# 应用函数到每一列
df_applied = df.apply(lambda col: col * 2)
print(df_applied)
# 过滤行
df_filtered = df.filter(pl.col("a") > 1)
print(df_filtered)
描述性 (Descriptive)
  • describe(): 提供DataFrame的统计摘要。
  • head(): 返回DataFrame的前几行。
  • tail(): 返回DataFrame的最后几行。
    例子:
# 获取DataFrame的统计摘要
description = df.describe()
print(description)
# 获取前两行
head = df.head(2)
print(head)
# 获取最后两行
tail = df.tail(2)
print(tail)
导出 (Export)
  • to_csv(): 将DataFrame导出为CSV文件。
  • to_parquet(): 将DataFrame导出为Parquet文件。
    例子:
# 导出为CSV
df.to_csv("data.csv")
# 导出为Parquet
df.to_parquet("data.parquet")
分组 (Groupby)
  • groupby(): 对DataFrame进行分组操作。
  • pivot(): 对DataFrame进行透视操作。
    例子:
# 按列'a'分组并计算每组的总和
grouped_sum = df.groupby("a").sum()
print(grouped_sum)
# 透视操作
pivot_df = df.pivot("a", values="b", aggregation="sum")
print(pivot_df)
选择 (Selection)
  • select(): 选择DataFrame中的列。
  • filter(): 根据条件选择行。
    例子:
# 选择列'a'和'b'
selected_df = df.select([pl.col("a"), pl.col("b")])
print(selected_df)
# 根据条件选择行
filtered_df = df.filter(pl.col("b") > 4)
print(filtered_df)
操作 (Operations)
  • with_column(): 向DataFrame添加或替换列。
  • with_columns(): 向DataFrame添加多个列。
    例子:
# 添加新列
df_with_col = df.with_column(pl.col("a") * 2)
print(df_with_col)
# 添加多个新列
df_with_cols = df.with_columns([
    pl.col("a") * 2,
    pl.col("b") - 1
])
print(df_with_cols)
杂项 (Miscellaneous)
  • clone(): 克隆DataFrame。
  • drop(): 删除列。
  • fill_null(): 填充空值。
    例子:
# 克隆DataFrame
df_clone = df.clone()
print(df_clone)
# 删除列
df_dropped = df.drop("a")
print(df_dropped)
# 填充空值
df_filled = df.with_column(pl.col("a").fill_null(0))
print(df_filled)
Plot
  • line_chart(): 绘制线图。
  • bar_chart(): 绘制条形图。
    例子:
# 绘制线图
df.plot.line_chart(x="a", y="b")
# 绘制条形图
df.plot.bar_chart(x="a", y="b")
Style
  • style(): 用于设置DataFrame的显示样式。
    例子:
# 设置DataFrame的显示样式
styled_df = df.style().set_column_names(["Column A", "Column B"]).set_table_styles([{
    "selector": "th",
    "props": [("color", "blue")]
}])
print(styled_df)

以上是DataFrame部分的详细内容和一些基本的使用例子。这些例子展示了如何使用Polars的DataFrame API进行各种数据操作,包括聚合、选择、过滤、分组、导出、绘图和样式设置等。通过这些操作,用户可以有效地处理和分析数据集。请注意,实际使用时可能需要根据具体的数据和需求调整代码。更多高级功能和详细用法,请参考Polars的官方文档。


原文地址:https://blog.csdn.net/weixin_32759777/article/details/142724539

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!