Polars 的 DataFrame

🕗 发布于 2024-10-07 15:16 python pandas 数据分析

DataFrame

聚合 (Aggregation)

agg(): 对DataFrame中的列进行聚合操作。
sum(): 计算列的总和。
mean(): 计算列的平均值。
max(): 找到列中的最大值。
min(): 找到列中的最小值。
例子：

import polars as pl
df = pl.DataFrame({
    "a": [1, 2, 3],
    "b": [4, 5, 6]
})
# 计算每列的总和
sums = df.sum()
print(sums)
# 计算每列的平均值
means = df.mean()
print(means)

属性 (Attributes)

columns: 返回DataFrame中的列名列表。
dtypes: 返回DataFrame中每列的数据类型。
height: 返回DataFrame中的行数。
shape: 返回DataFrame的形状（行数，列数）。
例子：

# 获取DataFrame的列名
columns = df.columns
print(columns)
# 获取DataFrame的数据类型
dtypes = df.dtypes
print(dtypes)
# 获取DataFrame的形状
shape = df.shape
print(shape)

计算 (Compute)

apply(): 对DataFrame中的每一行或列应用一个函数。
filter(): 根据条件过滤DataFrame中的行。
例子：

# 应用函数到每一列
df_applied = df.apply(lambda col: col * 2)
print(df_applied)
# 过滤行
df_filtered = df.filter(pl.col("a") > 1)
print(df_filtered)

描述性 (Descriptive)

describe(): 提供DataFrame的统计摘要。
head(): 返回DataFrame的前几行。
tail(): 返回DataFrame的最后几行。
例子：

# 获取DataFrame的统计摘要
description = df.describe()
print(description)
# 获取前两行
head = df.head(2)
print(head)
# 获取最后两行
tail = df.tail(2)
print(tail)

导出 (Export)

to_csv(): 将DataFrame导出为CSV文件。
to_parquet(): 将DataFrame导出为Parquet文件。
例子：

# 导出为CSV
df.to_csv("data.csv")
# 导出为Parquet
df.to_parquet("data.parquet")

分组 (Groupby)

groupby(): 对DataFrame进行分组操作。
pivot(): 对DataFrame进行透视操作。
例子：

# 按列'a'分组并计算每组的总和
grouped_sum = df.groupby("a").sum()
print(grouped_sum)
# 透视操作
pivot_df = df.pivot("a", values="b", aggregation="sum")
print(pivot_df)

选择 (Selection)

select(): 选择DataFrame中的列。
filter(): 根据条件选择行。
例子：

# 选择列'a'和'b'
selected_df = df.select([pl.col("a"), pl.col("b")])
print(selected_df)
# 根据条件选择行
filtered_df = df.filter(pl.col("b") > 4)
print(filtered_df)

操作 (Operations)

with_column(): 向DataFrame添加或替换列。
with_columns(): 向DataFrame添加多个列。
例子：

# 添加新列
df_with_col = df.with_column(pl.col("a") * 2)
print(df_with_col)
# 添加多个新列
df_with_cols = df.with_columns([
    pl.col("a") * 2,
    pl.col("b") - 1
])
print(df_with_cols)

杂项 (Miscellaneous)

clone(): 克隆DataFrame。
drop(): 删除列。
fill_null(): 填充空值。
例子：

# 克隆DataFrame
df_clone = df.clone()
print(df_clone)
# 删除列
df_dropped = df.drop("a")
print(df_dropped)
# 填充空值
df_filled = df.with_column(pl.col("a").fill_null(0))
print(df_filled)

Plot

line_chart(): 绘制线图。
bar_chart(): 绘制条形图。
例子：

# 绘制线图
df.plot.line_chart(x="a", y="b")
# 绘制条形图
df.plot.bar_chart(x="a", y="b")

Style

style(): 用于设置DataFrame的显示样式。
例子：

# 设置DataFrame的显示样式
styled_df = df.style().set_column_names(["Column A", "Column B"]).set_table_styles([{
    "selector": "th",
    "props": [("color", "blue")]
}])
print(styled_df)

以上是DataFrame部分的详细内容和一些基本的使用例子。这些例子展示了如何使用Polars的DataFrame API进行各种数据操作，包括聚合、选择、过滤、分组、导出、绘图和样式设置等。通过这些操作，用户可以有效地处理和分析数据集。请注意，实际使用时可能需要根据具体的数据和需求调整代码。更多高级功能和详细用法，请参考Polars的官方文档。

原文地址：https://blog.csdn.net/weixin_32759777/article/details/142724539

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：JavaScript 中的变量作用域
下一篇：速盾：如何判断高防服务器的防御是否真实？

GE VMIVME-5588 高速反射存储器
需要注意的是，数据开始在先进先出设备中累积的唯一途径是数据进入节点的速度超过 29.5 Mbyte/s，冗余模式下超过 14.8 Mbyte/s。然后与来自 VME 总线的访问进行仲裁，并将数据写入节
阅读更多2024-10-09
Rethinking the Localization in Weakly Supervised ObjectLocalization
弱监督对象定位中的再思考
阅读更多2024-10-09
头歌实践教学平台大数据编程实训答案（三）
MapReduce是一种可用于数据处理的编程模型，我们现在设想一个场景，你接到一个任务，任务是：挖掘分析我国气象中心近年来的数据日志，该数据日志大小有3T,让你分析计算出每一年的最高气温，如果你现在只
阅读更多2024-10-09
Android 解锁工具的主题：适用于所有安卓手机的 5 款安卓解锁工具
在当今互联互通的世界里，移动设备的安全至关重要。然而，用户可能会因为忘记密码、屏幕损坏或其他不可预见的问题而无法使用 Android 设备。为了满足这一需求，出现了各种 Android解锁工具，它们提
阅读更多2024-10-09
八款主流图纸加密软件强力推荐｜2024年图纸加密软件最佳选择！
安秉网盾是一款专为企业设计的信息安全管理工具，通过透明加密技术确保设计图纸、源代码等敏感文件在创建、编辑和保存过程中的自动加密。在2024年，随着设计图纸的数字化趋势愈加明显，企业和个人设计师必须选用
阅读更多2024-10-09
The legacy JS API is deprecated and will be removed in Dart Sass 2.0
The legacy JS API is deprecated and will be removed in Dart Sass 2.0警告修复
阅读更多2024-10-09
政府购买服务指导性目录，集中采购目录，政府采购品目分类目录，有什么区别与联系？
政府购买服务指导性目录，集中采购目录，政府采购品目分类目录，有什么区别与联系
阅读更多2024-10-09
Cpp::STL—list类的模拟实现(上)(13)
注意本篇难度偏高，其主要体现在迭代器类的实现！什么，list类的迭代器还要单独封装成类！？还真是，毕竟它的元素存储在物理意义上不是连续的正文开始！本篇暂时就先介绍两个类，剩下最后一个list类我们下篇
阅读更多2024-10-09
车辆重识别（2021NIPS无分类器扩散指南）论文阅读2024/10/08
那么对于随机采样的这一时间步，对于这一时间步的网络优化也是参数更新一次就再随机采样下一个时间步吗？还是前一个随机采样的时间步的网络参数彻底优化完全，再对下一随机的时间步进行处理？λ是给出的参数，就像去
阅读更多2024-10-09
Java | Leetcode Java题解之第464题我能赢吗
Java | Leetcode Java题解之第464题我能赢吗
阅读更多2024-10-09