对比 pandas 与 SQL

🕗 发布于 2024-10-05 06:48 pandas sql 数据库

对比 pandas 与 SQL：使用 SQL 实现 pandas 的经典操作

在数据分析中，pandas 和 SQL 都是非常重要的工具。虽然它们工作在不同的环境中（pandas 是 Python 的库，SQL 是查询数据库的语言），但许多操作是相似的。本文将对比 pandas 的经典操作，并展示如何用 SQL 来实现相同的功能。

读取数据

Pandas

import pandas as pd
df = pd.read_csv('data.csv')

SQL

-- 从表中选择所有数据
SELECT * FROM table_name;

选择列

Pandas

df_selected = df[['column1', 'column2']]

SQL

SELECT column1, column2 FROM table_name;

过滤行

Pandas

df_filtered = df[df['column'] > 10]

SQL

SELECT * FROM table_name
WHERE column > 10;

排序数据

Pandas

df_sorted = df.sort_values(by='column', ascending=False)

SQL

SELECT * FROM table_name
ORDER BY column DESC;

分组聚合

Pandas

df_grouped = df.groupby('column').agg({'value_column': 'mean'})

SQL

SELECT column, AVG(value_column) as mean_value
FROM table_name
GROUP BY column;

连接表

Pandas

df_merged = pd.merge(df1, df2, on='key', how='inner')

SQL

SELECT *
FROM table1
INNER JOIN table2
ON table1.key = table2.key;

应用函数

Pandas

df['new_column'] = df['column'].apply(lambda x: x * 2)

SQL

SELECT *, (column * 2) as new_column
FROM table_name;

处理缺失值

Pandas

删除缺失值
```
df_dropna = df.dropna()
```
填充缺失值
```
df_fillna = df.fillna(0)
```

SQL

删除缺失值

SELECT * FROM table_name
WHERE column IS NOT NULL;

填充缺失值

SELECT COALESCE(column, 0) as column
FROM table_name;

添加新列

Pandas

df['new_column'] = df['column1'] + df['column2']

SQL

SELECT *, (column1 + column2) as new_column
FROM table_name;

重命名列

Pandas

df_renamed = df.rename(columns={'old_name': 'new_name'})

SQL

SELECT column as new_name
FROM table_name;

数据类型转换

Pandas

df['column'] = df['column'].astype(float)

SQL

SELECT CAST(column AS FLOAT) as column
FROM table_name;

透视表操作

Pandas

df_pivot = df.pivot_table(index='column1', columns='column2', values='value_column', aggfunc='sum')

SQL

SQL 不直接支持透视操作，但可以使用条件聚合来模拟：

SELECT
  column1,
  SUM(CASE WHEN column2 = 'value1' THEN value_column ELSE 0 END) as value1_sum,
  SUM(CASE WHEN column2 = 'value2' THEN value_column ELSE 0 END) as value2_sum
FROM table_name
GROUP BY column1;

总结

pandas 和 SQL 在数据处理中有许多相似的操作。理解两者之间的对应关系有助于在不同的环境中应用相同的分析技巧。无论是数据筛选、排序、分组聚合还是数据清洗，都可以找到对应的方法来实现。

原文地址：https://blog.csdn.net/weixin_42039453/article/details/142708779

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

十一国庆节，学生们使用打字侠练习键盘指法
国庆节不仅是一个纪念祖国伟大历程的节日，也是学生们自我提升的好时机。通过打字侠练习键盘指法，学生们不仅能够在学习中体验到乐趣，还为未来的学习和工作打下坚实的基础。希望更多的学生能够在这个假期里，利用打
阅读更多2024-10-05
实战OpenCV之轮廓检测
轮廓检测，是指在图像中找到物体边缘的过程。这些边缘通常代表物体的外部边界或者内部结构的重要特征。通过检测这些轮廓，我们可以获取关于物体形状、大小和位置等有价值的信息。在OpenCV中，我们可以通过cv
阅读更多2024-10-05
图解大模型计算加速系列：vLLM源码解析3，Prefix Caching
当一个物理块没有任何逻辑块引用时（例如一个seq刚做完整个推理），这时它理应被释放。
阅读更多2024-10-05
C++中，如何使你设计的迭代器被标准算法库所支持。
DListNodeIterator : _DList正向迭代器，继承于。下面是_DList源码，最后修改于2024-10-01。std::iterator : 标准库读写迭代器。_DList ：是一个
阅读更多2024-10-05
idea2023-快速搭建一个本地tomcat的javaWeb项目（从0到1保姆教学）
idea创建javaweb项目，配置tomcat
阅读更多2024-10-05
手把手教你使用ECharts绘制金字塔结构图
大家好，今天我将为大家分享一篇关于如何使用ECharts绘制金字塔结构图的教程。ECharts是一款功能强大的图表库，可以轻松实现各种数据可视化效果。接下来，让我们一步步来学习如何绘制金字塔结构图。
阅读更多2024-10-05
认知杂谈96《反人性与顺人性》
举个例子来说，假如你知晓同事最近家里发生了一些事情，心情不太舒畅，那么在与他沟通工作的时候，你就可以多一些理解和耐心，而不是仅仅盯着工作结果不放。在这个过程中，我们不能仅仅关注自己的成长，还必须深刻理
阅读更多2024-10-05
手机使用技巧：8 个 Android 锁屏移除工具 [解锁 Android]
有时候，您会被锁定在自己的 Android 设备之外，而且似乎不可能重新进入。一个例子就是你买了一部二手手机，后来发现无法使用。另一种情况是你忘记了屏幕锁定密码和用于验证密码的 Google 帐户凭据
阅读更多2024-10-05
回执单识别-银行回单识别API-文字识别OCR API
银行回单识别接口简单高效易集成，只需要上传银行回单照片即可自动识别、提取银行回单上的文字信息，该接口一班由第三方接口来实现，例如翔云等平台，银行回单识别接口现已被广泛应用于企业财务管理、金融机构、电子
阅读更多2024-10-05
Java报错输出的信息究竟是什么？
相信看到这里，你会发出疑问，什么是栈帧呢？虚拟机栈中放入的栈帧到底是个什么东西呢？栈帧是虚拟机栈的基本存储单元，主要是由三部分组成：用于存放方法的参数和局部变量。这些变量在方法执行过程中会被频繁访问，
阅读更多2024-10-05

对比 pandas 与 SQL

对比 pandas 与 SQL：使用 SQL 实现 pandas 的经典操作

目录

读取数据

Pandas

SQL

选择列

Pandas

SQL

过滤行

Pandas

SQL

排序数据

Pandas

SQL

分组聚合

Pandas

SQL

连接表

Pandas

SQL

应用函数

Pandas

SQL

处理缺失值

Pandas

SQL

添加新列

Pandas

SQL

重命名列

Pandas

SQL

数据类型转换

Pandas

SQL

透视表操作

Pandas

SQL

总结

相关文章