pyspark统计指标计算

🕗 发布于 2024-02-22 18:34 spark 分布式 大数据 数据库 python

下面介绍如何使用pyspark处理计算超大数据的统计指标，主要为：最大值、最小值、均值、方差、标准差、中位数、众数、非重复值等。

# 加载稽核数据
rd_sql = f"select * from database.table"
spark_data = spark.sql(rd_sql)

# 计算众数 由于spark 2.4版本未内置相关函数 需要自定义
import pyspark.sql.functions as F
# 自定义mode的计算
def sparkdf_mode(df, cols):
    # 构建一个空数据框
    mode_df = pd.DataFrame()
    # 循环每一列
    for col in cols:
        # 先过滤空值
        filtered_df = df.filter(F.col(col).isNotNull())
        # 加个判断 防止数据全空置时报错
        if filtered_df.count()>0:
            # 统计出现次数 排序
            grouped_counts = filtered_df.groupBy(col).count().orderBy(F.col("count").desc())
            # 获取计数值最大的第一行
            first_row = grouped_counts.first()
            # 转sparkdf
            pdf = spark.<

原文地址：https://blog.csdn.net/LLMUZI123456789/article/details/136235264

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：如何提升外贸网站的竞争力？
下一篇：使用ChatGPT写论文的10大分步润色技巧

医学数据分析实训项目十基于深度残差神经网络的皮肤癌检测
皮肤镜图像是检查皮肤癌黑色素瘤的主要手段。本实践项目通过构建深度残差神经网络提取皮肤镜图像的高维特征，使用残差学习防止网络梯度退化，降低网络训练的难度，实现黑色素瘤的有效识别。实践项目所使用的数据集由
阅读更多2024-09-20
提升工作效率，引领编程新时代
&emsp;&emsp;&emsp;&emsp;---
阅读更多2024-09-20
滑动窗口(7)_串联所有单词的字串
滑动窗口(7)_串联所有单词的字串,困难级别题目?思路对照样秒AC!!!
阅读更多2024-09-20
Redis性能测试redis-benchmark
你可以获取 Redis 的性能数据，帮助优化配置和硬件资源。如果有特定的场景或命令需要测试，可以详细说明，我可以提供更具体的建议！会输出每个命令的吞吐量（请求每秒）和其他性能指标。这些指标可以帮助你了
阅读更多2024-09-20
ChartLlama: A Multimodal LLM for Chart Understanding and Generation论文阅读
多模态大型语言模型在大多数视觉语言任务中表现出令人印象深刻的表现。但是，该模型通常缺乏对特定域数据的理解能力，尤其是在解释图表图片时。这主要是由于缺乏相关的多模态指令微调数据集。在本文中，我们利用 G
阅读更多2024-09-20
react hooks--useMemo
相当于计算属性!!!useMemo实际的目的也是为了进行性能的优化。◼ 如何进行性能的优化呢？ useMemo返回的也是一个 memoized（记忆的）值； 在依赖不变的情况下，多次定义的时候，
阅读更多2024-09-20
zookeeper向管控平台上报状态
report_status_to_zookeeper() 方法二：第一个 worker 进程上报如果你希望使用第一个工作进程来上报状态，而不是主进程，可以使用进程 ID 来判断： import os
阅读更多2024-09-20
深蓝学院-- 量产自动驾驶中的规划控制算法小鹏
来源：深蓝学院：《量产自动驾驶中的规划控制算法》
阅读更多2024-09-20
加密与安全_三种常见的注入攻击
注入攻击是指攻击者通过传递恶意数据，将这些数据当作代码在目标系统中执行。这类攻击的本质是数据与代码的边界被打破，导致数据被误执行。SQL注入（SQL Injection）：攻击者通过恶意构造的SQL语
阅读更多2024-09-20
Prompt最佳实践｜如何用参考文本让ChatGPT答案更精准？
想象一下，你正在参加一个烹饪比赛，而你的目标是制作出世界上最美味的蛋糕。尽管你对烹饪充满热情，你却不知道那个秘密配方。这时，组织者给了你一个选择：使用一本包含世界顶级糕点师秘密配方的烹饪书。这本书正是
阅读更多2024-09-20

pyspark统计指标计算

相关文章