hive 统计各项目下排名前5的问题种类

🕗 发布于 2024-11-16 06:20 hive

实现指定某项目下的数据效果图如下所示：
在这里插入图片描述
其中 ABCDE 为前5名的问题种类，其中A问题有124个（出现了124次）

数据说明：

整个数据集包含很多项目
一个项目包含很多问题
一个问题选项可认为是类别值，所有出现的问题都落在这些类别范围内

需求梳理：前5名的排名依据于问题数量，而不是按照某字段排序，而问题数量是按照项目 + 问题分组后统计的数量。

分步处理：
1.先分组统计，查询数据（屏蔽真实表和字段，但逻辑不变）

select 
   项目
   , 问题
   ,count(*) as num
 from 表
 GROUP BY 项目, 问题

结果：
在这里插入图片描述
可以看到上述部分截图中有3个项目，分别是 0001/0009/0002，
其中前2行和后2行都是项目 0001的数据，表示它下面的4个问题种类以及统计数量。

2.把上述结果作为一张逻辑表，按照其中的数量字段使用开窗函数降序排序：

SELECT * FROM 
(
    SELECT 项目, 问题, 数量
    ,row_number() over(partition BY 项目 order by 数量 desc) as rn 
    FROM 
    (
    select 
            项目
            , 问题
            ,count(*) as 数量
          from 表名
          GROUP BY 项目, 问题
    ) x
) x8c

结果如下所示：这是项目 0001 下排名前10的问题 + 数量
在这里插入图片描述
项目0004的数据。。

到这一步，我们得到了每个项目下的所有问题，并且问题按数量倒序排名，还差最后一步：每个项目，只取排名前5的问题数据。

其实，我们只需要在上一步的sql 中加上 where 条件过滤即可：
where 排名 <= 5 FYI: 根据业务相应调整。

SELECT * FROM 
(
    SELECT 项目, 问题, 数量
    ,row_number() over(partition BY 项目 order by 数量 desc) as rn 
    FROM 
    (
    select 
            项目
            , 问题
            ,count(*) as 数量
          from 表名
          GROUP BY 项目, 问题
    ) x
) x8c
where rn <= 5

在这里插入图片描述

原文地址：https://blog.csdn.net/csdnfanguyinheng/article/details/143787669

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Excel单元格中自适应填充多图
下一篇：软间隔支持向量机支持向量的情况以及点的各种情况

[NewStarCTF 2023]include 0。0--详细解析
使用php伪协议时要考虑目标服务器是否开启了相关配置。php://filter有很多变种，目前还不是很熟悉这个伪协议，明天总结一下。
阅读更多2024-11-18
Ubuntu22.04LTS 部署前后端分离项目
（1）将dist上传到云服务器，如我的路径是/home/fcty/frontend/dist这样。（3）将编写好的配置文件复制到对应的/etc/nginx/sites-enabled/下，（2）编写
阅读更多2024-11-18
externally-managed-environment
系统范围：使用 APT。隔离环境：使用虚拟环境或pipx。当前用户：使用--user参数。希望这篇文章能帮助你解决报错问题，并成功完成模块安装！
阅读更多2024-11-18
CTFHub-hate_php
用取反操作，发现环境限制，也不行。利用通配符来匹配文件路径。不能用定义变量的做法。
阅读更多2024-11-18
ThinkPHP中使用ajax接收json数据的方法
在ThinkPHP框架中，使用AJAX接收JSON数据通常涉及前端和后端的交互。前端通过AJAX发送JSON数据到后端，后端控制器接收并处理这些数据，然后可能返回一些响应数据。
阅读更多2024-11-18
计算机网络学习笔记——第一章、概述
学习计算机网络的笔记
阅读更多2024-11-18
基于isSpring的PPT转换
打开 ispring SDK 编辑器，编辑器文件目录默认为 C:\Program Files\iSpring\Platform Ultimate 8\PPT Conversion SDK\CodeBu
阅读更多2024-11-18
flume对kafka中数据的导入导出、datax对mysql数据库数据的抽取
抽取trans_info.json的数据到kafka上，对其中的tr_flag=0的数据进行过滤抛弃，只保留正常的状态数据在pom.xml中放入依赖包：使用java代码，自定义拦截器：@Overrid
阅读更多2024-11-18
基于Kafka2.1解读Consumer原理
Producer的逻辑是把消息往外发，所以Sender运行的越快，client这边为了维护batch而消耗的资源（内存和CPU越少）；而如果Consumer也这么干，实际消费速度赶不上fetch速度的
阅读更多2024-11-18
【开源免费】基于Vue和SpringBoot的私人健身与教练预约管理系统（附论文）
基于java技术、springboot框架、B/S机构、Mysql数据库设计并实现了私人健身与教练预约管理系统。系统主要包括首页，个人中心，用户管理，教练管理，健身项目管理，项目分类，教练信息管理，教
阅读更多2024-11-18

hive 统计各项目下排名前5的问题种类

相关文章