Spark练习json文件-统计问答数据

🕗 发布于 2024-10-10 22:05 spark 大数据 分布式

题目

准备数据

分析数据

实现数据

总结

题目

计算不同分类的问题数量
统计问题中的热搜词，并获取top10的热搜词

准备数据

将数据上传到hdfs上

分析数据

读取数据

from pyspark import SparkContext
import json
import jieba

sc = SparkContext()

# 读取hdfs数据
rdd = sc.textFile('hdfs://node1:8020/data/baike_qa_valid.json')

对每行的json字符串转换为字典

# 对每行的json字符串转为字典
rdd_dict = rdd.map(lambda x:json.loads(x))
print(rdd_dict.take(1))

第一问:计算不同分类的问题数量

# 计算不同分类的问题数量
rdd_kv = rdd_dict.map(lambda x:(x['category'],1)).reduceByKey(lambda x,y:x+y)

res3 = rdd_kv.collect()
print(res3)

第二问:统计问题中的热搜词，并获取top10的热搜词

1-对title中的数据分词

# # 1-对title中的数据分词
rdd_cut = rdd_dict.map(lambda x:list(jieba.cut(x['title'])))
print(rdd_cut.take(10))

2-将这些数据合并成一个单一的序列

# # 2-将这些数据合并成一个单一的序列
rdd_flatmap = rdd_cut.flatMap(lambda x:x)
print(rdd_flatmap.take(20))

3-只保留长度大于1的单词

# # # 3-筛选条件,只保留长度大于1的单词
rdd_filter = rdd_flatmap.filter(lambda x:len(x)>1)
print(rdd_filter.take(10))

4-将每个单词转换成键值对

# # 4-将每个单词转换成键值对
rdd_map = rdd_filter.map(lambda x:(x,1))
print(rdd_map.take(10))

5-对键值对进行聚合

# # 5-对键值对进行聚合
rdd_reduce = rdd_map.reduceByKey(lambda x,y:x+y)
print(rdd_reduce.take(10))

6-对最后的数据进行排名,取出top10

# # 6-对数据进行排序
rdd_sort = rdd_reduce.sortBy(lambda x:x[1],ascending=False)
print(rdd_sort.take(10))

实现数据

第一种:一步一步分开写

from pyspark import SparkContext
import json
import jieba

sc = SparkContext()

# 读取hdfs数据
rdd = sc.textFile('hdfs://node1:8020/data/baike_qa_valid.json')

# 对每行的json字符串转为字典
rdd_dict = rdd.map(lambda x:json.loads(x))

# 计算不同分类的问题数量
rdd_kv = rdd_dict.map(lambda x:(x['category'],1)).reduceByKey(lambda x,y:x+y)


# # 对title中的数据分词
# # 1-对title中的数据分词
rdd_cut = rdd_dict.map(lambda x:list(jieba.cut(x['title'])))
# print(rdd_cut.take(10))
# # 2-将这些数据合并成一个单一的序列
rdd_flatmap = rdd_cut.flatMap(lambda x:x)
# print(rdd_flatmap.take(20))
# # # 3-筛选条件,只保留长度大于1的单词
rdd_filter = rdd_flatmap.filter(lambda x:len(x)>1)
# print(rdd_filter.take(10))
# # 4-将每个单词转换成键值对
rdd_map = rdd_filter.map(lambda x:(x,1))
# print(rdd_map.take(10))
# # 5-对键值对进行聚合
rdd_reduce = rdd_map.reduceByKey(lambda x,y:x+y)
# print(rdd_reduce.take(10))
# # 6-对数据进行排序
rdd_sort = rdd_reduce.sortBy(lambda x:x[1],ascending=False)
print(rdd_sort.take(10))

第二种:通过链式操作

from pyspark import SparkContext
import json
import jieba

sc = SparkContext()

# 读取hdfs数据
rdd = sc.textFile('hdfs://node1:8020/data/baike_qa_valid.json')

# 对每行的json字符串转为字典
rdd_dict = rdd.map(lambda x:json.loads(x))

# 计算不同分类的问题数量
rdd_kv = rdd_dict.map(lambda x:(x['category'],1)).reduceByKey(lambda x,y:x+y)


# 统计问题中的热搜词，并获取的热搜词
# 对title中的数据分词
rdd_jieba = (rdd_dict.
             map(lambda x:list(jieba.cut(x['title']))).
             flatMap(lambda x:x).
             filter(lambda x:len(x)>1).
             map(lambda x:(x,1)).
             reduceByKey(lambda x,y:x+y).
             sortBy(lambda x:x[1],ascending=False))
#
# # 查看读取的数据

res3 = rdd_kv.collect()
print(res3)

res4 = rdd_jieba.take(10)
print(res4)

总结

因为数据量过大,所以使用collect()将会出现下面错误,可以使用take(),只查看前几条

原文地址：https://blog.csdn.net/weixin_58305115/article/details/142823074

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【JavaScript】JavaScript同步任务、异步任务（宏任务和微任务）
下一篇：爬虫post请求

Java基础（下）
如果说大家研究过框架的底层原理或者咱们自己写过框架的话，一定对反射这个概念不陌生。反射之所以被称为框架的灵魂，主要是因为它赋予了我们在运行时分析类以及执行类中方法的能力。通过反射你可以获取任意一个类的
阅读更多2024-10-11
基于ollama搭建本地大模型，保姆级教程手把手教会你
• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式
阅读更多2024-10-11
如何通过OpenCV实现图像融合拼接？
图像融合是将拼接后的图像进行平滑过渡，以消除拼接痕迹的过程。为了解决大尺寸图像拼接的问题，可以采用分块拼接的方法，将大尺寸图像分成若干小块进行拼接，然后再将小块拼接成完整的图像。然而，由于图像的光照、
阅读更多2024-10-11
路由通信的 VLAN技术
MTK76X8、MTK7621、MT7981和QCA9531都可以考虑使用VLAN技术，解决网络架构问题。
阅读更多2024-10-11
通用大模型之智能家居控制：智能AI冰箱
2.结合OCR视觉识别食物，帮助记录出食物的存放时间和保鲜时期，APP食物过期提醒。传统电冰箱采用压缩机制冷，制冷原理简单直接，功耗高，除了制冷保险无任何科技。1.结合传统技术、新科技技术能力，保留自
阅读更多2024-10-11
Excel电子表格基本知识点汇总
方法：光标放在要存放结果的单元格——击“插入〞菜单——击“FX函数〞选择统计——选择“COUNT〞——击“确定〞——击DATA-ARRY框右边的红键头折叠按钮——选择数据区域——按回车键——击BIN-
阅读更多2024-10-11
前缀和算法——优选算法
前缀和是指从数组的起始位置到某一位置（或矩阵的某个区域）的所有元素的和。这种算法通过预处理数组或矩阵，计算出每个位置（或区域）的前缀和，并将其存储在一个额外的数组或矩阵中，以便在后续查询中可以快速获取
阅读更多2024-10-11
毕业设计选题：基于php+vue+uniapp的新闻资讯小程序
新闻资讯的设计主要是对系统所要实现的功能进行详细考虑，确定所要实现的功能后进行界面的设计，在这中间还要考虑如何可以更好的将功能及页面进行很好的结合，方便用户可以很容易明了的找到自己所需要的信息，还有系
阅读更多2024-10-11
工信部：2027年完成200万套工业软件更新，明确含WMS，AGV、RGV、自动立体库、自动输送线等控制软件...
导语大家好，我是社长，老K。专注分享智能制造和智能仓储物流等内容。近日，为积极响应国家关于设备更新和技术改造的号召，工业和信息化部精心编制了《工业重点行业领域设备更新和技术改造指南》，这份指南如同一幅
阅读更多2024-10-11
刷题训练之解决最短路径问题
最早博主续写了牛客网130道题，这块的刷题是让同学们快速进入C语言，而我们学习c++已经有一段时间了，知识储备已经足够了但缺少了实战，面对这块短板博主续写刷题训练，针对性学习，把相似的题目归类，系统的
阅读更多2024-10-11

Spark练习json文件-统计问答数据

题目

准备数据

分析数据

实现数据

总结

相关文章