2023_Spark_实验九：编写WordCount程序（Scala版）

🕗 发布于 2024-09-27 06:48 spark scala 大数据

需求：

1、做某个文件的词频统计//某个单词在这个文件出现次数

步骤：

文件单词规律（空格分开）
单词切分
单词的统计（k,v）->(k:单词，V：数量）
打印

框架：

单例对象，main()
创建CONF
创建SC-->读取文件的方式--》RDD
RDD进行处理
闭资源关

一、新建object类取名为WordCount

2、编写如下代码

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
    def main(args: Array[String]): Unit = {
        System.setProperty("hadoop.home.dir","D:\\hadoop\\hadoop-2.8.0")
        val sparkConf= new SparkConf().setAppName("WordCount").setMaster("local") //设置为本地模式

        val sc = new SparkContext(sparkConf)
        sc.setLogLevel("WARN")
        val resultArray = sc.textFile(path = "file:///d:/temp/a.txt")
            .flatMap(_.split(" "))
            .map((_,1))
            .reduceByKey(_+_)
            .collect()
        resultArray.foreach(println )
        sc.stop()
    }

}

3、本地运行，查看运行结果如下：

解决无法下载spark与打包插件的办法

maven打包插件与spark所需依赖下载地址：

链接：百度网盘请输入提取码

提取码：jnta

解决步骤：

到网盘下载maven打包插件与spark依赖，网盘吗中的内容如下：

将下载的插件plugins.rar解压，并复制插件文件夹到你本地maven仓库下
将下载的spark依赖spark.rar解压，并复制spark文件夹到你本地maven仓库下
重启idea，重新build下工程

将下载的插件plugins.rar解压，并复制插件文件夹到你本地maven仓库下

将下载的spark依赖spark.rar解压，并复制spark文件夹到你本地maven仓库下

重启idea，重新build下工程

原文地址：https://blog.csdn.net/pblh123/article/details/142577595

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：堆的数组实现
下一篇：详解 Spring Boot 的 RedisAutoConfiguration 配置

大数据机器学习算法与计算机视觉应用02：线性规划
在零和博弈中，是概率和对应收益乘积的总和（收益给定），在最大流问题中，是通往终点所有流量的总和。卡马卡方法又被称作内部点方法，它寻找最优解的方法并非从可行域边界的一个顶点出发，而是从可行域内部的一个点
阅读更多2024-11-15
Python学习------第八天
num = int (input("请输入您想存入多少钱：请输入："))print(f"{name},你好，你的余额剩余:{money}元")num = in
阅读更多2024-11-15
【qt】控件
frameGeometry是开始从红圈开始算，Geometry从黑圈算程序证明：使用一个按键，当按键按下,qdebug打印各自左上角的坐标（相当于屏幕左上角），以及窗口大小视频演示：frameGeom
阅读更多2024-11-15
Jupyter notebook如何加载torch环境
Jupyter notebook如何加载torch环境
阅读更多2024-11-15
「QT」文件类之 QDataStream 数据流类
QDataStream是Qt框架中的一个类，它提供了基于Qt数据类型的二进制流接口。通过QDataStream，可以方便地将Qt的基本数据类型（如整型、浮点型、字符串等）以及自定义的Qt对象序列化（即
阅读更多2024-11-15
在vue项目中使用SM4加密登录
在 utils 文件夹中创建 sm4Util.js 文件。
阅读更多2024-11-15
力扣654：最大二叉树
力扣654：最大二叉树。C语言
阅读更多2024-11-15
Linux各种解压命令汇总
最常用的是.tar.gz，原因：linux各种版本标准压缩方式，几乎各大版本可以直接用；【注意】：.tar不是压缩的格式，tar只是按照一定的格式将所有的文件打包在一起。压缩目录tar cf - te
阅读更多2024-11-15
命令行打包Java工程
表示跳过测试可用于指定本地maven仓库路径。
阅读更多2024-11-15
web服务器
web 服务器提供的这些数据大部分都是文件，那么我们需要在服务器端先将数据文件写好，并且放置在某个特殊的目录下面，这个目录就是我们整个网站的首页，在nginx 中，这个目录默认在浏览器是通过你在地址栏
阅读更多2024-11-15

2023_Spark_实验九：编写WordCount程序（Scala版）

相关文章