Spark-数据共享

🕗 发布于 2024-10-12 05:03 spark 大数据 分布式

广播变量

如果我们要在分布式计算里面分发大的变量数据，这个都会由Driver端进行分发，一般来讲，如果这个变量不是广播变量，那么每个task就会分发一份，这在task数目十分多的情况下Driver的带宽会成为系统的瓶颈，而且会大量消耗task服务器上的资源，如果将这个变量声明为广播变量，那么每个executor拥有一份，这个executor启动的task会共享这个变量，节省了通信的成本和服务器的资源。

减少task线程对应变量的定义，节省内存空间

例：定义广播变量，让进程中的线程共用变量num

# 广播变量
from pyspark import SparkContext


sc  = SparkContext()

num = 10
# 将变量定义成广播变量
b_obj = sc.broadcast(num)

rdd = sc.parallelize([1,2,3,4])

# 转化计算
def func(x):
    # 广播变量无法修改
    # b_obj.value=20
    # 获取广播变量值
    return x+b_obj.value

rdd_map = rdd.map(func)

# 查看数据
res = rdd_map.collect()
print(res)

总结

广播变量将Driver中的变量数据传递到Executor的内存中，让Executor的多个task共用变量值

累加器

避免资源抢占造成的计算错误

例：

# 累加器
from pyspark import SparkContext


sc  = SparkContext()

num = 10
# 将变量定义成累加器
a_obj = sc.accumulator(num)
# 生成rdd
rdd = sc.parallelize([1,2,3,4])

# 对rdd进行计算
def func(x):
    print(x) # 输出rdd中元素数据
    # 对累加器的值进行修改 每次加1
    a_obj.add(1)
    return (x,1)

rdd_map = rdd.map(func)

# 查看数据
res = rdd_map.collect()
print(res)

# 查看累加器的数据
print(a_obj.value)

原文地址：https://blog.csdn.net/weixin_58305115/article/details/142832088

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Spark优化-缓存和checkpoint
下一篇：深度学习论文: Slender Object Detection: Diagnoses and Improvements

【力扣 | SQL题 | 每日3题】力扣1795，1907，1398，602
的客户的 customer_id 和 customer_name，因为我们想推荐他们购买这样的产品。在 store2 无法买到。(requester_id, accepter_id) 是这张表的主键(
阅读更多2024-10-12
408算法题leetcode--第31天
408算法题leetcode--第31天
阅读更多2024-10-12
Vue学习笔记
Vue (读音 /vjuː/，类似于 view) 是一套构建用户界面的渐进式框架vue2vue3什么是构建用户界面：基于数据渲染用户看到的界面什么是渐进式：也就是循序渐进，不一定要学习vue中的所有A
阅读更多2024-10-12
leetcode-301. 删除无效的括号
ps：加入start变量，是为了每次不重复从索引0开始运行，而是按索引顺序往下回溯。3）回溯，先写终止条件；，删除最小数量的无效括号，使得输入的字符串有效。2）写一个函数，用来判断当前字符串是否是有效
阅读更多2024-10-12
Modnet 人像抠图（论文复现）
Modnet 人像抠图（论文复现）
阅读更多2024-10-12
c++map 查找元素和list查找元素速度对比
如果你想比较这两种容器在查找元素上的速度，通常std::map会比std::list快得多。因为std::map的查找操作是平均常数时间复杂度，即O(log n)，而std::list的查找操作是线性
阅读更多2024-10-12
敏感词过滤方案总结
敏感词过滤是一项重要的任务，不同的敏感词过滤方案各有优缺点。在实际应用中，可以根据具体的需求选择合适的敏感词过滤方案。同时，为了提高敏感词过滤的准确性和效率，可以结合多种过滤方案，如字典匹配法和正则表
阅读更多2024-10-12
Android常用布局
Android安卓中常用的布局,基本布局属性，线性布局(LinearLayout)，相对布局(RelativeLayout)，帧布局(FrameLayout)，表格布局(TableLayout)，网格
阅读更多2024-10-12
DBO-BP回归预测 | MATLAB实现DBO-BP蜣螂优化算法优化神经网络多输入单输出回归预测
DBO-BP回归预测 | MATLAB实现DBO-BP蜣螂优化算法优化神经网络多输入单输出回归预测
阅读更多2024-10-12
Redis主从复制机制详解
1、什么是主从复制？2、为什么要使用主从复制？redis-server单点故障。单节点QPS有限。3、主从复制应用场景分析？读写分离场景，规避redis单机瓶颈故障切换，master出问题后还有sla
阅读更多2024-10-12

Spark-数据共享

广播变量

总结

累加器

相关文章