spark shuffle写操作——SortShuffleWriter

🕗 发布于 2024-07-09 06:29 spark 大数据 分布式

写入的简单流程：
1.生成ExternalSorter对象
2.将消息都是插入ExternalSorter对象中
3.获取到mapOutputWriter，将中间产生的临时文件合并到一个临时文件
4.生成最后的data文件和index文件
可以看到写入的重点类是ExternalSorter对象

ExternalSorter

基本功能：对(k,v)进行排序,中间可能存在合并操作,最后生成(k,c)。

使用partitioner对key进行分区
在每个分区中使用Comparator进行排序
输出一个单独的文件,每个分区对应这个文件中的一段范围。

如果禁用了合并操作，类型C必须等于V
这个类的工作流程如下：

使用数据，反复填充内存缓冲区。如果是可以合并的数据，则使用PartitionedAppendOnlyMap；如果不合并，则使用PartitionedPairBuffer。在这些缓冲区中，我们首先按分区ID对元素进行排序，然后可能还会按键进行排序。为了避免对每个键多次调用分区器，我们将分区ID与每条记录一同存储。
当每个缓冲区达到内存限制时，会将其spill到文件中。这个文件首先按分区ID排序，如果需要做聚合操作，其次可能按键或键的哈希码排序。对于每个文件，跟踪每个分区在内存中的对象数量，因此不必为每个元素都写出分区ID。
当用户请求迭代器或文件输出时，溢写的文件会与任何剩余的内存数据一起被合并，使用上述定义的相同排序顺序（除非排序和聚合都被禁用）。如果需要按键进行聚合，我们或者从ordering参数中使用全序，或者读取具有相同哈希码的键并相互比较它们的相等性来合并值。
用户在结束时应调用stop()方法来删除所有中间文件。

缓存buffer：PartitionedAppendOnlyMap、PartitionedPairBuffer
关键方法：insertAll、maybeSpillCollection、spill、writePartitionedMapOutput

PartitionedPairBuffer

capacity 容量
curSize 当前放入的数据量
data 数组，存储的数据，（k,v）占用数组的两个位置

insert

如果容量达到瓶颈就进行扩容。
先存key，再存value。再调用afterUpdate

afterUpdate

numUpdates数据插入/更新次数
nextSampleNum下一次采样的次数
更新numUpdates，如果达到采样次数，执行采样takeSample

takeSample

samples中只存两个样品数据，用来计算每次更新的差值。
采样的时候要移除多余的数据。更新下一次采样的数据量。

estimateSize

预估大小。
最后一个样品的lastSize+bytesPerUpdate*新增的更新次数。

resetSamples

重新进行采样。

growArray

扩容2倍容量，迁移数据，重启采样

partitionedDestructiveSortedIterator

生成比较器comparator，调用sort对缓存的数据进行排序。

sorter是使用TimSort进行排序的。
TimSort介绍： https://zhuanlan.zhihu.com/p/695042849

iterator

用pos计算剩余量。
data(2 * pos)为key，data(2 * pos+1) 为value

PartitionedAppendOnlyMap

存储数据用的数组data，里面的元素是key0, value0, key1, value1, key2, value2…

changeValue

PartitionedAppendOnlyMap插入数据不再是追加，而是有一个相同key合并值的过程。

key是null，返回null，不进行存储
key首次插入，更新data中的对应的kv值
key非首次插入，更新data中合并的的新value
key发生哈希冲突，就向后加1，直到不冲突

update

跟changeValue类似。

growTable

比较简单，就是容量扩大两倍，将旧的kv值重新计算hash插入到新的数组中，如果发生hash冲突就不断向后移动一位。

iterator

核心方法是nextValue，在nextValue中，遍历data数组的对应key值，要求不是null，表明这个位置是有值的。
如果有key为null，要求pos=-1且haveNullValue=true

partitionedDestructiveSortedIterator

调用destructiveSortedIterator方法

destructiveSortedIterator

data数组中元素是分散的，首先将数组中的元素都集中到数组的前面。后面就跟PartitionedPairBuffer的partitionedDestructiveSortedIterator方法一样使用TimeSort进行排序。

采样相关方法

跟上面的PartitionedPairBuffer的采样相关方法一样。

spill相关方法

入口方法是maybeSpillCollection

maybeSpillCollection

不论使用的数据结构是buffer还是map，都是计算消耗的容量，再调用maybeSpill方法，最后重新初始化化对应数据结构。可以想到maybeSpill中就将缓存的数据放到了本地。

maybeSpill

每32条数据就进行一次内存使用情况判断。如果当前使用内存超过了限制，就先申请新的内存，按照两倍的内存使用量申请，不一定申请到足量的内存。申请后还是内存使用超过了限制，就进行spill，调用spill方法，同时调用releaseMemory释放内存。

releaseMemory

spill

调用destructiveSortedWritablePartitionedIterator方法返回排好序的分区迭代器。
调用spillMemoryIteratorToDisk将数据溢写到磁盘上
最后将生成的文件记录到spills中

destructiveSortedWritablePartitionedIterator

调用对应数据结构的partitionedDestructiveSortedIterator方法返回排序的迭代器。
就是上面的PartitionedPairBuffer和PartitionedAppendOnlyMap的partitionedDestructiveSortedIterator方法。

spillMemoryIteratorToDisk

创建临时文件，生成对应的writer

遍历将数据写入的文件中，每10000条进行一次flush。
如果失败了，调用revertPartialWritesAndClose进行回滚。

revertPartialWritesAndClose

如果这次写入出现问题，使用这个方法。回滚写入，只保留截止到上一次写入的内容。

writePartitionedMapOutput

将排好序的缓存和文件合并成一个文件输出。
spills为空，即没有产生排序文件。将缓存中数据生成排好序的迭代器，遍历写入到文件中。

存在排好序的文件。则需要调用partitionedIterator方法将文件数据和缓存的数据进行合并，再遍历输出。

partitionedIterator

调用merge方法合并内存和文件数据

merge

merge的第一个参数是spilled文件，第二个参数是内存缓存的数据。
流程是遍历分区，取出对应分区的spilled文件中和缓存中的数据。
根据情况进行聚合或者排序等操作后输出合并后的排好序的文件。

mergeSort

使用堆排序，但是heap中存放的是已经排好序的iterator。
最小值就是heap中首个iterator中的第一个元素。

mergeWithAggregation

有总排序，这样相同的key会在一起。
调用mergeSort将iterators合并成一个排好序的iterator。
next方法就是遍历key出来全部的值，进行合并后输出，因为是全局有序，不需要遍历iterator全部数据。

没有总排序
跟上面流程类似，先得到合并的iterator，但是它不是全局有序的。存在不同的key在comparator比较下相等，如使用hash进行比较，因此存在 aaabaaa 这种情况的key分布。
在获取相同key对应的值的时候需要遍历iterator的使用comparator和equal进行比较数据，再进行合并。返回值是一个comparator相同有可能key不同的key组成的iterator

原文地址：https://blog.csdn.net/weixin_43839095/article/details/140264608

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Python提取视频文案
下一篇：Conda修改默认环境创建路径

11.15 机器学习-集成学习方法-随机森林
机器学习中有一种大类叫**集成学习**（Ensemble Learning），集成学习的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。# 就是把多个分类器组合起来用每个分类器都
阅读更多2024-11-16
Linux之vim全选，全部复制，全部删除
（区分大小写！！！全部删除：按esc键后，先按gg（到达顶部），然后dG全部复制：按esc键后，先按gg，然后ggyG全选高亮显示：按esc键后，先按gg，然后ggvG或者ggVG单行复制：按esc键
阅读更多2024-11-16
机器学习 ---线性回归
文章主要介绍了线性回归相关内容，包括简单线性回归与多元线性回归的概念及示例，阐述了残差的定义、在理想与非理想模型中的情况及意义，还讲解了线性回归的正规方程解，涵盖其适用场景、公式推导与代码实现，提及衡
阅读更多2024-11-16
机器学习day5-随机森林和线性代数1
在坐标轴上画出对应的点（离散或者连续），如果是离散的点，需要找一条直线使得这些点尽可能多地在这条直线上，或者能够尽可能均匀地分布在这条直线的两边，达到损失值最小的目标，使其尽可能地接近能够进行准确预测
阅读更多2024-11-16
AUTOSAR COM修改PDU发送周期不生效
首先当前是其他PDU都是能正常发送的，且发送的周期都符合通信矩阵DBC中的定义。经过分析是COM模块使能了MDT的周期发送功能，且该I-PDU配置了MDT（即下图中的Minimum Delay Tim
阅读更多2024-11-16
计算机网络：运输层 —— TCP 的 “三次握手” 与 “四次挥手”
TCP是面向连接的协议，它基于运输连接来传送TCP报文段。TCP运输连接的建立和释放，是每一次面向连接的通信中必不可少的过程。TCP运输连接有以下三个阶段：通过“三报文握手”来建立TCP连接。基于已建
阅读更多2024-11-16
数据结构-5.二叉树
本篇博客给大家带来的是二叉树的知识点, 其中包括面试经常会提问的真题 ArrayList 和 LinkedList 的区别 .文章专栏:Java-数据结构若有问题评论区见如果你不知道分享给谁,那就分
阅读更多2024-11-16
NotePad++中安装XML Tools插件
作为开发人员，日常开发中大部的数据是标准的json格式，但是对于一些古老的应用，例如webservice接口，由于其响应结果是xml，那么我们拿到xml格式的数据后，常常会对其进行格式化，以便阅读。。
阅读更多2024-11-16
在 Unix 和类 Unix 操作系统中，信号是一种异步的通知机制，用于通知进程发生了一些特定的事件。
SIGINT：中断信号，通常由Ctrl+C产生。SIGTERM：终止信号，用于优雅地终止进程。SIGKILL：强制终止信号，立即终止进程。SIGHUP：挂断信号，通常由终端会话结束产生。SIGQUIT
阅读更多2024-11-16
常见查找排序算法
printf("元素 %d 在数组中的下标是 %d\n", key, mid);printf("元素 %d 在数组中的下标是 %d\n", key, i);pr
阅读更多2024-11-16

spark shuffle写操作——SortShuffleWriter

ExternalSorter

PartitionedPairBuffer

insert

afterUpdate

takeSample

estimateSize

resetSamples

growArray

partitionedDestructiveSortedIterator

iterator

PartitionedAppendOnlyMap

changeValue

update

growTable

iterator

partitionedDestructiveSortedIterator

destructiveSortedIterator

采样相关方法

spill相关方法

maybeSpillCollection

maybeSpill

releaseMemory

spill

destructiveSortedWritablePartitionedIterator

spillMemoryIteratorToDisk

revertPartialWritesAndClose

writePartitionedMapOutput

partitionedIterator

merge

mergeSort

mergeWithAggregation

相关文章