博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Spark调优】聚合操作数据倾斜解决方案
阅读量:5103 次
发布时间:2019-06-13

本文共 926 字,大约阅读时间需要 3 分钟。

【使用场景】

  对RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用group by语句进行分组聚合时,经过sample或日志、界面定位,发生了数据倾斜。

 

【解决方案】

  局部聚合+全局聚合,进行两阶段聚合。具体为:

  将原本相同的key通过附加随机前缀的方式,变成多个不同的key,就可以让原本被一个task处理的数据分散到多个task上去做局部聚合,进而解决单个task处理数据量过多的问题。接着去除掉随机前缀,再次进行全局聚合,就可以得到最终的结果。

  •   第一步:给key倾斜的dataSkewRDD中每个key都打上一个随机前缀。 

  例如10以内的随机数,此时原先一样的key,包括集中倾斜的key就变成不一样的了,比如(hello, 1) (hello, 1) (hello, 1) (hello, 1),就会变成(5_hello, 1) (3_hello, 1) (3_hello, 1) (5_hello, 1) (8_hello, 1) (5_hello, 1) ...  

  •   第二步:对打上随机前缀的key不再倾斜的randomPrefixRdd进行局部聚合。

  接着对打上随机数后的数据,执行reduceByKey等聚合操作,进行局部聚合时,就不会数据倾斜了。此时,第一步局部聚合的结果,变成了(5_hello, 3) (3_hello, 2) (8_hello, 1)

  •   第三步:局部聚合后,去除localAggRdd中每个key的随机前缀。

  此时,第二步局部聚合的结果,变成了(hello, 3) (hello, 2) (hello, 1)

  •   第四步:对去除了随机前缀的removeRandomPrefixRdd进行全局聚合。

  得到最终结果(hello, 6)

 

【方案优点

  对于聚合类的shuffle操作导致的数据倾斜,效果不错,通常都可以解决数据倾斜问题,至少大幅缓解数据倾斜,将Spark作业的性能提升数倍以上。

 

【代码实现】

  代码实现:

  

   

转载于:https://www.cnblogs.com/wwcom123/p/10582146.html

你可能感兴趣的文章
OGRE学习笔记(一)通过例子了解场景管理器---------地形创建
查看>>
51nod 1185 || 51nod 1072 威佐夫博弈
查看>>
DataGridView的行的字体颜色变化
查看>>
java.nio异步线程安全的IO
查看>>
(网上摘抄)云标签
查看>>
记录-时间日期
查看>>
便签:
查看>>
JS function 函数基本定义方法
查看>>
Java再学习——关于ConcurrentHashMap
查看>>
bzoj3944 Sum
查看>>
后缀表达式/逆波兰表达式
查看>>
标准模板库中的优先队列(priority_queue)
查看>>
jQuery验证框架(五)验证器
查看>>
如何处理Win10电脑黑屏后出现代码0xc0000225的错误?
查看>>
局域网内手机访问电脑网站注意几点
查看>>
IT项目经验和难点分享
查看>>
那些黑刘翔的人,你们的良心被狗吃了
查看>>
图片延迟加载(lazyload)的实现原理
查看>>
TreeMap和TreeSet在排序时如何比较元素?Collections工具类中的sort()方法如何比较元素?...
查看>>
Eclipse.技巧
查看>>