热线电话:13121318867

登录
2023-02-03 阅读量: 2665
数据倾斜是什么?

数据倾斜是开发画像过程中常遇到的问题,当任务执行一直卡在 map 100%reduce 99%,最后的1%花了几个小时都没执行完 时,这时一般是遇到了数据倾斜。 问题出现的原因是当进行分布式计算时,由于某些节点需要计算 的数据较多,导致其他节点的reduce阶段任务执行完成时,该节点的 任务还没有执行完成,造成其他节点等待该节点执行完成的情况。比 如两张大表在join的时候大部分key对应10条数据,但是个别几个key 对应了100万条数据,对应10条数据的task很快执行完成了,但对应 100万数据的key则要执行几个小时。

21.8182
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子