2023-02-03
阅读量:
2665
数据倾斜是什么?
数据倾斜是开发画像过程中常遇到的问题,当任务执行一直卡在 map 100%、reduce 99%,最后的1%花了几个小时都没执行完 时,这时一般是遇到了数据倾斜。 问题出现的原因是当进行分布式计算时,由于某些节点需要计算 的数据较多,导致其他节点的reduce阶段任务执行完成时,该节点的 任务还没有执行完成,造成其他节点等待该节点执行完成的情况。比 如两张大表在join的时候大部分key对应10条数据,但是个别几个key 对应了100万条数据,对应10条数据的task很快执行完成了,但对应 了100万数据的key则要执行几个小时。
21.8182
2
0
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
1条评论
0条评论
0条评论