数据倾斜解决优化方法有哪些？-CDA数据分析师官网

数据倾斜解决优化方法有哪些？

2020-07-02

数据分析时，数据量大不可怕，可怕的是数据倾斜。当出现数据倾斜时，小量任务耗时远高于其它任务，从而使得整体耗时过大，未能充分发挥分布式系统的并行计算优势。下面小编就给大家分享几种数据倾斜优化的方法，希望对大家有所帮助。

一、解决思路

业务逻辑

程序层面

调参方面

二、解决方法

1.针对goupby出现数据倾斜

解决策略是对key值进行加盐处理：

核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，此时原先一样的key就变成不一样的了，接着对打上随机数后的数据，执行sum,count等聚合操作，进行局部聚合。然后将各个key的前缀给去掉，就会变成(hello,2)(hello,2)，再次进行全局聚合操作，就可以得到最终结果了。

方案优点：对于聚合类的shuffle操作导致的数据倾斜，效果是非常不错的。通常都可以解决掉数据倾斜，或者至少是大幅度缓解数据倾斜

方案缺点：仅仅适用于聚合类的shuffle操作，适用范围相对较窄。如果是join类的shuffle操作，还得用其他的解决方案。

2.针对join出现的数据倾斜

方案一：抽样求出引起数据倾斜的key值，进行过滤处理

情景：某张表中数据分布不均，个别key值出现次数占比很大，引起join数据倾斜，例如数据空值或者爬虫IP

处理思路：首先对数据进行抽样，选出key占比较大列表，采取过滤处理，去掉无效值或者加盐等处理，然后先进行局部处理，在整体处理

优点：可以快速解决数据倾斜问题

缺点：应用场景受限，适用于几个key值偏多的情况

方案二：优先使用mapjoin

由于map阶段不会发生数据倾斜，使用mapjoin可以防止数据倾斜，join操作中的表的数据量比较小(比如几百M或者一两G)，比较适用此方案。

方案优点：对join操作导致的数据倾斜，效果非常好，因为根本就不会发生shuffle，也就根本不会发生数据倾斜。

方案缺点：适用场景较少，因为这个方案只适用于一个大表和一个小表的情况。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据倾斜 shuffle 数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇简单理解文本挖掘的定义与过程

下一篇正态分布是什么，有什么特征？

数据倾斜解决优化方法有哪些？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...