数据分析中常犯哪些错误以及如何解决？-CDA数据分析师官网

数据分析中常犯哪些错误以及如何解决？

2016-06-23

数据分析中常犯哪些错误以及如何解决？

在大大小小的数据分析中会因为各种原因犯不同的错误都是哪方面的呢，又如何解决？

错把相关性当成因果性 correlation vs. causation

经典的冰淇凌销量和游泳溺水人数成正比的数据，这并不能说明冰淇凌销量的增加会导致更多的人溺水，而只能说明二者相关，比如因为天热所以二者数量都增加了。这个例子比较明显，说起来可能会有人觉得怎么会有人犯这样的错误，然而在实际生活、学习、工作中，时不时的就会有人犯这样的错误。

举个栗子

数据显示，当科比出手10-19次时，湖人的胜率是71.5%；当科比出手20-29次时，湖人的胜率骤降到60.8%；而当科比出手30次或者更多时，湖人的胜率只有41.7%。

根据这组数据，为了赢球，科比应该少出手？并不一定如此。有可能科比出手少的时候是因为队友状态好，并不需要他出手太多。也有可能是因为球队早早领先，垃圾时间太多。而出手太多的比赛是因为比赛艰难或者队友状态不好，需要他挺身而出。当然，以上也只是可能之一，具体是什么情况光靠这组数据并不能得出任何结论。

幸存者偏差 survivorship bias

数据分析中看到的样本是“幸存了某些经历”才被观察到的，进而导致结论不正确。

比如比尔盖茨、乔布斯、扎克伯格都没有念完大学，所以大家都应该退学去创业。这一结论的最大问题在于那些退学而又没有成功的例子，很多时候我们是看不到的。另一方面，他们是因为牛逼才退学，而不是退学才牛逼的，看，相关性/因果性真是限魂不散。

再比如 Uber 发现新用户有10块钱优惠券，但是平均评价却只有3星。相反，第二次再用的时候没有优惠券了，评价却高达4星半。这说明，不给优惠券用户评价会更高，果然用户虽然爱用优惠券，但内心还是觉得便宜没好东西的？很明显，幸存者偏差在这个例子里体现在那些打一星二星评价的用户，之后可能就没有第二次了。更明显的，这个例子是我瞎扯的。

样本跟整体存在着本质的不同

以知乎为例，会有种错觉人人年薪百万，985/211起，各种GFSBFM，天朝收入水平直逼湾区码工。然而一方面这是幸存者偏差，知乎大V们的发声更容易被看到（看，幸存者偏差也是阴魂不散）。另一方面，不要小瞧知乎跟天朝网民的差别，以及天朝网民跟天朝老百姓的差别–样本跟整体的差别。

类似的例子有水木的工作版块、步行街的收入和华人网站的贫困线。

过于追逐统计上的显著性 statistical significance

统计101告诉我们，要比较两组数是否不同，最基本的一点可以看它们的区别是不是统计上显著。

比如 Linkedin 又要改版了（我为什么要说又呢），有两个版本 A 和 B. 灰度测试发现，跟现有版本比起来，A 的日活比现有版本高20%，但是统计不显著。而 B 的日活跟现有版本虽然只高了3%，但是统计显著。于是 PM 拿出统计101翻到第二页说，来，咱们把统计显著的版本 B 上线吧。苦逼的数据科学家 DS 说，等一下！并不是所有时候都选统计显著的那一个，咱们再看看版本 A 的数据吧（具体分析略过一万字）。

很显然，这个例子也是我瞎扯的。

不做数据可视化，以及更可怕的：做出错误或者带误导性的数据可视化

在趋势图中，为了说明增长趋势多明显，把Y调成不从0开始。这样差距会看起来很大，增长很大，但是如果把Y轴从0开始看的话，会显得基本没有差距。

数据分析提供的结果和建议不具有可行性

twitter通过分析文本数据发现。。。

算了，我编不出来，由此可见，不具有可行性的结果虽然是“理论正确‘的分析结果，然并卵。。。

不做数据分析

别笑，据以前的校内后来的人人现在不知道叫什么的 PM 说，这是真的。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析偏差数据可视化

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析中常犯哪些错误以及如何解决？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...