八个大数据忽悠问题-CDA数据分析师官网

热线电话：13121318867

八个大数据忽悠问题

2015-10-28

八个大数据忽悠问题

现在做销售、市场的人如果不懂得数据分析，用数据说话那真是落伍了。没见很多企业领导开口就是“拿数据给我看，没有数据我怎么做决策啊?”。可见数据分析在当今的企业管理中占据做非常重要的地位，并且数据分析师也是未来十年最有前途的十大职业之一。

先看一个利用数据忽悠人的案例：

在美国和西班牙交战期间，美国海军的死亡率是千分之九，而同时期纽约居民的死亡率是千分之十六。后来海军征兵人员就用这些数据来证明参军更安全。你认为这个结论正确吗?当然不正确，这两个数字根本就是不匹配的，当兵的都是身强力壮的年轻人，而居民的死亡率是包括老弱病残的数据，这些人相对来说，死亡率是高的。所以正常应该是用同年龄段的海军数据和纽约居民来对比。

其实你发现9‰和16‰根本就不具有可对比性。

企业管理人员对“假”数据是深恶痛疾。原因不言而喻：“假数据”造成资源浪费，决策失误，贻误战机等等。简单总结一下“有问题数据”的几个方面，帮助大家早日练成火眼金睛。需要提醒大家的是“有问题的数据”并不代表一定是“假”的数据，因为有的数据是真的，但是结论确实“假”的。常见的利用数据来误导大家的情况有以下几种：

一、随意制造“假”的数据来忽悠客户或消费者

请原谅我用了“制造”这个动词。

这种情况随处可见，对于某些人或组织来说，数据的严肃性根本就是一句空话，他们是要什么数据就编什么数据，他们的名字叫”编“委。对于这种情况，我们一定要多问几个为什么，问清楚数据源就可以了。记住“无数据(源)就没有真相”。比如报纸的发行量永远是世界上最难解的谜题，我也不知道答案，我只知道：

1、媒体自己公布的发行量实际上是他们的最高发行记录，一般来讲大家习惯去掉“最高”二字

2、当年某些报纸为了创造最高发行量，直接把报纸从印刷厂拉倒垃圾站，这种情况是公然而无耻的作假，后被禁止

大家看看这句话中的数字是否有错误：公司业务员小强有24个客户，4月不重复客户购买比率为78%(备注:不重复客户购买比例=有订单的客户总数/总客户数)。答案是错误的，因为永远算不出来78%这个数据。

二、定向取值问题

这种一种具有隐蔽性和欺骗性的手段。何为定向取值?就是先假定一个结论，然后选取最利于这个结论的人群进行市场调查或研究，最后号称这个规律或结论具有普遍性。比如平均工资，我要让他高，就去写字楼访问，我要让他低，那就如劳务市场吧!这种方法是一种骗人的伎俩，要不得，可是很多人非常热衷!

把这种方法用到极致的是市场调查公司或某些政府机关。比如某年某地区说要在半年内将房价降价多少以上，半年以后他们真的做到了，可是老百姓并没有感到房价下降的趋势，为什么呢?原来他们玩了个数字游戏，半年前的样本是城区的房价平均，半年后加上了郊区的房价后取平均。

大部分市场调查公司是定向取值的热衷者。很多企业的老板会要求市调公司按照他们的结论来采样调查，然后用这个数据去做广告、公关，欺骗消费者。有些公司的调查数据是真的(即调查的样本数足够多，且没有定向选取调查对象)，但结论却是假的。因为企业也可以定向取结论。比如(此事例是为了说明问题，假设的数据，千万不要当真)，比如某种牙膏宣传：使用该品牌的牙膏后将使蛀牙减少23%，这个数据是市场调查后的数据。当然这个数据对你一定是有诱惑力的。因为你认为减少的反义词就是没减少!可你是否知道他的背后有可能是这样的：23%的人蛀牙减少，40%的人没有任何反应，37%的人蛀牙反而增多了(只是这种可能性不大)。

三、田忌赛马

田忌赛马的故事大家想必都听说过，利用田忌赛马来误导的情况也是比较多见的。看一个例子，2010年底某知名B2C网站搞了一个“全民疯抢”活动，活动结束后，某人在微博上写道：就成交数据看，在大促四日里的日均交易额已经远远超过了09年度国美、苏宁和百联三家线下大卖场的总和日均销售额。就这句话来说是没有问题的，错在前后数据没有可对比性，用自己促销时的最大值和别人的常规日销售来做对比，这样的对比没有任何意思。这个就好像刘翔参加残奥会比赛得了冠军又能如何?根本就不是一个组别。

再来看一组数据：2010年12月20日到12月26日电影《非诚勿扰2》和《让子弹飞》的周票房分别为2.4亿和2.1亿(备注：非2是12月22日上市，让是12月16日上市)。从这两个数据是否我们可以得出这样的结论：“非2”票房大大超越“让”的票房。从纯数据的角度来说，实际上这两个数据没有可对比性，不匹配。因为12.20-12.26是“非2”上影的第一周，是“让”上影的第二周。正常大片的票房高点都是在第一周。如果我们单看他们第一周的票房数据：让上市第一周4天票房共2.9亿，平均每天0.7亿，非2上影前5天票房2.4亿，平均票房约0.5亿元，“让”票房反而高很多!

田忌赛马实际上就是在选择数据的结论。数据的匹配性是我们时刻都需要提防的，这方面是极易犯错误的，有时候我们看起来非常合理的对比也有可能是非常不合理的。

四、数据分析的系统误差

数据分析有的时候是人为因素影响，有的时候还可能有系统误差出现。举说来说：假设人事部要在一个公司内部调查一下大家对新来的总经理的看法，选项有五个：非常喜欢、喜欢、没感觉、不喜欢、非常不喜欢。要求匿名投票。收回选票后结果如下：非常喜欢25%，喜欢40%，没感觉20%，不喜欢10%，非常不喜欢5%。由于是匿名投票你可能认为这个数据没问题了吧(假设没有拍马屁的现象)。的回答是不一定。因为很可能还有很多员工根本就没有投票。他们不投票的原因有可能是不知道该调查或忙没来得及投票等，还有就是这些弃权票很可能都是要投“不喜欢”的人，他们不想表达自己的真实想法，所以他们有“目的”的放弃了投票。想想联合国大会的弃权票吧，有点这个意思的吧。另外如果这个调查的五个选项改成如下排序：非常不喜欢、不喜欢、没感觉、喜欢、非常喜欢。还是刚才投完票的那些人来投，结果可能不一样哦!

五、眼见为虚、图表的忽悠

如果上面的几点还不能忽悠你，那再来个数据加图表，双重忽悠。让你觉得有图有真相。看看下面这两张图，你喜欢那张?

发现不同了吗?其实上面两张图的数据源一模一样，市场占有率都是从05年的23.5%增长到2010年24.8%，仅仅增长了1.3%。第一张图初一看市场占有率增长得气势如虹，第二张毫无亮点!有些公司更缺德，把左边的数据比率还給隐藏起来，名为保护公司机密!如果那样你就彻底被忽悠了。

对某些人来说，这两张图各有用处，比如第一张可以給消费者看，可以夸大公司的市场占有率，第二张在向董事局要钱的时候給董事们看，说明市场占有率增长不大，需要投入!当你需要骂人的时候第二张也可以给下属看。当然这是开玩笑，Y轴的值一般EXCEL会自动调整，不过也可以人为调整，但如果调整过大(比如本例)就一定要醒目的标注出来，否则就有误导之嫌!

六、预设结论

这个好理解，就是先有结论后用数据来证明这个结论。比如下面这个砖家的分析，为了去匹配国家提出的65岁退休年龄他也是蛮拼的：

再看一个预设结论的案例，继续上图。这是早几年微博疯传的一张图，原题为“我终于发现1-9的秘密”。

这个“秘密”就是1有一个角，2有两个角，3有三个角......依此类推。这就是预设结论的典范。其中4有4个角我勉强能接受，7有7个角怎么讲?还有最奇葩的是9，为了证明9有9个角作者也是蛮拼的。

其实，我们很多企业领导人有时候会无意识的犯预设结论的毛病(有意识的预设结论就不说了)。比如某天领导对下属说：小王，你看看这个月销售不好是不是会员复购率低的原因?这算轻度的预设结论吧，下属会朝着你指明的复购率去找问题。

重度预设结论是那种领导?比如在年底是，老板对小王说了：小王，你分析分析明年我们的目标能完成10亿吗?这算暗示吗?这是明示啊。你放心，“懂事”的小王一定会去想办法证明这10亿目标的合理性，可是苦了的就是下面那些卖命的兄弟们。

七、算也算不清楚的各种率

据说离婚率前三位城市是北京39%，上海38%，深圳36%(数据来源于新闻媒体)。仔细一查，发现这个离婚率公式是这样的：离婚率=离婚数/结婚总数，乍一看，没有任何问题。2010年的离婚率就是2010年离婚数除以2010年结婚数?错了!不是苹果对苹果!2010年离婚的人和结婚的人根本就不是一个概念。这样计算的结果不但毫无可信度，而且还給被广大人民群众造成误解!目前媒体上有关离婚率的数字应该都是这样计算出来的。

那怎样计算离婚率呢?我们可以将上面的公式修改一下就可以了。2000年结婚人群在2010年的离婚率=2000年结婚且2010年离婚总数/2000年的结婚总数。顺便说一下，如果我们对2000年结婚人群每年都计算一个离婚率的话，你还可以分析是否有七年之痒存在。

很多零售企业每个月都会计算退货率，实际上和离婚率是一个概念，需要分门别类才能正确的计算出来的。

八、“如果...那么...”忽悠法

这种忽悠方法常存在于一些创业公司或者骗子公司中。常用句式是“如果全国人民每人给我一分钱，那我就是10亿富翁了”，大家是不是很熟悉这种忽悠套路?

进化版：中国有13亿人口，其中我们产品的目标人群占30%，如果其中有20%的人购买我们的产品，每人消费100块的话。那我们的销售额就能做到近100亿，所以说这个市场规模很大，我们有很大的机会!

还有这个，春节期间只2天时间微信便绑定个人银行卡2亿张。若30%的人发100元红包，共形成60亿元的资金流动，延期一天支付，民间借贷目前月息2%，每天保守收益就420万元，若30%的用户没选择领取现金，那么其账户可以产生18亿元的现金沉淀，无利息成本(via@数据观)

如果你们注意一下，目前我们很多微商是很流行这种忽悠术。

数据障眼法很多，特别是在中国这个盛产山寨和骗子的地方，所以各位，还是擦亮自己的眼睛吧。祝你早日练成火眼金睛。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

八个大数据忽悠问题

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 证书：银行招聘中的 “黄金通行证” ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略 ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

【CDA干货】Power Query 中实现移动加权平均的详细 ...

数据驱动营销革命：解析数据分析在网络营销中的核心 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

八个大数据忽悠问题

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 证书：银行招聘中的 “黄金通行证” ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略​​​​ ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

【CDA干货】Power Query 中实现移动加权平均的详细 ...

数据驱动营销革命：解析数据分析在网络营销中的核心 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA 数据分析师证书考取全攻略 ...