什么是基于真实数据的欺骗-CDA数据分析师官网

什么是基于真实数据的欺骗

2015-12-16

什么是基于真实数据的欺骗

误导是诡辩学派擅用的手段之一，而社交网络在功能上鼓励用户订制信息流，更是推进了偏信行为的普及，人们都倾向于关注自己赞同的对象，最终只会加重信息来源的失衡。

单一媒体的被动灌输，和单一立场的主动接受，其实区别不大。

推荐本文的原因，在于作者通过拆解案例和逻辑推理的方式，证明了那些即使建立在真实数据基础之上的结论，也会因为某种蓄意的技巧而产生欺骗。

以下是正文(我作出了少量措辞上的修改)：

qipian

一、选择性披露

所谓的“选择性披露”就是——有些事实告诉你，但有些不告诉你。

比如说：《新闻联播》里面通常只报道国内的正面新闻，也通常只报道国外的负面新闻——就属于这种手法。

比如2012年12月的同一天，美国康涅狄格州和中国的河南省，都发生了校园惨案。但是中国官方媒体大肆报道美国校园枪击案，却很少提及河南幼儿园的屠杀案。同是校园惨案，国内所发生的，必然要比国外所发生的更与观众有关，但是“厚彼薄此”，就会完全改变节目的传播效果。

孔庆东曾在新浪微博说：

“根据《历史的审判》中最高人民检察院的材料，文革中‘被迫害致死’者3万4千多人。假设这一数字是可靠的，那么平均每年是3千多人。对比一下美国，仅仅因为枪支泛滥，每年致死人数超过3万，等于10个文革。再按照两国人口比例换算，则等于40个文革。”

这段话的谬误在哪儿?

这段话有好几个坑。

开头部分引用的数据(3万4千多人)，很可能就是伪造的(人为缩水的)。连孔庆东自己也底气不足，所以他特地注明了“假设这一数字是可靠的”。因为本文不讨论“造假”，所以这个数字是否伪造，今天暂且不谈。

本章节先谈谈这段话的后半段——美国死于枪支的人数。

在这里，孔庆东使用的，就是“选择性披露”的手法。他只提到美国每年死于枪支的人数超过3万。但是实际上，这3万人里面，超过2万是死于开枪自杀，实际上，即使没有枪支，有心自杀的人也可以通过各种方式来完成自己的决定。孔庆东有意避谈他杀与自杀的比例，就是为了夸大枪支泛滥对于社会伤害的影响，而其高明之处就在于——用的确实是真实数据。

(孔庆东这段话里面，还有另外的谬误，后面的章节会提到)

二、只谈表面现象，不谈深层原因

这种手法，建立在受众对某个领域不够充分了解。于是欺骗者就可以拿表面现象来掩盖深层原因。

比如在中国有很多专家热衷于宣扬“房价长期走高”、“房价只涨不跌”。在这些人的论据里面，其中一个论据是：“大规模城镇化”会引入大量新的“城市住房需求”。

问题出在哪儿呢?

引用英国《金融时报》的一篇报道，是这么来说的：

许多人用城镇人口的增加和需要更新改善的房屋数量来估算住房的“刚需”大数。我们认为，用新增城镇人口来估算城镇化带来的新增住房需求会高估“刚需”。这是因为在新增城镇人口之中，只有一小部分来自城镇户籍人口的自然增长，而百分之四十以上来自于城镇行政区域扩大或变更带来的农村人口划转。这种“行政”性的城镇化意味着新增人口原来就有住宅，而并不是全部都会拆除重建。另外40%多来自于常住非户籍人口的增加，但是这部分人由于购买力低下，绝大部分都无法参与到城镇住房市场(我们假设其中10%的人能买房)，而且因为户籍问题也不能享受社会保障房。

事实上，根据多个商业网站——它们通常比政府机构要更接近真实市场——的数字，中国多个城市的房价下跌已经持续了超过一年。

三、基于不同的统计术语

大部分人都是“统计学”的门外汉，对统计学术语缺乏基础的认识。于是，这就给了某些报告生产机构一次又一次的欺诈机会。

我们可以先来看条段子。

比尔·盖茨长期霸占“世界首富”的宝座之后，IT界出现一个调侃：当比尔·盖茨走进某个普通的酒吧，一瞬间，酒吧里面的所有人都变成亿万富翁(平均数意义上的)。

如果你看不懂这个调侃，我可以解释一下：盖茨的资产是几百亿美金。假设这个酒吧里面不到100人，那么当盖茨进入酒吧后，里面的人均财产至少是数以亿计的美金。

这个段子说明了什么?那就是“平均数”在某些情况下具有很强的误导性(尤其是当某个领域的数据出现严重的分布不均时)。

在统计学上，除了“平均数”这个术语，还有“中位数”和“众数”。当数据的分布极度不均匀时，看“平均数”不如看“中位数”和“众数”。

比如在中国这样一个财富分配严重两极分化的国家，官方发布的一些统计数据——比如人均工资、人均存款——时，更喜欢用“平均数”而不是“中位数”或“众数”。这样就能给出一些“看上去很美”的统计结果。

为了让各位有一个直观的认识，下面有一个虚构的例子：

假设有一家工厂，里面有5个股东，25个经理，70个工头，200个高级技工，250个普通技工，300个实习生。

其中：

股东年收入1000万;

经理年收入50万;

工头年收入10万;

高级技工年收入8万;

普通技工年收入4万;

实习生年收入2万;

对上述人群的收入，平均数是11.94万，中位数是4万，众数是2万，结果相差好几倍。

假设某个地方政府需要上报该工厂的收入情况，那么上报“平均数”就显得非常和谐。而上报“众数”就很不和谐。

更简单的说，“村里有个杨百万，其他个个穷光蛋，要是算起平均数，人人都是万元户”。

四、不恰当的对比——基于不同的前提

对比两个事物的时候，如果前提不同，那么对比就没有意义。但是很多欺骗的手法，恰恰是利用了不同前提的对比。而且在对比的过程中，刻意隐瞒前提的差异性。

上面举了孔庆东的谬论作为反面教材，指出了其中一处谬误。现在来指出另一处谬误。

孔庆东拿“美国死于枪支的人数”来跟“文革造成的非正常死亡人数”作对比。这样的对比是没有意义的。“文革造成的非正常死亡人数”，其性质是“错误政治造成的人道灾难”;而“美国死于枪支的人数”，其中大部分是自杀(和政治无关)，少部分是抢劫或冲突等枪杀案(属于治安犯罪，不属于政治后果)。

另一个案例，是李世默为专制政治体系的辩护。

李世默在TED的演讲上称：根据国际清廉质数(以下简称“TII”)，中国比许多民主国家更清廉。

看到这里，估计有很多读者要哑然失笑了。但是知其然还要知其所以然，除了嘲笑之外，我们仍然需要弄明白的是，为什么中国的TII指标会比某些成熟民主国家更好?猫腻在哪儿?

在这个问题上，不妨直接引用经济学家黄亚生对李世默的反驳，原文摘录如下：

我一直认为用清廉指数来为一个不透明的政治体系辩护是很讽刺的。

下面要讲的是一个基本的观点：在民主国家中的腐败要远远多于我们知道的在那些集权国家中的腐败，因为民主国家按照定义就更透明，并且有更透明的数据。我更相信在民主国家中比较腐败程度，而不是机械的套用在中国与其他民主国家的比较中，这就像李世默所不断重复做的，但从根本上说是有缺陷的。

他的方法混淆了两种效果：一个国家透明程度如何以及一个国家腐败程度如何。我不是说民主国家就一定比中国干净，我说的是李用的数据不能作为得出上述任何一个方向的结论的基本依据。在这个问题上想要得出结论的正确方法是：在给定同样的透明度下(以及同样水平的许多其他指标，比如收入)中国有/没有比民主国家腐败。

一个简单的例子就会阐明这种观点。在2010年，两个印度企业家成立了一个网站叫“我行贿”。这个网站让帖子以匿名的方式张贴印度公民不得不行贿的例子。截止到2012年8月，这个网站记录了20,000起腐败的报告。部分中国网站试着做同样的事情，比如有人创造了“I Made a Bribe”和“522phone.com”，但是这些网站很快就被强行关闭了。正确的结论并不是像李的逻辑所说的——中国比印度更干净，因为他有着零纪录的腐败案例，而印度政府有着20,000起腐败案件。

因此，李世默在刻意忽略“透明指数”的前提下，大谈“腐败指数”的对比，是没有任何意义的。

五、用“纵向对比”替代“横向对比”

前面提到了“横向对比”。这种对比方式的重要前提是“同一时期”。如果少掉这个前提，对比的意义会大打折扣。

比如关于香港公民希望争取普选投票权的事件，香港金融发展局主席查史美伦以美国黑奴为例，说：

“1861年美国解放黑奴，大约100年后，1968年黑人才可获投票权。”

为什么这种对比有失妥当?

因为英国、美国是民主化的先驱，他们没有前人可以借鉴，处于摸索阶段，自然要花比较长的时间。英国从“自由大宪章”到“光荣革命”胜利，当中花了超过400年的时间。

而今，民主化浪潮已经席卷全球，有很多前车之鉴可以供参考，当然不用再花那么长的时间。比如日本二战战败之后，用很短的时间就建立了“君主立宪”的政体。设想一下：如果某个日本官员说“英国搞出君主立宪花了400年，日本也需要花400年”——那岂不是笑话?

六、通过“追加定语”来提升排名

所谓“追加定语”是一种修辞方面的语言技巧。这种技巧如果运用得当，也可以很好地进行忽悠。

比如，2013年嫦娥三号实施登月计划之后，中国主流官方媒体反复强调：中国成为继美国和前苏联之后，第3个实现‘月面软着陆’的国家”。

这个说法本身没有错，但是会给人(尤其是不太了解宇航技术的人)一种强烈的误解，以为中国是第3个登上月球的国家。

其实，以“月面着陆”来计算，中国排在第5位——前面4个分别是：美国、苏联、日本(1990)、印度(2008)。但改为“月面软着陆”这个定语，一下子就挤进前三名啦。

补充说明：欧洲空间局“月面着陆”的时间也早于中国，但是“欧洲”不能算单独的国家。

为了说明“定语”的效果，请你品味如下几句话——体会一下唬人的程度，有何差异。

嫦娥三号成功登月，中国是第3个实现“月面软着陆”的国家。

嫦娥三号成功登月，中国是第5个实现“月面着陆”的国家。

嫦娥三号成功登月，它是第31个在月球软着陆的探测器。

嫦娥三号成功登月，它是第115个月球探测器。

详细的“月球探测器清单”请看维基百科词条，里面的清单包含了所有跟月球相关的探测器(包括“绕月的”和“着陆的”)。

顺便可以科普一些宇航方面的历史，以如今的宇航技术，“月球探测”的难度其实远远小于其它几项(比如：火星探测、彗星探测、小行星探测)。

截止到2014年，成功进行火星任务的机构(按时间顺序)是：俄罗斯的 RSA(俄罗斯空间局)、美国的 NASA(美国宇航局)、欧洲的 ESA(欧洲空间局)、印度的 ISRO(印度空间研究组织)。如果以国家排名(欧洲不算“国家”)，印度排第三(不愧是印度阿三)。值得一提的是：到目前为止，尝试过火星任务的机构，除了印度的 ISRO，其它机构第一次尝试都失败了。

苏联第一次尝试(火星1A号，1960)，失败

美国第一次尝试(水手3号，1964)，失败

日本第一次尝试(希望号，1998)，失败

英国第一次尝试(小猎犬2号，2003)，失败

中国第一次尝试(萤火一号，2011)，失败

苏联和美国的失败，还情有可原——因为上世纪60年代的宇航技术还很粗糙。但是中国和印度的火星任务，时间上很接近(相差2年)，有可比性。

为什么要特别强调印度?因为它的空间技术实力，绝对不可小看。比如说：印度的火星计划，技术都是自己研发，而且成本是全球最低(7400万美元，相当于NASA同时期类似计划的1/10成本)。

如果仅从中国的媒体接受资讯，很难有人能够意识到这一点。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

什么是基于真实数据的欺骗

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...