什么是基于真实数据的欺骗
误导是诡辩学派擅用的手段之一,而社交网络在功能上鼓励用户订制信息流,更是推进了偏信行为的普及,人们都倾向于关注自己赞同的对象,最终只会加重信息来源的失衡。
单一媒体的被动灌输,和单一立场的主动接受,其实区别不大。
推荐本文的原因,在于作者通过拆解案例和逻辑推理的方式,证明了那些即使建立在真实数据基础之上的结论,也会因为某种蓄意的技巧而产生欺骗。
以下是正文(我作出了少量措辞上的修改):
一、选择性披露
所谓的“选择性披露”就是——有些事实告诉你,但有些不告诉你。
比如说:《新闻联播》里面通常只报道国内的正面新闻,也通常只报道国外的负面新闻——就属于这种手法。
比如2012年12月的同一天,美国康涅狄格州和中国的河南省,都发生了校园惨案。但是中国官方媒体大肆报道美国校园枪击案,却很少提及河南幼儿园的屠杀案。同是校园惨案,国内所发生的,必然要比国外所发生的更与观众有关,但是“厚彼薄此”,就会完全改变节目的传播效果。
孔庆东曾在新浪微博说:
“根据《历史的审判》中最高人民检察院的材料,文革中‘被迫害致死’者3万4千多人。假设这一数字是可靠的,那么平均每年是3千多人。对比一下美国,仅仅因为枪支泛滥,每年致死人数超过3万,等于10个文革。再按照两国人口比例换算,则等于40个文革。”
这段话的谬误在哪儿?
这段话有好几个坑。
开头部分引用的数据(3万4千多人),很可能就是伪造的(人为缩水的)。连孔庆东自己也底气不足,所以他特地注明了“假设这一数字是可靠的”。因为本文不讨论“造假”,所以这个数字是否伪造,今天暂且不谈。
本章节先谈谈这段话的后半段——美国死于枪支的人数。
在这里,孔庆东使用的,就是“选择性披露”的手法。他只提到美国每年死于枪支的人数超过3万。但是实际上,这3万人里面,超过2万是死于开枪自杀, 实际上,即使没有枪支,有心自杀的人也可以通过各种方式来完成自己的决定。孔庆东有意避谈他杀与自杀的比例,就是为了夸大枪支泛滥对于社会伤害的影响,而 其高明之处就在于——用的确实是真实数据。
(孔庆东这段话里面,还有另外的谬误,后面的章节会提到)
二、只谈表面现象,不谈深层原因
这种手法,建立在受众对某个领域不够充分了解。于是欺骗者就可以拿表面现象来掩盖深层原因。
比如在中国有很多专家热衷于宣扬“房价长期走高”、“房价只涨不跌”。在这些人的论据里面,其中一个论据是:“大规模城镇化”会引入大量新的“城市住房需求”。
问题出在哪儿呢?
引用英国《金融时报》的一篇报道,是这么来说的:
许多人用城镇人口的增加和需要更新改善的房屋数量来估算住房的“刚需”大数。我们认为,用新增城镇人口来估算城镇化带来的 新增住房需求会高估“刚需”。这是因为在新增城镇人口之中,只有一小部分来自城镇户籍人口的自然增长,而百分之四十以上来自于城镇行政区域扩大或变更带来 的农村人口划转。这种“行政”性的城镇化意味着新增人口原来就有住宅,而并不是全部都会拆除重建。另外40%多来自于常住非户籍人口的增加,但是这部分人 由于购买力低下,绝大部分都无法参与到城镇住房市场(我们假设其中10%的人能买房),而且因为户籍问题也不能享受社会保障房。
事实上,根据多个商业网站——它们通常比政府机构要更接近真实市场——的数字,中国多个城市的房价下跌已经持续了超过一年。
三、基于不同的统计术语
大部分人都是“统计学”的门外汉,对统计学术语缺乏基础的认识。于是,这就给了某些报告生产机构一次又一次的欺诈机会。
我们可以先来看条段子。
比尔·盖茨长期霸占“世界首富”的宝座之后,IT界出现一个调侃:当比尔·盖茨走进某个普通的酒吧,一瞬间,酒吧里面的所有人都变成亿万富翁(平均数意义上的)。
如果你看不懂这个调侃,我可以解释一下:盖茨的资产是几百亿美金。假设这个酒吧里面不到100人,那么当盖茨进入酒吧后,里面的人均财产至少是数以亿计的美金。
这个段子说明了什么?那就是“平均数”在某些情况下具有很强的误导性(尤其是当某个领域的数据出现严重的分布不均时)。
在统计学上,除了“平均数”这个术语,还有“中位数”和“众数”。当数据的分布极度不均匀时,看“平均数”不如看“中位数”和“众数”。
比如在中国这样一个财富分配严重两极分化的国家,官方发布的一些统计数据——比如人均工资、人均存款——时,更喜欢用“平均数”而不是“中位数”或“众数”。这样就能给出一些“看上去很美”的统计结果。
为了让各位有一个直观的认识,下面有一个虚构的例子:
假设有一家工厂,里面有5个股东,25个经理,70个工头,200个高级技工,250个普通技工,300个实习生。
其中:
股东年收入1000万;
经理年收入50万;
工头年收入10万;
高级技工年收入8万;
普通技工年收入4万;
实习生年收入2万;
对上述人群的收入,平均数是11.94万,中位数是4万,众数是2万,结果相差好几倍。
假设某个地方政府需要上报该工厂的收入情况,那么上报“平均数”就显得非常和谐。而上报“众数”就很不和谐。
更简单的说,“村里有个杨百万,其他个个穷光蛋,要是算起平均数,人人都是万元户”。
四、不恰当的对比——基于不同的前提
对比两个事物的时候,如果前提不同,那么对比就没有意义。但是很多欺骗的手法,恰恰是利用了不同前提的对比。而且在对比的过程中,刻意隐瞒前提的差异性。
上面举了孔庆东的谬论作为反面教材,指出了其中一处谬误。现在来指出另一处谬误。
孔庆东拿“美国死于枪支的人数”来跟“文革造成的非正常死亡人数”作对比。这样的对比是没有意义的。“文革造成的非正常死亡人数”,其性质是“错误 政治造成的人道灾难”;而“美国死于枪支的人数”,其中大部分是自杀(和政治无关),少部分是抢劫或冲突等枪杀案(属于治安犯罪,不属于政治后果)。
另一个案例,是李世默为专制政治体系的辩护。
李世默在TED的演讲上称:根据国际清廉质数(以下简称“TII”),中国比许多民主国家更清廉。
看到这里,估计有很多读者要哑然失笑了。但是知其然还要知其所以然,除了嘲笑之外,我们仍然需要弄明白的是,为什么中国的TII指标会比某些成熟民主国家更好?猫腻在哪儿?
在这个问题上,不妨直接引用经济学家黄亚生对李世默的反驳,原文摘录如下:
我一直认为用清廉指数来为一个不透明的政治体系辩护是很讽刺的。
下面要讲的是一个基本的观点:在民主国家中的腐败要远远多于我们知道的在那些集权国家中的腐败,因为民主国家按照定义就更透明,并且有更透明的数 据。我更相信在民主国家中比较腐败程度,而不是机械的套用在中国与其他民主国家的比较中,这就像李世默所不断重复做的,但从根本上说是有缺陷的。
他的方法混淆了两种效果:一个国家透明程度如何以及一个国家腐败程度如何。我不是说民主国家就一定比中国干净,我说的是李用的数据不能作为得出上述 任何一个方向的结论的基本依据。在这个问题上想要得出结论的正确方法是:在给定同样的透明度下(以及同样水平的许多其他指标,比如收入)中国有/没有比民 主国家腐败。
一个简单的例子就会阐明这种观点。在2010年,两个印度企业家成立了一个网站叫“我行贿”。这个网站让帖子以匿名的方式张贴印度公民不得不行贿的 例子。截止到2012年8月,这个网站记录了20,000起腐败的报告。部分中国网站试着做同样的事情,比如有人创造了“I Made a Bribe”和“522phone.com”,但是这些网站很快就被强行关闭了。正确的结论并不是像李的逻辑所说的——中国比印度更干净,因为他有着零纪 录的腐败案例,而印度政府有着20,000起腐败案件。
因此,李世默在刻意忽略“透明指数”的前提下,大谈“腐败指数”的对比,是没有任何意义的。
五、用“纵向对比”替代“横向对比”
前面提到了“横向对比”。这种对比方式的重要前提是“同一时期”。如果少掉这个前提,对比的意义会大打折扣。
比如关于香港公民希望争取普选投票权的事件,香港金融发展局主席查史美伦以美国黑奴为例,说:
“1861年美国解放黑奴,大约100年后,1968年黑人才可获投票权。”
为什么这种对比有失妥当?
因为英国、美国是民主化的先驱,他们没有前人可以借鉴,处于摸索阶段,自然要花比较长的时间。英国从“自由大宪章”到“光荣革命”胜利,当中花了超过400年的时间。
而今,民主化浪潮已经席卷全球,有很多前车之鉴可以供参考,当然不用再花那么长的时间。比如日本二战战败之后,用很短的时间就建立了“君主立宪”的政体。设想一下:如果某个日本官员说“英国搞出君主立宪花了400年,日本也需要花400年”——那岂不是笑话?
六、通过“追加定语”来提升排名
所谓“追加定语”是一种修辞方面的语言技巧。这种技巧如果运用得当,也可以很好地进行忽悠。
比如,2013年嫦娥三号实施登月计划之后,中国主流官方媒体反复强调:中国成为继美国和前苏联之后,第3个实现‘月面软着陆’的国家”。
这个说法本身没有错,但是会给人(尤其是不太了解宇航技术的人)一种强烈的误解,以为中国是第3个登上月球的国家。
其实,以“月面着陆”来计算,中国排在第5位——前面4个分别是:美国、苏联、日本(1990)、印度(2008)。但改为“月面软着陆”这个定语,一下子就挤进前三名啦。
补充说明:欧洲空间局“月面着陆”的时间也早于中国,但是“欧洲”不能算单独的国家。
为了说明“定语”的效果,请你品味如下几句话——体会一下唬人的程度,有何差异。
嫦娥三号成功登月,中国是第3个实现“月面软着陆”的国家。
嫦娥三号成功登月,中国是第5个实现“月面着陆”的国家。
嫦娥三号成功登月,它是第31个在月球软着陆的探测器。
嫦娥三号成功登月,它是第115个月球探测器。
详细的“月球探测器清单”请看维基百科词条,里面的清单包含了所有跟月球相关的探测器(包括“绕月的”和“着陆的”)。
顺便可以科普一些宇航方面的历史,以如今的宇航技术,“月球探测”的难度其实远远小于其它几项(比如:火星探测、彗星探测、小行星探测)。
截止到2014年,成功进行火星任务的机构(按时间顺序)是:俄罗斯的 RSA(俄罗斯空间局)、美国的 NASA(美国宇航局)、欧洲的 ESA(欧洲空间局)、印度的 ISRO(印度空间研究组织)。如果以国家排名(欧洲不算“国家”),印度排第三(不愧是印度阿三)。值得一提的是:到目前为止,尝试过火星任务的机构, 除了印度的 ISRO,其它机构第一次尝试都失败了。
苏联第一次尝试(火星1A号,1960),失败
美国第一次尝试(水手3号,1964),失败
日本第一次尝试(希望号,1998),失败
英国第一次尝试(小猎犬2号,2003),失败
中国第一次尝试(萤火一号,2011),失败
苏联和美国的失败,还情有可原——因为上世纪60年代的宇航技术还很粗糙。但是中国和印度的火星任务,时间上很接近(相差2年),有可比性。
为什么要特别强调印度?因为它的空间技术实力,绝对不可小看。比如说:印度的火星计划,技术都是自己研发,而且成本是全球最低(7400万美元,相当于NASA同时期类似计划的1/10成本)。
如果仅从中国的媒体接受资讯,很难有人能够意识到这一点。
数据分析咨询请扫描二维码
必备的职业技能 统计学基础 - 理解概率、假设检验、回归分析等统计概念。 - 运用统计方法对数据进行分析和解读。 编程能力 - 掌 ...
2024-11-27基础课程 - 统计学基础: 统计学是数据分析的基石,包括概率、假设检验、回归分析等基本知识。这有助于分析师更好地理解数据背后 ...
2024-11-27数据分析领域涉及众多工具软件,涵盖了从数据处理、分析到可视化的各个方面。在选择适合自己需求的工具时,需要考虑数据规模、分 ...
2024-11-27在数据分析领域,选择合适的工具至关重要。不同的软件适用于不同的需求和技能水平。以下是几款值得考虑的数据分析软件: - Table ...
2024-11-27数据分析中常用的Excel与Python函数公式涵盖了广泛的应用场景。掌握这些基础和高级技巧对于成为一名优秀的数据分析师至关重要。 ...
2024-11-27Python是一种高级编程语言,由荷兰程序员Guido van Rossum于1989年圣诞节期间开始开发,并于1991年首次发布。Python的设计哲学强 ...
2024-11-27课程内容 数学基础: 高等数学、线性代数、概率论与数理统计、微积分等为算法设计和数据分析打下基础。 编程与算法: 掌握 ...
2024-11-27爬虫工程师是互联网时代中至关重要的职业之一,他们的工作内容主要涉及编写和维护网络爬虫程序,进行数据采集与清洗,设计系统架 ...
2024-11-27技能需求 数据管理与建模 - 掌握SQL、HiveQL、Spark SQL等数据库语言,进行复杂数据查询和分析。 - 使用数据建模工具如ER/Studio ...
2024-11-27技术技能 - 编程技能 - 掌握SQL、Python、R语言等编程工具是基本要求,可用于数据提取、清洗和分析。 - 数据分析与建模技能 ...
2024-11-27财务数据分析职业展望 - 需求激增: 随着企业信息化和数字化进程的加速,财务数据产生和积累速度急剧增长,推动了财务数据分析需 ...
2024-11-27技术技能 数学与统计技能:数据分析师需要具备扎实的数学基础,包括统计学、概率论、多变量微积分和线性代数等知识,以帮助理 ...
2024-11-27选择适当的工具和软件 选择恰当的工具对于创建出色的数据分析图表至关重要。Excel提供强大的数据可视化功能,R语言的ggplot2包 ...
2024-11-27初级市场分析师在工作中面临着重要任务之一:评估竞争对手的表现。这项工作不仅有助于描绘行业竞争格局,还能帮助企业发现自身的 ...
2024-11-27基础知识的建立 要想在数据分析领域脱颖而出,首先需要打好坚实的基础。 数据分析的基础知识十分重要,其中包括统计学、概率论、 ...
2024-11-27# 要学习Python数据分析 掌握Python基础知识 - 首先需要掌握Python的基础知识,包括基本语法、数据结构(如列表、元组、字典等) ...
2024-11-27学数据分析能在什么单位工作 数据分析的就业领域概述 数据分析专业毕业生广泛应用于各行各业,包括但不限于以下单位: 政府机关 ...
2024-11-27想学数据分析需要学哪些课程 数据分析学习路径推荐 基础课程: 统计学: 统计学作为数据分析的基石,涵盖概率论、描述性统计、 ...
2024-11-27# 现在什么行业发展前景最好 **人工智能与机器学习** - 人工智能技术快速发展,广泛应用于智能家居、自动驾驶等领域。 - 具备巨 ...
2024-11-27# 未来最有前景的行业 **人工智能与机器学习** - 人工智能被认为是未来最具潜力的行业之一,其应用范围广泛,包括智能家居、医 ...
2024-11-27