大数据的承诺和陷阱
舍恩伯格那种放弃因果关系而只考察相关性的思路,与其说是一种进步,倒不如说是一种思维紊乱。因为它不利于我们的下一步预测,也无法采取行动
为什么我们知道的多,困惑却更多?
我们时时刻刻都在预测:太阳会不会照常升起?广州恒大能不能夺得冠军?A股明天会不会大涨?朋友创办的这家公司能不能获得风险投资?……我们也无时无刻不在验证过往的预测,而且往往带有成本和收益,比如赌球、炒股或者创业,结果都会带来正负收益。
在预测和证实(证伪)之间,是我们无意识的信念或精心建构的理论。从笛卡尔到康德,从卡尔·波普到索罗斯,关于我们如何发现规律并作出预测,有无数的研究和哲学探讨。而今天,随着大数据时代的来临,又有很多专家开始反思这个经典的认识论问题,并为之添加谈资和养料。
舍恩伯格是"大数据"概念的著名吹鼓手,其著作《大数据时代》认为,随着人们看待数据的方式的变化—从局部变为全部以及从纯净变为凌乱,思维方式也应该转型,即从因果关系转向相关性。或者说,只要知道"是什么",而不需要知道"为什么"。
他在书中提到这样一个例子:统计学家们用二手车数据建立了一个算法系统,来预测哪些车更可能出现质量问题。相关性分析表明,橙色车出现质量问题的可能性只有其他车的一半。
这是为什么呢?因为橙色车的车主更爱车?橙色车在制造方面更精良?还是因为橙色车更显眼、出车祸的概率更小?不知道,舍恩伯格也认为无须知道。
不过,这种看重相关性而不追究因果关系的思路,其实是不利于预测和下一步行动的。比如,我们是不是应该建议车主把车漆成橙色呢?这样会使车辆减少质量问题吗?不知道。因为橙色和车辆出现质量问题之间的内部关系,我们不清楚。
有个经典的社会学考题是这样的:冰淇淋的销量和强奸案的发生率存在线性关系,即一个增长,另一个也增长。不过,两者之间显然没有因果关系,而只有相关关系。另一个变量,即天气变暖,才是两者之间的真正桥梁。
所以,舍恩伯格这种放弃因果关系而只考察相关性的思路,与其说是一种进步,倒不如说是一种思维紊乱。因为它不利于我们的下一步预测,也无法采取行动。
而新书《信号与噪声》恰好是一针清醒剂。作者纳特·西尔弗认为,在任何一个数据丰富的领域,寻找预测模式都很容易。关键是要分辨出这些模式到底是噪声还是信号。而关于概率运算的贝叶斯定理,仍然是西尔弗推崇的一种预测思路。
他举了天气预报、政治选举预测、地震预测、棋牌游戏、股市、恐怖袭击等多个领域的例子,认为我们对未来的预测,应该基于可能性,以概率的方法思考问题,在不断试错中进步。像天气预报就是这样的典型,比如气象小姐会说,明日降水概率为60%。而且,西尔弗指出,在过去25年里,飓风中心的预测准确率提高了350%,这是其他领域根本无法企及的进步。
试错法,是哲学家卡尔·波普推崇的科学研究方法。而西尔弗发现,一个成功的NBA球赛赌徒也是如此:大胆预测,不断犯错,不断尝试。只要获得新信息,就应该更新自己的预测。
这是一种更加进取的思维方式,又何尝不是一种崭新的生活理念呢?
1440年,约翰内斯·古腾堡发明了印刷机,这项发明使普通民众能方便地了解信息,由此产生的思想洪流带来了前所未有的结果和影响。印刷机的发明点燃了1775年的工业革命之火。这一发明促成了一些历史事件,这些事件开启了欧洲启蒙运动,也加速了美利坚合众国的建立。
印刷机问世的第一个世纪里,书籍的生产规模呈指数型增长,数量增长了近30倍。人类知识旋即进入快速积累期。
信息的增长速度远远超过了人们处理信息和分辨信息的速度。共享信息的不断增长反而加速了民族和宗教的孤立进程。
印刷机的早期使用者中,最狂热的要数那些传播福音的人了。马丁·路德的《九十五条论纲》被古腾堡的印刷机复印了30多万次。路德的新教改革所导致的教会分裂,很快使欧洲陷入了战争。单单一个三十年战争,德国人口就减少了1/3。这堪称人类历史上最血腥的时代。
但就是在这样一个充满战乱的时代,印刷机却悄然推动着科学与文学的进步。
大数据的承诺和陷阱
到了时下,最流行的要数"大数据"了。根据IBM的估计数据,现在我们每天生成的数据高达250兆亿个字节,超过过去两年里生成的数据总量的90%。
信息的指数型增长有时被人们视为万灵药,就好比20世纪70年代出现的计算机一样。《连线》杂志的前主编克里斯·安德森曾经在2008年的一篇文章中说:"数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。"
我认为其内容是积极乐观的,却被严重曲解了。虽然那些数字不能为自己辩护,但我们却可以作为数字的发言人,赋予它们意义。我们可能会以对自己有利的方式对这些数据进行分析和解释,而这些方式很可能与这些数据(所代表)的客观现实不相吻合。数据驱动预测机制可能会成功,也可能会失败。一旦我们否认数据处理过程中存在着主观因素,失败的概率就会增加。
在4年时间里,我对十多个行业和领域中的数据驱动预测机制进行了调查,我也曾与十几个领域中的100多位专家交流过,读过数百篇期刊文章和论文,为了实地调查,我跑遍了从拉斯韦加斯到哥本哈根的许多地方,却发现"大数据"时代的预测活动发展得并不顺利。
新千年给美国人带来的是噩梦般的开始。我们没有预测到"9·11"恐怖袭击事件,而这一惨剧的出现并非因为我们的信息匮乏。正如60年前的"珍珠港事件"一样,其实所有的信号都在那里,只是我们没能将它们联系起来。因为对恐怖分子可能会有的举动不够了解,所以我们对那些数据视而不见,不知道大难将至。
近期,对全球金融危机的预测也总是失败。我们天真地相信各种(预测)模式,却没有认识到这些模式在我们进行假设选择时根本不堪一击,因此总会带来惨痛的后果。在日常生活中,我发现尽管人们也在努力尝试,却仍然无法提早预测出经济衰退。幸好在控制通胀方面,我们已经取得长足进步,否则那些经济决策者就只能"盲目飞行"了。
与20世纪70年代一样,近来人们十分热衷于对地震进行预测,其中大部分高度依赖数学方法和数据处理技术。但是,这些预测只是假想一些从未发生过的地震,对真正发生的那些地震却没有预测到。
错误地预测整个学科的发展常会危及整个社会。以生物医药学的研究为例。2005年,一位土生土长的雅典人,医学研究者约翰·P·埃尼迪斯,发表了一篇颇具争议性的论文—《为什么大多数发表的研究成果都是骗人的》。
这些大数据终将推动社会进步,至于这种进步的速度有多快,或者进步的同时是否还会倒退,这些都取决于我们自己。
人类并没有多少天生的防御能力,人类的速度没有多么快,身体也没有多么强壮;人类没有利爪和尖牙,也没有护身的硬壳;人类不能喷出毒液,不能伪装自己,也不能飞翔。我们之所以能生存下来,是因为我们运用了智慧。
在1970年出版的《未来的冲击》一书中,未来学大师阿尔文·托夫勒对他所说的"信息超负荷"的一些后果进行了预测。他认为,尽管世界本身正走向分化,变得更加复杂,但人类仍会以坚持自身看法的方式使这个世界变得简单,这便是我们的防御机制。
正是出于这个原因,我将预测视为人们共同的事业。虽然预测很难,但解决方法还是有的。
在任何一个数据丰富的领域,寻找模式很容易,一般的预测者也都是这么做的。关键是要分辨出这些模式到底是噪声还是信号。虽然还没有找到关键点,但是有一种思维过程可以帮助我们作决定,这就是贝叶斯定理。
预测和贝叶斯定理
托马斯·贝叶斯,大概于1701年出生。尽管贝叶斯所著图书的种类并不算多,但还是被选为英国皇家学会会员。在英国皇家学会,他担任内部评论家或者智力辩论的裁判员。
贝叶斯的作品《机会的学说概论》,又称《论有关机遇问题的求解》,直到他1763年去世之后,由他的朋友理查德·普莱斯引介到英国皇家学会,引起了学会的注意,随后才得以出版。这部作品主要研究的是,当我们遇到新数据时,该如何使用概率的方法进行推理。
今天公认的贝叶斯定理就是一个普通的不能再普通的数学表达式,是由法国数学家、天文学家拉普拉斯推导出来的:
然而,就是这样一个简单的运算,却可以推导出重大的预测。
贝叶斯定理涉及条件概率,也就是说,一旦发生了某个事件,这一定理就可以告诉我们一种理论或假设是否正确。
假设你和伴侣同住,某天出差回家后发现自己的衣橱里多出一件陌生的内衣。你可能会奇怪:自己的伴侣是不是出轨了?不论你相信与否,对于这样的问题,贝叶斯定理总能给出答案—假如你知道(或愿意预估)下列3个量。
第一,你需要预测出自己的伴侣在出轨的情况下,这件内衣出现的概率。为了解决这个问题,我们暂且假设你是一位女性,而你的伴侣是一位男性,那么,此时我们所说的内衣就是一件女式内衣。如果你的伴侣出轨了,那么很容易想象这件内衣是如何进入你的衣橱的。那么,即使他确实要做对不起你的事,你也希望他能够小心行事。在他确实背叛了你的情况下,我们认为,这件内衣出现的概率是50%。
第二,你需要预测出自己的伴侣在没有出轨的情况下,这件内衣出现的概率。如果他没有出轨,有什么理由证明那件内衣的清白呢?当然有些理由会令人不快(比如这件内衣也有可能是他自己的)。或许,他把衣服搞混了;或者你的伴侣有一位红颜知己,两人之间只存在纯友谊,而你对此也深信不疑,她寄宿一晚忘了带走内衣;或者这就是你的伴侣给你准备的一件礼物,只不过忘了把它包起来。尽管这些理由有些荒谬,但也能说得通。你将这种情况出现的概率定为5%。
第三,这点最为重要,你需要预测贝叶斯定理中所说的先验概率(或者简称先验)。在发现内衣之前,你认为自己的伴侣出轨的概率有多大?当然,现在很难完全客观地考虑这个问题,因为你已经发现了内衣。(在理想状态下,在开始查验证据之前,你就已经算出了先验概率。)但有时我们可以依据经验推断某事件发生的概率。比如,研究发现,已婚夫妇任何一年的出轨概率都在4%左右,所以,我们可以将这个概率视为先验概率。
如果我们算出了以上3个概率值,就可以依据贝叶斯定理得出后验概率:只有29%,这个结果也许看似仍有悖常理—那件内衣果真是清白的吗?但这一概率之所以较低,是因为你把伴侣出轨的先验概率设定得很低。尽管一个清白的男人不能像出过轨的男人那样,能为一件陌生内衣的出现找出很多看似合理的解释,但你一开始就把他当作清白的人,这一点对方程式影响很大。
这里,我还要提到一个比较沉重的例子:"9·11"恐怖袭击事件。2001年9月11日清晨,当我们从梦中醒来时,大部分人都想不到恐怖分子的飞机会撞向曼哈顿世贸中心大楼。但是,世贸中心第一次遭遇袭击之后,我们才意识到这也许是一次恐怖袭击。直到第二座高楼被袭击之后,我们才相信确实遭遇了恐怖袭击。
贝叶斯定理可以复制这个结果。比如,在第一架飞机撞击大楼之前,我们预测曼哈顿的高楼遭遇恐怖袭击的概率只有1∶20000或0.005%。当然,我们还是会认为世贸中心意外遭遇飞机撞击的概率是非常低的。人们靠经验也能准确地预测出0.005%这个数字。9月11日之前的25000天,一直有飞机盘旋在曼哈顿的上空,而期间只发生了两次这样的意外事故:一次是1945年的美国帝国大厦事件,另一次是1946年的川普大厦事件。这样看来,此类意外事故的日发生概率只有1∶12500。在第一架飞机撞上世贸中心大楼的那一刻,如果用贝叶斯定理计算这些数据,发生恐怖袭击的概率便会从0.005%剧增至38%。
然而,贝叶斯定理暗含的意思并不是说,我们对概率的预测只可以作一次更新,相反的,鉴于新证据的不断涌现,我们需要不断地更新自己的预测结果。于是,第一次恐怖袭击的后验概率38%,在第二次袭击之前就会变成先验概率。这时再来进行世贸中心遭遇第二次恐怖袭击的概率运算,遭遇袭击的概率就变成了99.999%,这就表示恐怖袭击必会出现。在阳光灿烂的纽约出现意外事故的概率很低,而就像我们推断出来的可怕结果一样,第二次恐怖袭击很有可能会发生。
不断犯错,不断尝试,这或许是贝叶斯定理应用起来最容易的一个原则。或者说,一旦获得新信息,我们就应该更新自己的预测。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16