大数据的承诺和陷阱-CDA数据分析师官网

热线电话：13121318867

大数据的承诺和陷阱

2015-12-07

大数据的承诺和陷阱

舍恩伯格那种放弃因果关系而只考察相关性的思路，与其说是一种进步，倒不如说是一种思维紊乱。因为它不利于我们的下一步预测，也无法采取行动

为什么我们知道的多，困惑却更多？

我们时时刻刻都在预测：太阳会不会照常升起？广州恒大能不能夺得冠军？A股明天会不会大涨？朋友创办的这家公司能不能获得风险投资？……我们也无时无刻不在验证过往的预测，而且往往带有成本和收益，比如赌球、炒股或者创业，结果都会带来正负收益。

在预测和证实（证伪）之间，是我们无意识的信念或精心建构的理论。从笛卡尔到康德，从卡尔·波普到索罗斯，关于我们如何发现规律并作出预测，有无数的研究和哲学探讨。而今天，随着大数据时代的来临，又有很多专家开始反思这个经典的认识论问题，并为之添加谈资和养料。

舍恩伯格是"大数据"概念的著名吹鼓手，其著作《大数据时代》认为，随着人们看待数据的方式的变化—从局部变为全部以及从纯净变为凌乱，思维方式也应该转型，即从因果关系转向相关性。或者说，只要知道"是什么"，而不需要知道"为什么"。

他在书中提到这样一个例子：统计学家们用二手车数据建立了一个算法系统，来预测哪些车更可能出现质量问题。相关性分析表明，橙色车出现质量问题的可能性只有其他车的一半。

这是为什么呢？因为橙色车的车主更爱车？橙色车在制造方面更精良？还是因为橙色车更显眼、出车祸的概率更小？不知道，舍恩伯格也认为无须知道。

不过，这种看重相关性而不追究因果关系的思路，其实是不利于预测和下一步行动的。比如，我们是不是应该建议车主把车漆成橙色呢？这样会使车辆减少质量问题吗？不知道。因为橙色和车辆出现质量问题之间的内部关系，我们不清楚。

有个经典的社会学考题是这样的：冰淇淋的销量和强奸案的发生率存在线性关系，即一个增长，另一个也增长。不过，两者之间显然没有因果关系，而只有相关关系。另一个变量，即天气变暖，才是两者之间的真正桥梁。

所以，舍恩伯格这种放弃因果关系而只考察相关性的思路，与其说是一种进步，倒不如说是一种思维紊乱。因为它不利于我们的下一步预测，也无法采取行动。

而新书《信号与噪声》恰好是一针清醒剂。作者纳特·西尔弗认为，在任何一个数据丰富的领域，寻找预测模式都很容易。关键是要分辨出这些模式到底是噪声还是信号。而关于概率运算的贝叶斯定理，仍然是西尔弗推崇的一种预测思路。

他举了天气预报、政治选举预测、地震预测、棋牌游戏、股市、恐怖袭击等多个领域的例子，认为我们对未来的预测，应该基于可能性，以概率的方法思考问题，在不断试错中进步。像天气预报就是这样的典型，比如气象小姐会说，明日降水概率为60%。而且，西尔弗指出，在过去25年里，飓风中心的预测准确率提高了350%，这是其他领域根本无法企及的进步。

试错法，是哲学家卡尔·波普推崇的科学研究方法。而西尔弗发现，一个成功的NBA球赛赌徒也是如此：大胆预测，不断犯错，不断尝试。只要获得新信息，就应该更新自己的预测。

这是一种更加进取的思维方式，又何尝不是一种崭新的生活理念呢？

1440年，约翰内斯·古腾堡发明了印刷机，这项发明使普通民众能方便地了解信息，由此产生的思想洪流带来了前所未有的结果和影响。印刷机的发明点燃了1775年的工业革命之火。这一发明促成了一些历史事件，这些事件开启了欧洲启蒙运动，也加速了美利坚合众国的建立。

印刷机问世的第一个世纪里，书籍的生产规模呈指数型增长，数量增长了近30倍。人类知识旋即进入快速积累期。

信息的增长速度远远超过了人们处理信息和分辨信息的速度。共享信息的不断增长反而加速了民族和宗教的孤立进程。

印刷机的早期使用者中，最狂热的要数那些传播福音的人了。马丁·路德的《九十五条论纲》被古腾堡的印刷机复印了30多万次。路德的新教改革所导致的教会分裂，很快使欧洲陷入了战争。单单一个三十年战争，德国人口就减少了1/3。这堪称人类历史上最血腥的时代。

但就是在这样一个充满战乱的时代，印刷机却悄然推动着科学与文学的进步。

大数据的承诺和陷阱

到了时下，最流行的要数"大数据"了。根据IBM的估计数据，现在我们每天生成的数据高达250兆亿个字节，超过过去两年里生成的数据总量的90%。

信息的指数型增长有时被人们视为万灵药，就好比20世纪70年代出现的计算机一样。《连线》杂志的前主编克里斯·安德森曾经在2008年的一篇文章中说："数量庞大的数据会使人们不再需要理论，甚至不再需要科学的方法。"

我认为其内容是积极乐观的，却被严重曲解了。虽然那些数字不能为自己辩护，但我们却可以作为数字的发言人，赋予它们意义。我们可能会以对自己有利的方式对这些数据进行分析和解释，而这些方式很可能与这些数据（所代表）的客观现实不相吻合。数据驱动预测机制可能会成功，也可能会失败。一旦我们否认数据处理过程中存在着主观因素，失败的概率就会增加。

在4年时间里，我对十多个行业和领域中的数据驱动预测机制进行了调查，我也曾与十几个领域中的100多位专家交流过，读过数百篇期刊文章和论文，为了实地调查，我跑遍了从拉斯韦加斯到哥本哈根的许多地方，却发现"大数据"时代的预测活动发展得并不顺利。

新千年给美国人带来的是噩梦般的开始。我们没有预测到"9·11"恐怖袭击事件，而这一惨剧的出现并非因为我们的信息匮乏。正如60年前的"珍珠港事件"一样，其实所有的信号都在那里，只是我们没能将它们联系起来。因为对恐怖分子可能会有的举动不够了解，所以我们对那些数据视而不见，不知道大难将至。

近期，对全球金融危机的预测也总是失败。我们天真地相信各种（预测）模式，却没有认识到这些模式在我们进行假设选择时根本不堪一击，因此总会带来惨痛的后果。在日常生活中，我发现尽管人们也在努力尝试，却仍然无法提早预测出经济衰退。幸好在控制通胀方面，我们已经取得长足进步，否则那些经济决策者就只能"盲目飞行"了。

与20世纪70年代一样，近来人们十分热衷于对地震进行预测，其中大部分高度依赖数学方法和数据处理技术。但是，这些预测只是假想一些从未发生过的地震，对真正发生的那些地震却没有预测到。

错误地预测整个学科的发展常会危及整个社会。以生物医药学的研究为例。2005年，一位土生土长的雅典人，医学研究者约翰·P·埃尼迪斯，发表了一篇颇具争议性的论文—《为什么大多数发表的研究成果都是骗人的》。

这些大数据终将推动社会进步，至于这种进步的速度有多快，或者进步的同时是否还会倒退，这些都取决于我们自己。

人类并没有多少天生的防御能力，人类的速度没有多么快，身体也没有多么强壮；人类没有利爪和尖牙，也没有护身的硬壳；人类不能喷出毒液，不能伪装自己，也不能飞翔。我们之所以能生存下来，是因为我们运用了智慧。

在1970年出版的《未来的冲击》一书中，未来学大师阿尔文·托夫勒对他所说的"信息超负荷"的一些后果进行了预测。他认为，尽管世界本身正走向分化，变得更加复杂，但人类仍会以坚持自身看法的方式使这个世界变得简单，这便是我们的防御机制。

正是出于这个原因，我将预测视为人们共同的事业。虽然预测很难，但解决方法还是有的。

在任何一个数据丰富的领域，寻找模式很容易，一般的预测者也都是这么做的。关键是要分辨出这些模式到底是噪声还是信号。虽然还没有找到关键点，但是有一种思维过程可以帮助我们作决定，这就是贝叶斯定理。

预测和贝叶斯定理

托马斯·贝叶斯，大概于1701年出生。尽管贝叶斯所著图书的种类并不算多，但还是被选为英国皇家学会会员。在英国皇家学会，他担任内部评论家或者智力辩论的裁判员。

贝叶斯的作品《机会的学说概论》，又称《论有关机遇问题的求解》，直到他1763年去世之后，由他的朋友理查德·普莱斯引介到英国皇家学会，引起了学会的注意，随后才得以出版。这部作品主要研究的是，当我们遇到新数据时，该如何使用概率的方法进行推理。

今天公认的贝叶斯定理就是一个普通的不能再普通的数学表达式，是由法国数学家、天文学家拉普拉斯推导出来的：

然而，就是这样一个简单的运算，却可以推导出重大的预测。

贝叶斯定理涉及条件概率，也就是说，一旦发生了某个事件，这一定理就可以告诉我们一种理论或假设是否正确。

假设你和伴侣同住，某天出差回家后发现自己的衣橱里多出一件陌生的内衣。你可能会奇怪：自己的伴侣是不是出轨了？不论你相信与否，对于这样的问题，贝叶斯定理总能给出答案—假如你知道（或愿意预估）下列3个量。

第一，你需要预测出自己的伴侣在出轨的情况下，这件内衣出现的概率。为了解决这个问题，我们暂且假设你是一位女性，而你的伴侣是一位男性，那么，此时我们所说的内衣就是一件女式内衣。如果你的伴侣出轨了，那么很容易想象这件内衣是如何进入你的衣橱的。那么，即使他确实要做对不起你的事，你也希望他能够小心行事。在他确实背叛了你的情况下，我们认为，这件内衣出现的概率是50%。

第二，你需要预测出自己的伴侣在没有出轨的情况下，这件内衣出现的概率。如果他没有出轨，有什么理由证明那件内衣的清白呢？当然有些理由会令人不快（比如这件内衣也有可能是他自己的）。或许，他把衣服搞混了；或者你的伴侣有一位红颜知己，两人之间只存在纯友谊，而你对此也深信不疑，她寄宿一晚忘了带走内衣；或者这就是你的伴侣给你准备的一件礼物，只不过忘了把它包起来。尽管这些理由有些荒谬，但也能说得通。你将这种情况出现的概率定为5%。

第三，这点最为重要，你需要预测贝叶斯定理中所说的先验概率（或者简称先验）。在发现内衣之前，你认为自己的伴侣出轨的概率有多大？当然，现在很难完全客观地考虑这个问题，因为你已经发现了内衣。（在理想状态下，在开始查验证据之前，你就已经算出了先验概率。）但有时我们可以依据经验推断某事件发生的概率。比如，研究发现，已婚夫妇任何一年的出轨概率都在4%左右，所以，我们可以将这个概率视为先验概率。

如果我们算出了以上3个概率值，就可以依据贝叶斯定理得出后验概率：只有29%，这个结果也许看似仍有悖常理—那件内衣果真是清白的吗？但这一概率之所以较低，是因为你把伴侣出轨的先验概率设定得很低。尽管一个清白的男人不能像出过轨的男人那样，能为一件陌生内衣的出现找出很多看似合理的解释，但你一开始就把他当作清白的人，这一点对方程式影响很大。

这里，我还要提到一个比较沉重的例子："9·11"恐怖袭击事件。2001年9月11日清晨，当我们从梦中醒来时，大部分人都想不到恐怖分子的飞机会撞向曼哈顿世贸中心大楼。但是，世贸中心第一次遭遇袭击之后，我们才意识到这也许是一次恐怖袭击。直到第二座高楼被袭击之后，我们才相信确实遭遇了恐怖袭击。

贝叶斯定理可以复制这个结果。比如，在第一架飞机撞击大楼之前，我们预测曼哈顿的高楼遭遇恐怖袭击的概率只有1∶20000或0.005%。当然，我们还是会认为世贸中心意外遭遇飞机撞击的概率是非常低的。人们靠经验也能准确地预测出0.005%这个数字。9月11日之前的25000天，一直有飞机盘旋在曼哈顿的上空，而期间只发生了两次这样的意外事故：一次是1945年的美国帝国大厦事件，另一次是1946年的川普大厦事件。这样看来，此类意外事故的日发生概率只有1∶12500。在第一架飞机撞上世贸中心大楼的那一刻，如果用贝叶斯定理计算这些数据，发生恐怖袭击的概率便会从0.005%剧增至38%。

然而，贝叶斯定理暗含的意思并不是说，我们对概率的预测只可以作一次更新，相反的，鉴于新证据的不断涌现，我们需要不断地更新自己的预测结果。于是，第一次恐怖袭击的后验概率38%，在第二次袭击之前就会变成先验概率。这时再来进行世贸中心遭遇第二次恐怖袭击的概率运算，遭遇袭击的概率就变成了99.999%，这就表示恐怖袭击必会出现。在阳光灿烂的纽约出现意外事故的概率很低，而就像我们推断出来的可怕结果一样，第二次恐怖袭击很有可能会发生。

不断犯错，不断尝试，这或许是贝叶斯定理应用起来最容易的一个原则。或者说，一旦获得新信息，我们就应该更新自己的预测。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；