京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的承诺和陷阱
舍恩伯格那种放弃因果关系而只考察相关性的思路,与其说是一种进步,倒不如说是一种思维紊乱。因为它不利于我们的下一步预测,也无法采取行动
为什么我们知道的多,困惑却更多?
我们时时刻刻都在预测:太阳会不会照常升起?广州恒大能不能夺得冠军?A股明天会不会大涨?朋友创办的这家公司能不能获得风险投资?……我们也无时无刻不在验证过往的预测,而且往往带有成本和收益,比如赌球、炒股或者创业,结果都会带来正负收益。
在预测和证实(证伪)之间,是我们无意识的信念或精心建构的理论。从笛卡尔到康德,从卡尔·波普到索罗斯,关于我们如何发现规律并作出预测,有无数的研究和哲学探讨。而今天,随着大数据时代的来临,又有很多专家开始反思这个经典的认识论问题,并为之添加谈资和养料。
舍恩伯格是"大数据"概念的著名吹鼓手,其著作《大数据时代》认为,随着人们看待数据的方式的变化—从局部变为全部以及从纯净变为凌乱,思维方式也应该转型,即从因果关系转向相关性。或者说,只要知道"是什么",而不需要知道"为什么"。
他在书中提到这样一个例子:统计学家们用二手车数据建立了一个算法系统,来预测哪些车更可能出现质量问题。相关性分析表明,橙色车出现质量问题的可能性只有其他车的一半。
这是为什么呢?因为橙色车的车主更爱车?橙色车在制造方面更精良?还是因为橙色车更显眼、出车祸的概率更小?不知道,舍恩伯格也认为无须知道。
不过,这种看重相关性而不追究因果关系的思路,其实是不利于预测和下一步行动的。比如,我们是不是应该建议车主把车漆成橙色呢?这样会使车辆减少质量问题吗?不知道。因为橙色和车辆出现质量问题之间的内部关系,我们不清楚。
有个经典的社会学考题是这样的:冰淇淋的销量和强奸案的发生率存在线性关系,即一个增长,另一个也增长。不过,两者之间显然没有因果关系,而只有相关关系。另一个变量,即天气变暖,才是两者之间的真正桥梁。
所以,舍恩伯格这种放弃因果关系而只考察相关性的思路,与其说是一种进步,倒不如说是一种思维紊乱。因为它不利于我们的下一步预测,也无法采取行动。
而新书《信号与噪声》恰好是一针清醒剂。作者纳特·西尔弗认为,在任何一个数据丰富的领域,寻找预测模式都很容易。关键是要分辨出这些模式到底是噪声还是信号。而关于概率运算的贝叶斯定理,仍然是西尔弗推崇的一种预测思路。
他举了天气预报、政治选举预测、地震预测、棋牌游戏、股市、恐怖袭击等多个领域的例子,认为我们对未来的预测,应该基于可能性,以概率的方法思考问题,在不断试错中进步。像天气预报就是这样的典型,比如气象小姐会说,明日降水概率为60%。而且,西尔弗指出,在过去25年里,飓风中心的预测准确率提高了350%,这是其他领域根本无法企及的进步。
试错法,是哲学家卡尔·波普推崇的科学研究方法。而西尔弗发现,一个成功的NBA球赛赌徒也是如此:大胆预测,不断犯错,不断尝试。只要获得新信息,就应该更新自己的预测。
这是一种更加进取的思维方式,又何尝不是一种崭新的生活理念呢?
1440年,约翰内斯·古腾堡发明了印刷机,这项发明使普通民众能方便地了解信息,由此产生的思想洪流带来了前所未有的结果和影响。印刷机的发明点燃了1775年的工业革命之火。这一发明促成了一些历史事件,这些事件开启了欧洲启蒙运动,也加速了美利坚合众国的建立。
印刷机问世的第一个世纪里,书籍的生产规模呈指数型增长,数量增长了近30倍。人类知识旋即进入快速积累期。
信息的增长速度远远超过了人们处理信息和分辨信息的速度。共享信息的不断增长反而加速了民族和宗教的孤立进程。
印刷机的早期使用者中,最狂热的要数那些传播福音的人了。马丁·路德的《九十五条论纲》被古腾堡的印刷机复印了30多万次。路德的新教改革所导致的教会分裂,很快使欧洲陷入了战争。单单一个三十年战争,德国人口就减少了1/3。这堪称人类历史上最血腥的时代。
但就是在这样一个充满战乱的时代,印刷机却悄然推动着科学与文学的进步。
大数据的承诺和陷阱
到了时下,最流行的要数"大数据"了。根据IBM的估计数据,现在我们每天生成的数据高达250兆亿个字节,超过过去两年里生成的数据总量的90%。
信息的指数型增长有时被人们视为万灵药,就好比20世纪70年代出现的计算机一样。《连线》杂志的前主编克里斯·安德森曾经在2008年的一篇文章中说:"数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。"
我认为其内容是积极乐观的,却被严重曲解了。虽然那些数字不能为自己辩护,但我们却可以作为数字的发言人,赋予它们意义。我们可能会以对自己有利的方式对这些数据进行分析和解释,而这些方式很可能与这些数据(所代表)的客观现实不相吻合。数据驱动预测机制可能会成功,也可能会失败。一旦我们否认数据处理过程中存在着主观因素,失败的概率就会增加。
在4年时间里,我对十多个行业和领域中的数据驱动预测机制进行了调查,我也曾与十几个领域中的100多位专家交流过,读过数百篇期刊文章和论文,为了实地调查,我跑遍了从拉斯韦加斯到哥本哈根的许多地方,却发现"大数据"时代的预测活动发展得并不顺利。
新千年给美国人带来的是噩梦般的开始。我们没有预测到"9·11"恐怖袭击事件,而这一惨剧的出现并非因为我们的信息匮乏。正如60年前的"珍珠港事件"一样,其实所有的信号都在那里,只是我们没能将它们联系起来。因为对恐怖分子可能会有的举动不够了解,所以我们对那些数据视而不见,不知道大难将至。
近期,对全球金融危机的预测也总是失败。我们天真地相信各种(预测)模式,却没有认识到这些模式在我们进行假设选择时根本不堪一击,因此总会带来惨痛的后果。在日常生活中,我发现尽管人们也在努力尝试,却仍然无法提早预测出经济衰退。幸好在控制通胀方面,我们已经取得长足进步,否则那些经济决策者就只能"盲目飞行"了。
与20世纪70年代一样,近来人们十分热衷于对地震进行预测,其中大部分高度依赖数学方法和数据处理技术。但是,这些预测只是假想一些从未发生过的地震,对真正发生的那些地震却没有预测到。
错误地预测整个学科的发展常会危及整个社会。以生物医药学的研究为例。2005年,一位土生土长的雅典人,医学研究者约翰·P·埃尼迪斯,发表了一篇颇具争议性的论文—《为什么大多数发表的研究成果都是骗人的》。
这些大数据终将推动社会进步,至于这种进步的速度有多快,或者进步的同时是否还会倒退,这些都取决于我们自己。
人类并没有多少天生的防御能力,人类的速度没有多么快,身体也没有多么强壮;人类没有利爪和尖牙,也没有护身的硬壳;人类不能喷出毒液,不能伪装自己,也不能飞翔。我们之所以能生存下来,是因为我们运用了智慧。
在1970年出版的《未来的冲击》一书中,未来学大师阿尔文·托夫勒对他所说的"信息超负荷"的一些后果进行了预测。他认为,尽管世界本身正走向分化,变得更加复杂,但人类仍会以坚持自身看法的方式使这个世界变得简单,这便是我们的防御机制。
正是出于这个原因,我将预测视为人们共同的事业。虽然预测很难,但解决方法还是有的。
在任何一个数据丰富的领域,寻找模式很容易,一般的预测者也都是这么做的。关键是要分辨出这些模式到底是噪声还是信号。虽然还没有找到关键点,但是有一种思维过程可以帮助我们作决定,这就是贝叶斯定理。
预测和贝叶斯定理
托马斯·贝叶斯,大概于1701年出生。尽管贝叶斯所著图书的种类并不算多,但还是被选为英国皇家学会会员。在英国皇家学会,他担任内部评论家或者智力辩论的裁判员。
贝叶斯的作品《机会的学说概论》,又称《论有关机遇问题的求解》,直到他1763年去世之后,由他的朋友理查德·普莱斯引介到英国皇家学会,引起了学会的注意,随后才得以出版。这部作品主要研究的是,当我们遇到新数据时,该如何使用概率的方法进行推理。
今天公认的贝叶斯定理就是一个普通的不能再普通的数学表达式,是由法国数学家、天文学家拉普拉斯推导出来的:
然而,就是这样一个简单的运算,却可以推导出重大的预测。
贝叶斯定理涉及条件概率,也就是说,一旦发生了某个事件,这一定理就可以告诉我们一种理论或假设是否正确。
假设你和伴侣同住,某天出差回家后发现自己的衣橱里多出一件陌生的内衣。你可能会奇怪:自己的伴侣是不是出轨了?不论你相信与否,对于这样的问题,贝叶斯定理总能给出答案—假如你知道(或愿意预估)下列3个量。
第一,你需要预测出自己的伴侣在出轨的情况下,这件内衣出现的概率。为了解决这个问题,我们暂且假设你是一位女性,而你的伴侣是一位男性,那么,此时我们所说的内衣就是一件女式内衣。如果你的伴侣出轨了,那么很容易想象这件内衣是如何进入你的衣橱的。那么,即使他确实要做对不起你的事,你也希望他能够小心行事。在他确实背叛了你的情况下,我们认为,这件内衣出现的概率是50%。
第二,你需要预测出自己的伴侣在没有出轨的情况下,这件内衣出现的概率。如果他没有出轨,有什么理由证明那件内衣的清白呢?当然有些理由会令人不快(比如这件内衣也有可能是他自己的)。或许,他把衣服搞混了;或者你的伴侣有一位红颜知己,两人之间只存在纯友谊,而你对此也深信不疑,她寄宿一晚忘了带走内衣;或者这就是你的伴侣给你准备的一件礼物,只不过忘了把它包起来。尽管这些理由有些荒谬,但也能说得通。你将这种情况出现的概率定为5%。
第三,这点最为重要,你需要预测贝叶斯定理中所说的先验概率(或者简称先验)。在发现内衣之前,你认为自己的伴侣出轨的概率有多大?当然,现在很难完全客观地考虑这个问题,因为你已经发现了内衣。(在理想状态下,在开始查验证据之前,你就已经算出了先验概率。)但有时我们可以依据经验推断某事件发生的概率。比如,研究发现,已婚夫妇任何一年的出轨概率都在4%左右,所以,我们可以将这个概率视为先验概率。
如果我们算出了以上3个概率值,就可以依据贝叶斯定理得出后验概率:只有29%,这个结果也许看似仍有悖常理—那件内衣果真是清白的吗?但这一概率之所以较低,是因为你把伴侣出轨的先验概率设定得很低。尽管一个清白的男人不能像出过轨的男人那样,能为一件陌生内衣的出现找出很多看似合理的解释,但你一开始就把他当作清白的人,这一点对方程式影响很大。
这里,我还要提到一个比较沉重的例子:"9·11"恐怖袭击事件。2001年9月11日清晨,当我们从梦中醒来时,大部分人都想不到恐怖分子的飞机会撞向曼哈顿世贸中心大楼。但是,世贸中心第一次遭遇袭击之后,我们才意识到这也许是一次恐怖袭击。直到第二座高楼被袭击之后,我们才相信确实遭遇了恐怖袭击。
贝叶斯定理可以复制这个结果。比如,在第一架飞机撞击大楼之前,我们预测曼哈顿的高楼遭遇恐怖袭击的概率只有1∶20000或0.005%。当然,我们还是会认为世贸中心意外遭遇飞机撞击的概率是非常低的。人们靠经验也能准确地预测出0.005%这个数字。9月11日之前的25000天,一直有飞机盘旋在曼哈顿的上空,而期间只发生了两次这样的意外事故:一次是1945年的美国帝国大厦事件,另一次是1946年的川普大厦事件。这样看来,此类意外事故的日发生概率只有1∶12500。在第一架飞机撞上世贸中心大楼的那一刻,如果用贝叶斯定理计算这些数据,发生恐怖袭击的概率便会从0.005%剧增至38%。
然而,贝叶斯定理暗含的意思并不是说,我们对概率的预测只可以作一次更新,相反的,鉴于新证据的不断涌现,我们需要不断地更新自己的预测结果。于是,第一次恐怖袭击的后验概率38%,在第二次袭击之前就会变成先验概率。这时再来进行世贸中心遭遇第二次恐怖袭击的概率运算,遭遇袭击的概率就变成了99.999%,这就表示恐怖袭击必会出现。在阳光灿烂的纽约出现意外事故的概率很低,而就像我们推断出来的可怕结果一样,第二次恐怖袭击很有可能会发生。
不断犯错,不断尝试,这或许是贝叶斯定理应用起来最容易的一个原则。或者说,一旦获得新信息,我们就应该更新自己的预测。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22