热线电话:13121318867

登录
首页职业发展大数据应用:大数据就是非相关数据的相关性
大数据应用:大数据就是非相关数据的相关性
2014-11-01
收藏

     导读:大数据的意义在于从海量的数据里寻找出一定的相关性,然后推演出行为方式的可能性。从这个角度来看,很多人所谈的大数据是相关数据的优化和整理概念,压根不是一回事

  对大数据我不是专家,但由于大数据也是开放性的命题,所以我也就自己的认知水平,谈谈我对大数据的看法,更多集中在数据的金融应用上。

第一节 什么是大数据

  一、大数据并非新事物

  早在1980 年,著名未来学家阿尔文· 托夫勒就在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮”。不过,直到2009 年前后,“大数据”才成为互联网信息技术行业的流行词汇。2013 年,随着互联网金融的空前热门,也才真正意义上将“大数据”推到了高潮。

  如果探究互联网金融与大数据流行之间的关联,背后有一个很关键的因素,就是互联网金融一直无法解答一个核心命题——风险控制。即互联网没有找到比传统金融更具优势的风控方法,从而使得互联网金融在兴起的过程中饱受质疑。

  而横空出世的大数据成为了互联网金融支持者的一个重要精神支柱。大数据越不可测,就越具备想象力,对互联网金融而言,就越具解释力。

  那么什么是大数据呢?我谈谈自己的看法。

  大概四五年前,美国《商业周刊》资深作家约翰·伯恩一本畅销书《蓝血十杰》,对今天中国互联网金融和大数据理论爱好者们产生了极大的影响。这本书讲述了十个年轻人,出身名校哈佛,心怀理想,是天才中的天才。他们二战期间成为了美国空军的后勤英雄,卓有成效地将数字化管理模式应用于战争,为盟军节约了十亿美元的耗费,帮助盟军取得了胜利。

  这说明数据的分析和管理,很早就被用于国家战争和商业运营了,为什么现在非要在数据前面加个“大”字呢?

  上次在鸿儒论道,听社科院何帆教授的课程,他提到,从本质上讲一切的社会现象都是统计现象,并不像实验室里的试验那样有明确的因果关系。如经济学的供求定理就是一个统计规律。但是人类认知能力中最差的也是统计思维。

  诺贝尔奖得主、心理学家卡尼曼曾经讲过,人类头脑中有两套思维。一套思维是本能的,比如我们的语言能力、模仿能力、第六感,等等,都是与生俱来的。如麻省理工学院的语言学家乔姆斯基指出,小孩子为什么到3 岁就能学会说话,而要到十几岁才能学会微积分呢?语言学得这么快,不是小孩子自己能学会的,是他出生时大脑中就预装了一套系统。

  此外,察言观色的能力也不用特意学或教,小孩子就已经会了。所以这是人类的第一套系统,也是能够让我们快速反应的系统。第二套系统,是当我们做数学推理,尤其是统计分析时需要用到的。第二套系统运转很慢,因为占的内存太大,往往我们犯错误就是因为决策太快,在统计判断的方面出现问题。

  所以,我们在谈大数据的时候,都认为是个新潮的概念,但是作为方法论而言,大数据已经有很长的历史了。那为什么现在大家突然讲大数据了呢?主要是因为现在的数据越来越多,一方面随着IT 革命,存储和计算能力在不断提高,未来可能会出现无限存储、瞬间计算的新时代;另一方面,能够被数据化的东西也越来越多,过去只有数字,而会计制度出来后,经济活动开始可以通过记账数据化。

  现在大家拿的pad 和电子阅读器中的文字、图像也是数字化的。随着能够变成数据的东西越来越多,计算和处理数据的能力越来越强,大家突然发现这个东西很有意思。一旦把统计学和现在大规模的数据融合在一起,就会颠覆很多我们原来的思维。

  二、大数据就是非相关数据的相关性

  现在大数据被说得神乎其神的一个重要原因,是普遍认为大数据可以有效推演和设定未来的走向,极为精准地推断某些事件出现的概率,体现在金融业里,就是可以很好地控制风险。那么,真的如此吗?

  写于1942 年的科幻小说《银河帝国》,就讲述了在银河帝国最繁荣的时候,国内最有才华的数学家谢顿说他能够预知未来历史的变化以及潜在的危机,只要数据量足够大。当时的人口已经是上万亿,足够他准确预测未来的变化。

  所以,谢顿悄悄建了一个“基地组织”,还有“第二基地组织”。当出现所谓的“谢顿危机”时候,大家就把他事先录好的录像调出来,他在录像里会阐述已经预测到的此次危机及其99% 的可能性,并告知人们要怎么做。

  书里的谢顿教授首先是个数学家,同时也是个心理学家。他从上千兆的社会民众中进行行为心理学的样本分析,来推断社会的演变。他把各种偶发性因素都设立了变量的幅度范围,一旦出现异变就予以扑杀,以使社会回归到设定的进程去。

  他也做了一些基本的定义,这些定义都隐含了一个社会假设,那就是“作为研究对象的人类,总数必须达到足以用统计的方法来加以处理,还有一个必要的假设是群体中必须没有人知道本身已是心理分析的样本,如此才能确保所有的反应都是真正的随机”。

  可以看出,大数据的意义在于从海量的数据里寻找出一定的相关性,然后推演出行为方式的可能性。从这个角度来看,很多人所谈的大数据是相关数据的优化和整理概念,压根不是一回事。

  何谓非相关数据的相关性?比如说公共卫生领域,研究传染病是很难的,因为发病快,病人马上就死了,很难像癌症那样去研究它的病理学是什么。那最后是怎么发现传染方式的呢?以霍乱为例,实际上就是有两张地图,一张是得霍乱病人的分布图,另外一张是伦敦市水井的分布图,最后发现两张图之间有一些联系规律,所以觉得可能跟饮水有关。

  在科学不发达的过去,我们是通过水井跟霍乱这两种非相关数据的分布寻找到了相关性,虽然不知道为什么,也无法解释,但是却能做出较好的防范。这种非相关数据的相关性是偶然发现的,并非刻意寻找的结果。

  原因在于,过去没有数据汇集技术,导致数据量太少,根本无法对非相关数据进行集中比对。另外一方面也是因为数据的处理能力有限,即使数据汇集了,也无法有效进行数据处理,要找出各种数据的相关性的手段极为有限。

  所以,过去的数据挖掘也好,数据分析也罢,更多还是对带有相关性的数据的整理和分析,事前都是有逻辑作为基础的。包括《蓝血十杰》里面的行为,也包括阿里金融的所谓大数据风控等,本身就是可推导的数据,在此之上进行概率计算。如果这些都定义为大数据,那么大数据就不是什么新概念。要讲大数据,必然是海量的不同维度数据的相关性分析,对于本身具备相关性的数据,顶多称为数据优化罢了。

  我自己觉得,大数据的出现更多是基于两个方面:第一是互联网使得数据产生量大大增加,有了现实的不同数据的比对和处理的可能性;第二是计算能力大幅度提高,原先单一的中央式计算方式变成了以云计算特征分布式计算方式,使得处理能力海量增加,最终可以把统计学和现在大规模的数据融合在一起,从而发现很多有意思的事情。

  一方面是发现了很多有相关性的事件,但是不知道为什么相关;另外一方面是发现很多原先认为是没有关联的事情,原来内在都是有联系的。最终可以成为我们决策的依据,大大提升我们的管理效率或者处理事情的能力,也极大地颠覆我们原来的思维。

  我曾开玩笑说,我们最早的大数据思维是什么呢?是周易衍生出来的命理学派,绝对是大数据的思维。你算个卦,然后说某个人晚上死,他就死了。两者没有任何的关系啊,但是从统计结果来看,往往就是准确率极高。是什么维持了两者相关,很多时候有因果关系,很多时候无因果关系,当然也可能是还不知道的无法验证的因果关系。

  我在《支付革命》里提出过,少扯大数据,多谈小数据。为什么呢?因为大数据要尽量收集更多的非相关数据,来计算其相关性,必然带有极大的成本和结果的不确定性。成本大,是因为数据收集成本和整理成本都很高;结果不确定,是因为都是非相关数据,你之前是很难确定这些数据的相关性的,需要不断碰撞和测试,不但耗费成本,而且很可能穷尽之后发现,这些数据真的是不相关,所以投入和产出就经常极不对称。

  上次碰到惠普的副总裁提大数据的概念,他说,按照他们的理解,全球有能力进行所谓大数据应用的公司不会超过50 家,我自己的推测也差不多。很多公司即使可以用大数据,往往所获得的收益也根本不足以覆盖巨额的成本。我在一次峰会上听到很多P2P 公司在说,它们可以通过业务沉淀出极大的数据,然后用大数据技术来提高风控质量。这叫啥?叫典型的无知者无畏。

第二节 大数据与“黑天鹅”事件

  一、大数据的相关性基础条件

  “一句话,即便在大数据时代,种种‘黑天鹅’事件也仍然是没有办法被准确预测到的。因为所有根据过去的理论数据模型进行的假设都无法准确推演未来,它们不过是为了未来某个黑天鹅做着准备。”

  大数据涉及海量非相关数据的相关性的统计,其相关性的存在基础又是什么呢?非相关数据,很多时候两者的相关性是真相关,也可能是伪相关。需要注意,这种相关性要成为可推演的行为逻辑,首要前提就是确保这种相关性的基础是恒定不变的。

  再以前文霍乱与水质关系为例,这里存在一个基础前提,就是霍乱弧菌在水中存活时间较长,有些菌株还可以在水中越冬。所以一次污染后有可能使水体较长时间保持传播能力。而且,当水栖动物被污染后,霍乱弧菌有可能在其体内存活较长的时间,继续污染水体。所以,经水传播的特点是呈现暴发状态。如果这个霍乱弧菌不是通过水传播了,那这种相关性就消失了。

  因此,我们要注意和警惕的是,大数据并非是一个万能的事物,它的缺陷在于立足于统计学基础之上,必然是会因为统计样本的变化而发生变化的。尤其在适用于人群分析的时候。

  拿前面的《银河帝国》来举例,把社会公民作为样本来进行分析,通过过去的样本行为,得出未来的可能结论。这里的理论基础是,在人群的社会性特征不发生改变的情况下,作为社会构成的绝大部分人,思考问题的方式不会有太大的差异,行为逻辑也是相对固定的。如果是将一个人特列出来,可能很有个性,但当人口样本数量足够大时,就会发现其实每个人都是一模一样的。

  但是要注意,这个理论成立的核心前提是,社会性特征要保持不变。因为只有在相对稳定的基础性环境里,被列为样本分析的群体才会是一致行为逻辑。在基础性环境发生变化的情况下,人的行为跟过去必然是不同的。

  一个简单的推论是,如果一个人未来做的事情跟过去一致,那么这个社会必然是不发展的。因为即使有人做出了创新性突破,但是当社会多数群体都拒绝创新使用的话,社会还是停滞的。

  因此,在一个发展的社会里,社会群体必然是不断改变其行为模式的。而一旦行为模式改变,所有过去的数据积累所构建的相关性都会消失,因为人们不再按照过去的生活习惯进行生活了。

  当然很多人会说,社会前进,必然使得数据也是前进的,所以还是可以用新的数据来推断未来。这里的悖论在于,由于大数据的核心是通过分析过去而判断未来,隐含的前提条件必然是未来跟过去的基础性特征一致。而且,数据由于需要海量积累,匹配处理后的推论结果永远是慢于社会前进的步伐的。

  二、过去能否决定未来

  所以,问题的焦点在于,过去是否一定能决定未来?如果大数据无法解答这个命题,那么它必然在很多领域是失效的。

  我们先看一个简单的堆沙子的实验。在海边堆沙子,无论你怎么堆积,必然是要倒塌的,问题在于什么时候倒塌?通过数学模型一直无法测算出精确的结果,也就是无法计算出到第几粒沙子的时候,沙堆就会倒。这里如果用过去决定未来的逻辑进行推演,第1 粒沙子没倒,第2 粒没倒,第3 粒没倒……第1000 粒也没倒,我们可否有效认定,第1001 粒就不会倒了呢?事实上,过去的每粒沙子的往上堆积,都是在为最后一粒沙子的倒塌做准备。

  过去几年的金融危机告诉我们,原来的经济学、金融学理论都存在巨大缺陷。按照传统的标准正态分布状的金融学模型,2008 年的金融危机大概250 亿年才会爆发一次,地球都没有那么长的寿命,怎么就让我们赶上了呢?为什么打开新闻,遇到了50年不遇的旱灾,100 年不遇的水灾,历史上从来没有过的雾霾天气,等等,怎么都让我们赶上了呢?这种黑天鹅事件即使在大数据时代,也仍然是没有办法预测的,因为这些数据都是为了未来某个黑天鹅事件做的准备。

  在《黑天鹅》这本书里面,有一句非常好的话:“你不知道的事情比你知道的事情更重要。”在以前,很多东西我们没有办法把它数据化,也没有办法把它预测出来。但现在,数据足够多,它会给你一种幻觉,让人觉得能找到看得见、摸得着的规律,让人们觉得有足够的能力把握未来。但往往在人们过于自信的时候,会犯更大的错误。到目前为止,越是大的系统性危机,人们越束手无策。

  美国金融危机爆发后,美联储前主席格林斯潘到美国国会去作证,他说,“我发现了一个缺陷,但我不知道它有多么严重,也不知道它会持续多久,这件事情使我深感苦恼。”有一个国会议员马上打断他,说:“格林斯潘先生,你的意思是不是说你根本不知道为什么会发生这次金融危机?”格林斯潘说:“是的,因为在过去40 多年甚至更长的时间里,我都有非常雄辩的证据证明我的做法会如愿以偿。”这么大一场危机到来了,美联储的掌舵人却不知道为什么会发生金融危机!

  所以在未来,真正需要我们高度警惕的是,即使你有了大数据,也没有办法完全知道系统性的风险和危机,例如“黑天鹅”事件。

  事实上,人类历史的场合中,黑天鹅事件的层出不穷,已经是被验证的定论,社会的每一次技术突破,其实就是黑天鹅事件。也就是说,黑天鹅事件,本来就是人类自我创造和努力的结果。

  牛顿莫名其妙地被苹果砸了头,创造引力理论,然后极大地改变了社会的发展逻辑,使得人类呈现不同的生活方式,从而使得过去所有既定的规则都发生了变化,而事实上,人类社会已经表现出了加速进化的趋势,这个趋势还在加速过程之中,技术的迭代更新更加迅猛,最终使得过去决定未来的可能性越来越小。

  从秦朝到清朝的上千年时间里,事实上人类生活是没有发生太大改变的,都是日出而作、日落而息的农耕主导型社会,而大工业革命之后的社会,以及电气化时代的来临,加速了社会进化过程,时代周期的缩短已然是个趋势,几千年的时代周期立刻压缩为十年为单位的周期,甚至更短,因此使得人类的生活方式更呈现出差异化和偶然性。

  过去决定未来,是无法反映出时代进步和调整的可能性的。过去所做的推断,永远只代表了过去那个阶段为止的最高极限,本身是不会自我演化和发展的。

  很多年前,我写人工智能的文章,就提出过一个假象的理论模型,倒是跟大数据有点类似。因为所有的前提都是建立在当时的极限值上,所有的推演变化其实都在过去的科技水平之上,所以,人工智能永远只能达到生产者那个阶段的智力水平,它本身无法改变这个局限而实现自我进化。这必然决定了它要依附在生产制造它的群体的进化之上,只有如此,它才可能继续进化。

  这里也可以提下,其实从人生历史上看,还有一条进化之路,其实是通过相互对抗而不断进化,对抗性的存在其实也是进化的基础。人类的进化就是通过不断消灭别的物种的过程来实现的,这就可以得出这样一个结论,如果把竞争对手都搞死了,其实我们也失去了进化的可能性。

  三、信号与噪音

  一个数据分析师写过一本书叫《信号与噪音》,其中讲到真正的信号是有用的信息,还有很多没用的信号是干扰决策的噪音。“我们总觉得信息量越大,能够得到的真理就越多。其实不是的,信息增长的速度要远远快于真理增长的速度。”所以不要以为你的数据越多,就能离真理越近,有时候信息越多,噪音越多,反而干扰决策。换句话说,知识的边际收益是递减的。

  因此,在“过去决定未来”的这个逻辑上,需要明确几个方面:一、经济生活加速,技术革命随时到来的情况下,稳定期限到底能维持多久;二、判断主体的前提是主体不知道自己被作为样本;三、社会生活中,稳定的群体是谁?不稳定的群体是谁?稳定的群体更容易被样本化而呈现可推演性。不稳定的个人意志往往改变社会,脑残和精英主导了社会的前进;四、人会因为未来而改变过去的可能性到底有多大?

  在投资领域,我引用雪球网友给我的文章做的评论里的一段话做个附文,感觉写得很不错。

  他将统计学运用到投资领域,大数据理论还延伸出不少著名的投资理论和投资实践。

  比如施洛斯的低估值投资方法,便是提高投资成功率的真知灼见之一。沃尔特· 施洛斯认为,投资是一件简约的事情,长期投资= 正确决定( 低估值+ 成长性)+ 时间。

  总而言之,学会用概率统计思维和非线性复杂性思维进行思考,对投资是有好处的。有的行业更加稳定,变化缓慢,投资预测时更容易有确定性,这也是传统投资大师最喜欢的行业。而有些行业则更加不可预测,适用非线性物理学的能量法则,而非概率统计的正态分布

  《醉汉的脚步——随机性如何主宰我们的生活》里提到:“如果电影票房按正态分布,那大多数电影赚到的钱都该落在某个平均值附近,有三分之二的电影票房,将落在这个平均值周围一个标准差的范围内。但在电影业中,20% 的电影带来了80% 的票房收入。这类由热点驱动的产业,尽管完全无法预测,却遵循了一个完全不同的分布,其中均值和标准差的概念毫无意义。” 这些对于我们的投资有哪些启示呢?

  1. 投资于变化缓慢或者容易预测的行业,也就是更加符合正态分布的行业,避开高科技、娱乐、文化等非正态分布的行业。《黑天鹅》一书提出的反脆弱性,是另外一种思路,也可以借鉴。

  2. 即使是对于非正态分布的行业,基于低估值的大数法则也有用武之地。例如狮门影业就是典型,它只专注于小成本的几个细分市场,例如恐怖片、禁忌片等,每次电影制作成本都很低,亏了问题不大,但若有几个成为blockbuster,它就赚大了。至于航运企业,那些活得久的老家伙都很保守,只在低迷时期造船,也是类似的道理。

  银行业其实不是好行业,不具备《黑天鹅》作者所述的反脆弱性。老巴投资的富国银行是唯一的例外,它最保守。如果比尔·米勒明白这个道理,他就不会抄底雷曼了。

  在比尔·米勒看来,“护城河”最宽的地方就是20 世纪30 年代大萧条,“难道我应该在假设中设置一项,‘假设有朝一日我们回到奴隶制’么?”

  比尔·米勒如果真正明白了他号称经常研究的混沌理论、非线性动力学、复杂性理论,他就应该对金融业的黑天鹅有深刻认识,从而远远避开这个行业的公司,除非是富国银行这个少有的奇葩。但他贪图便宜抄底雷曼,是典型的知行不一。

  3. 即使有上述两条,还是要明白,最关键的是运气,大势胜于一切。适者生存,适应的是环境,环境变了,胜者也会变化。所以,要时刻关注假设和前提的变化,关注规则的变化,关注边缘地带。因为创新都来自于边缘地带,要关注颠覆式创新。那么如何才能发现边缘地带?必须不断学习,时刻否定自己,学会拥抱变化。

  《周边视野——探测引发公司成败的弱信号》里提到,金宝汤公司(Campbell Soup)的前任营销总监梅尔基奥雷说:“我所见过的成功人士所做的最重要的一件事,就是他们把每一天都当作全新的一天去体验和学习。我抛开所有以前的想法,当作自己一无所知地去体验每一天。让人们失败的真正原因是,是他们确信自己已经知晓如何做事,每天只是花费时间来验证他们的观点而已。我从来不认为我已经掌握了全部答案。我经常会把人们的怪异想法作为参考,比如,如果我们使用卡车来运送玉米饼或者水果会怎么样呢?如果你被困在原有的思维模式中,你就不会拥有广阔的视野,你的视野就仿佛是坐井观天,看到的是井口那么大的天地。”

  亚马逊创始人贝佐斯说:“聪明人会持续修改他们对特定事物的理解,重新考量先前已解决过的问题。聪明人也对新观点、新资讯和挑战他们既有思考模式的想法抱持着开放的态度。”贝佐斯鼓励大家拥有暂时而不是永久的想法,保持弹性以作改变。他说:“想法错误或做错决定的那些人,总是过度执着于只能支持某一特定观点的细节。而懂得思考的人会不断地省思,并对其他观点抱持开放的心胸。”

  《创造性破坏》里指出,具备路易斯·巴斯德所谓“心理准备”的人,才会关注到异常现象的存在。“亚历山大·弗莱明不是第一位发现细菌培养器皿受到霉菌孢子污染的人,却是第一位注意到附着在那一层胶化物体上面,明显的环状绒毛斑点所具有的更深层意义的人”。

  四、被移动互联重构的社会

  接下来,我们进一步来论证“过去是否能决定未来”这个简单的命题。通常情况下,绝大多数人的行为其实都是按照某种规律进行的,也就是过去如何做,未来也一般会如何做。例如平时早晚会有出行高峰,周末CBD 的人很少等等,都反映了社会人群的行为逻辑是可推演、可预测的,只要数据量足够大。但是这里有两个非常重要的假设性前提:一是社会现实的基础未发生大变化,另外一个是你所应用的群体,必须是样本的主体。

  先来看前提条件一,平时早晚会有出行高峰,是因为大多数人都是朝九晚五地上班,但是如果明天战争来了,还会是如此状态么?必然不是,战争把原先的社会基础给打破了,人的行为逻辑必然也就发生改变了。再按照过去的数据推演就无效。

  再来看前提条件二,更简单,你如果用早晚出行高峰去预测我的行为,那就一点成功的可能性也没有,因为我都是白天睡觉、晚上上班,我就属于样本分析群体里的异类,属于那部分不呈现样本分析的群体性特征的人。

  我们从这两个前提出发,第一,那些打破基础性环境的所谓黑天鹅事件,频繁么?可测么?我自己感觉是不可测,并且会越来越频繁。从而得出结论,未来社会中群体性可预测的事情会越来越少,尤其是移动互联网兴起之后。

  在移动互联网出现之前,人类社会骨子里还是个部落族长制社会,这种社会的特征是需要绝大多数人形成共同的价值观,然后基于此来展开社会分工协作。即使你不认同这种共同的价值观,一种被称为法律或者道德的东西,也会迫使你按照这种规则做事情。

  总之,一旦形成了主流价值观的趋势,你只有接受和不接受的权利。由于这种价值观在一定时期是固定的,这就使得社会整体的行为逻辑是可以很大程度上被推演和归纳的。所以,我们会发现在国家和民族内,都有共同的生活习惯,尽管很多生活习惯是被强加的,并不代表认同。

  在过去的社会里,你如果是一个生活在群体性特征下的异类,你的前途基本上很渺茫,会被不断地边缘化,处于自生自灭的境地。当然这个还算好的,如果你要反对这个社会的主流价值观,你的下场一般就是哥白尼之类的了。

  当然也有极个别的成功案例,就是被边缘化和不认同后,通过他自己的努力或者是运气,不但活下来了,还活得挺好。毕竟这样的人真不多。

  但是互联网出现之后,情况有了很大的变化。一个被自己原先所在群体边缘化的人,通过互联网,往往能找到另外一些和他一样被群体边缘化的人,然后一拍即合,构建起一个新的群体。所以从这个角度来看,互联网其实是极大地促进了社会群体的分化。社会更趋向多元化的分布,主流价值观会被打破,越来越多的价值观会涌现。这就使得对群体性行为的预测难度加大,就算每个群体的行为都可以被预测,但所有群体叠加之后整个社会行为的预测难度会很大。

  互联网时代,价值观的对错与否不再是唯一标准。个体对于所谓的价值认定也出现极大分化,一个人认为很没价值的东西,就有人做出完全不同的判断,主流价值观不断被分化。最典型的就是成功学,这个主流群体可能认为毫无价值的东西,其实受众远远多于批判的人。

  以前我们的社会讲究什么?讲究规矩,例如播音员要字正腔圆,写文章要条理清晰,逻辑分明。现在发现不是了,你普通话越不标准,得,观众还越喜欢;你文章没人看得懂,得,无数少男少女为之疯狂。这意味着社会旧有的运行秩序会被重构,背后所反映的是样本分析、群体分析的难度在加大。

  任何一个偶发性的东西都会因为这些群体行为的不可测而变得难以捉摸,例如有段时间很流行的“贾君鹏,你妈妈喊你回家吃饭”“元芳,你怎么看?”都莫名其妙地流行起来,呈现无目的性,无意识的偶然性因素极大增加。你去豆瓣看,有个“打死不穿秋裤组”,几十万粉丝,还有个群“打死也要穿秋裤组”,也几十万粉丝,就是这个特征

  由此判断,未来的社会形态将呈现出“现代社会的部落制形态”,过去那种集中式、大一统的社会可能会进一步走向多元、分散,甚至去中心化,但由此带来的是整个社会更易陷入小团体有意识,整体无意识的社会方向,从而使得社会的前进方向更具随机性。

  于是也更容易理解,为什么现在互联网上吵架那么多?互联网的这种特性,极大地降低了吵架的成本,让傻瓜碰到傻瓜的机会大大增加。以前找个人吵架也挺难的,现在容易多了,随便放个屁都能臭到人家,不吵架也难。并且,在没有足够人群支持的情况下,吵架其实是需要胆子的,而一旦有一群相同观点的人支持你的时候,人的胆子会增加,吵架因为有了看客而更容易引发。

  未来社会的另一个特征,是不可测事件的频发性。我在前面提过一个观点,到底是谁推动了社会的进步?社会由三种人构成:天才、脑残、普通民众。大部分人是普通民众,天才和脑残都是极少数人。以前我们接受的教育是人民群众推动历史前进,现在我不这么看,我感觉社会要么是精英推动,要么是脑残推动,但是肯定不是普通人推动。为什么这么说呢?

  因为我们发现,人类社会进化的过程其实就是一个不断搞死别的物种的过程,而这个过程中,基因突变很重要。基因突变是在进化过程中能打败别人和取得绝对优势的至关重要的一个环节。突变之后的个体展现出了更高层次的技能,从而给群体创造了一个进化的方向,并且带领群体开启这个进化过程。

  这个突变,本身就反映了随机性和不确定性。发生突变的个体,从人类社会来说,就是精英或者脑残。所以,我一直不认为我们走到今天这一步是必然的。在另外一个空间,可能并不是人主宰地球。

  这里面再深入下去,我们还会发现很有意思的事情。人类的进化并不是按照最优路径进行的,从进化通道来看,基因本身也会同时出现多种方向,并不是最先进的基因决定了进化方向。进化的方向往往带有极大的偶然性,随着外界环境的变化而变化,但外界环境又带有极大的不确定性,大量的事情是非必然的。

  最好的例子是恐龙。恐龙的灭亡,很大程度是因为小行星的碰撞,这个突发的偶然性事件,使得统治了地球近1.4 亿年的恐龙在很短的时期里全部死去,代表了当时最先进生产力的恐龙就此灭亡,地球的进化方向转向了。没有任何数据可以推导出这个偶发性的外部因素,以及由此所造成的影响。

  人类进化历程也必然如此,前进是必然的,如何前进却是偶然的。由于样本分布太少,数据不够充分,那些推动人类历史进程的天才或脑残,现实中恰是无法进行数据推演的。

  简而言之,正确归纳和推演社会普遍群体的某一逻辑,其背后需要稳定的社会环境基础,而稳定的社会环境基础,却往往会被少数脑残或者天才所改变。因此,结论是社会群体的推演其实是无法预测的,而且移动互联时代更加剧了进程的不确定性。

  现在这种不确定性日益明确,我们反倒认为大数据的基础其实在坍塌。我们继续看大数据存在的一些假设前提条件,其中有一个认为互联网世界提供了全数据。

  《大数据》这本书的联合作者,牛津大学互联网中心的维克托迈尔-舍恩伯格教授,曾说他最喜欢的对于大数据集合的定义是“N= 所有”,这里不再需要采样,因为我们有整个人群的数据。

  这就好比选举监察人不会找几张有代表性的选票来估计选举的结果,他们会记点每一张选票。当“N= 所有”的时候,确实不再有采样偏差的问题,因为采样已经包含了所有人。这个说法很有意思,因为互联网的海量容纳数据的可能性,的确给了全数据一个很好的假设前提,但是假设始终只是假设,现实却总是现实。

  这个假设论证大数据意义的同时,也提出了一个致命的问题,即“N= 所有”可实现么?如果N 不等于所有,是否也意味着大数据其实是不可能实现的任务,这就是我在很多地方一直强调的全数据的可实现性。

  如果无法实现和提供全数据,那就意味着大数据可能是失效的,我提过一个概念,如何看待民意的问题。理论上很多人都把微博作为舆论情绪的主要调查样本,因为这里的数据第一可得,第二可统计,但是事实上,微博上的舆论情绪代表了真正的民意么?显然不是的。

  很多时候我说,打开微博,暗无天日,关掉微博,风轻云淡。发现世界压根没有微博上说的那么糟糕,理由很简单,微博的使用群体并不能代表社会的普遍性群体,中国十三亿人,有十二亿人压根没有使用微博的习惯,他们的情绪被忽视了。一个忽略了绝大部分群体的数据,能代表最终的舆论倾向么?基础数据的样本偏差,直接带来了结果偏差,无法覆盖足够多的样本所带来的最终统计结果,其准确性必然是极差的。

  前面我提过大数据的本质必然是统计学的社会应用,它没有带来新的真理,没有改变统计学的基础原理,因此没有必要刻意拔高它的现实意义。过去统计学中碰到的所有问题,大数据依然会碰到。

  现在很多关于大数据的言论,其实都带有一点文字游戏的特征,已经带有很强的心理暗示和商业营销行为在内。最经典的案例是少女怀孕那个案例,曾经非常的有名,但是却经不起推敲。

  美国折扣连锁店Target 的传奇式成功(由《纽约时报》的Charles Duhigg 于2012 年报道),以后估计都难以效法。Duhigg解释了Target 公司是如何从它的顾客身上搜集到大量的数据并熟练加以分析,它对顾客的理解简直到了出神入化的程度。

  Duhigg 讲的最多的故事是这样的:一名男子怒气冲冲地来到明尼苏达州的某一Target 连锁店,向店长投诉该公司给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方地向他道了歉。可不久后,店长又收到这名男子的电话,要求店长再次道歉——只是这一次店长告知那名男子,那个少女确实怀孕了。在这名男子还没有意识到的时候,Target 通过分析少女购买无味湿纸巾和补镁药品的记录就猜到了这个事实。

  做这样的案例分析之前,我们从统计学角度出发,首先要考虑的问题是,这样的案例背后我们所没看到的其他因素,最简单的一个因素就是,到底有多少没有怀孕的人也收到了类似的优惠券?这个很重要,直接关系到统计准确率的问题。

  事实上,这个少女可能仅仅只是个特例,因为很多跟她一样的女孩子,其实都收到了优惠券,因为Target 给所有人都寄了,只是恰巧碰到了少女怀孕这个案例。两者一比较,就会发现,大数据的光环没了,在看大数据成功案例之前,其实我们要更多关注反面案例到底有多少,而不是正面案例有多少,一千万碰到一个的算法跟精准命中的算法,虽然最终都是命中,但是商业价值是大打折扣的。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询