热线电话:13121318867

登录
首页精彩阅读大数据世界里的谎言与事实
大数据世界里的谎言与事实
2017-10-08
收藏

大数据世界里的谎言与事实

这位先生,您好,您听过大数据么?

不不不,不是锯大树的那个锯...是很大的数据,特别大,是今年最流行的,人人都在谈的先进技术——您只要用了我们的大数据分析方案,保证您的企业盈利得到前所未有的增长。

嗯?怎么用?那别提有多简单了,您看,不就是很大量的数据嘛,我这里有特别多,可以先拨一点给您用用。

有多大的量?嗯,您看,太多了您也用不着——这样,我这里一口气给您两千条,您也是个爽快人,就一口价,五百,都在这个U盘里了。

诶?什么?这个U盘就值10块钱?不不不,这里可是有价值连城的数据, 现在这个数据驱动的时代,数据就是财产,就是金钱啊 !

这样,我盼着您以后还要和我们多合作来着,就二百五,给您打个对折,您觉得好我们可以继续合作……

什么?你说我才是二百五?

欸欸!我们谈生意你怎么动起手来了?别打人啊你?

……

02

据说是著名的产品经理圣经《Don't make me think》(别让我思考)里有这样一个有意思的场景:

大数据

“一次宗教辩论”

产品经理,技术经理和市场销售在一起为了一个产品的功能开会。对于功能A,产品经理觉得很有必要做,他想问问技术和销售的看法。

技术方面认为功能A的开发难度与回报率不成正比,因此强烈反对此功能。销售方面却认为功能A的反响也许会不错,至少比现存的功能B要受到客户欢迎,却也没有办法拿出切实的证据,比如到底有多少用户希望有这样一个新功能。

由于技术是开发的主要实现者,无法说服技术,于是关于这个功能的谈判不欢而散,这又是一次“无效的会议”。

试想一下两种不同的说法:

1.因为在街上许多人都对我很友善,因此我认为大多数人都喜欢我。

2.根据在街上随机抽样10000人的结果显示,里面的8000个人表达了对我的喜欢,因此我认为大多数人都喜欢我。

哪一个更有说服力呢?抛开随机抽样的科学性和偶然性不谈,显然第二个说法更有说服力, 因为比起第一个“感觉上”的说法,至少它提供了一定的“证据”。

再想想最开始书中的那个例子,如果销售能够提供有力的数据证据证明这个功能受欢迎,或者技术能够证明开发这个功能得不偿失,这个会议就很容易达成有效的结果。

数据思维,也可以说是量化思维,它的核心在于“以数据为证据”。数据思维,实际上就是把数据作为事实的一种,作为思维决策的依据。

所以什么是数据时代思维的核心呢?

现在对于各种机器学习和人工智能铺天盖地的宣传,有可能会给人一个错误的印象:制造一个机器或程序,集成一堆牛逼的算法,给它一堆大数据,它就能回答你与这些数据有关的有的没的的问题。

就好像是存在一个万能的黑箱,你输入一堆关于自己的生辰八字,住址户籍,身高体重等等信息,然后你问它:

“万能的数据之神呀,你觉得我怎样才能让我走上人生巅峰,让思聪都要叫我爸爸呢?”

醒醒吧孩子,你需要被这个世界温柔以待...

03

回想我们之前说的,数据是一种“事实”或者“证据”。 有一些“事实”和“证据”很直接,不需要复杂的判断你就能给出结果:

汤姆与杰瑞

比如作为一只老鼠,它知道奶酪好,猫坏,如果有奶酪出现就可以吃,有猫出现就要跑。这里”奶酪出现”和“猫出现”都是事实,根据这个事实,老鼠就可以进行简单的判断。

有些时候,数据的片段能够作为“事实”,很轻易构成完整的逻辑链:

比如聊天系统显示,你一直和一个女生沟通很频繁,每天有超过200条聊天数据,最近这个数据突然上升到300;你的搜索记录显示你频繁搜索“第一次见面“这个关键词;淘宝的交易记录还显示你买了一些安全类产品,就在后天寄到。

综上所述,我能90%地肯定,你最近要和一个暧昧已久的妹子见面了。

blob.png

你懂的

怎么样?要是你把这些事情和我说一遍,我也八九不离十能猜到你最近要和一个暧昧已久的妹子见面。然而在这个例子里,你并没有告诉我你要做这些事儿, 只是你的行为被转化成了数据,成为了我做推断的事实 。

知道为什么你的网页左右两边时常出现你想要买的东西的广告了吗?如这个例子一样,你平时在网页上点点点,搜索引擎框里搜搜搜的这些行为,都被转化成了数据,从而出卖了你的想法。

有一个著名的案例叫“Target超市比父母更早知道你的女儿怀孕”。这个案例讲的是因为女儿在Tareget超市中购买的物品的数据被经过分析,得出了女儿大概在什么时候怀孕,从而提前开始向家里寄广告。这导致一开始父母都不知道为什么,后来才恍然大悟。

数据时代的一个重大变化就在于: 那些平日里被我们认为没有意义的举动或者瞬间,实际上都被事无巨细地转化成数据,保留成事实,从而用来有效地推断你的行为。

04

当零零散散的数据被记录下来,最终构成一个庞大的集合, 比起之前那个脉络清晰的个人分析,你发现想要从这个集合中获取有价值的特征信息变难了。

举个例子,在一个庞大的数据系统中,记录了每个人的相关身份信息以及信用违约记录,这个数据系统里有1000万条数据,虽然还远远称不上“大数据”,然而早已超出了人力能够观察承受的范围。

这个时候,我们就需要利用一些数据分析的技术——你所听到的统计分析神经网络,等等等等,都属于这样一个范畴。在此本狗不深究分析的技术细节,但想要高度概括地表达一下:

所有的技术,都是用来辅助你表达对于数据的观点,如同我们通过观察现象,从而表达对事实的观点一样。

数数,是人类最早掌握的关于统计的,最简单的技巧,光用这一点,人们就已经开始利用观察到的数据证明事实。

比如著名的“世界上没有黑天鹅”的例子:相比于见到黑天鹅的人,见到白天鹅的人实在是太多了,因此人们利用“数数”,将这样一个数据组成一个集合,作为说服人的依据——我已经遇到了9999个见到白天鹅的人,没有人见到黑天鹅,因此下一只见到的天鹅也一定是白的。

黑天鹅

一些更复杂的技巧与方法,能体现出“事实之下的事实”,跨越了“数量”这样给人最直观感觉的事实。平均数,众数,期望等——能体现不同标准下最有可能出现的事实;方差标准差——体现事实的变动程度。

再往下,人们尝试寻找事实的“分布”,也就是事实出现的一般规律。再深一点,人们开始意识到事情并不是A喜欢B,B喜欢C,那么A喜欢C那么简单,于是出现了事实之间的线性,非线性关系,从数据进行推断,表达观点的过程变得越来越复杂。

但最终说了这么多,我们再回到最开始 —— “数据分析”,是用数据作为事实证据,从而来表达观点的过程。如同一般讲道理,表达观点的思维一样,我们永远需要疑问的两点是:

1.作为事实的数据值得信赖吗? (比如黑天鹅的例子,我们观察到的数据并不是事实的全部,然而事实上人们常常使用错误的数据尝试证明一个看似正确实则错误的观点)

2.表达观点的过程有道理吗? (不管是多高级的方法,支持向量机,AlphaGo用的深度学习网络等等,都是需要有一个符合直觉的解释,就像是我们利用事实讲道理一样)

为此,人们又研究发明了许多方法来证明这两点,从而证明整个利用数据推断的过程都是可以信赖的,最终才能证明得到的结论值得信赖。然而这些都是后话了,有兴趣的读者可以自行搜索交叉验证,P值,置信区间等等关键词。


只要明白这两点,你就能逐渐开始明白大数据世界中的谎言与事实,开始渐渐明白数据思维的乐趣。


数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询