大数据世界里的谎言与事实
这位先生,您好,您听过大数据么?
不不不,不是锯大树的那个锯...是很大的数据,特别大,是今年最流行的,人人都在谈的先进技术——您只要用了我们的大数据分析方案,保证您的企业盈利得到前所未有的增长。
嗯?怎么用?那别提有多简单了,您看,不就是很大量的数据嘛,我这里有特别多,可以先拨一点给您用用。
有多大的量?嗯,您看,太多了您也用不着——这样,我这里一口气给您两千条,您也是个爽快人,就一口价,五百,都在这个U盘里了。
诶?什么?这个U盘就值10块钱?不不不,这里可是有价值连城的数据, 现在这个数据驱动的时代,数据就是财产,就是金钱啊 !
这样,我盼着您以后还要和我们多合作来着,就二百五,给您打个对折,您觉得好我们可以继续合作……
什么?你说我才是二百五?
欸欸!我们谈生意你怎么动起手来了?别打人啊你?
……
02
据说是著名的产品经理圣经《Don't make me think》(别让我思考)里有这样一个有意思的场景:
“一次宗教辩论”
产品经理,技术经理和市场销售在一起为了一个产品的功能开会。对于功能A,产品经理觉得很有必要做,他想问问技术和销售的看法。
技术方面认为功能A的开发难度与回报率不成正比,因此强烈反对此功能。销售方面却认为功能A的反响也许会不错,至少比现存的功能B要受到客户欢迎,却也没有办法拿出切实的证据,比如到底有多少用户希望有这样一个新功能。
由于技术是开发的主要实现者,无法说服技术,于是关于这个功能的谈判不欢而散,这又是一次“无效的会议”。
试想一下两种不同的说法:
1.因为在街上许多人都对我很友善,因此我认为大多数人都喜欢我。
2.根据在街上随机抽样10000人的结果显示,里面的8000个人表达了对我的喜欢,因此我认为大多数人都喜欢我。
哪一个更有说服力呢?抛开随机抽样的科学性和偶然性不谈,显然第二个说法更有说服力, 因为比起第一个“感觉上”的说法,至少它提供了一定的“证据”。
再想想最开始书中的那个例子,如果销售能够提供有力的数据证据证明这个功能受欢迎,或者技术能够证明开发这个功能得不偿失,这个会议就很容易达成有效的结果。
数据思维,也可以说是量化思维,它的核心在于“以数据为证据”。数据思维,实际上就是把数据作为事实的一种,作为思维决策的依据。
所以什么是数据时代思维的核心呢?
现在对于各种机器学习和人工智能铺天盖地的宣传,有可能会给人一个错误的印象:制造一个机器或程序,集成一堆牛逼的算法,给它一堆大数据,它就能回答你与这些数据有关的有的没的的问题。
就好像是存在一个万能的黑箱,你输入一堆关于自己的生辰八字,住址户籍,身高体重等等信息,然后你问它:
“万能的数据之神呀,你觉得我怎样才能让我走上人生巅峰,让思聪都要叫我爸爸呢?”
醒醒吧孩子,你需要被这个世界温柔以待...
03
回想我们之前说的,数据是一种“事实”或者“证据”。 有一些“事实”和“证据”很直接,不需要复杂的判断你就能给出结果:
汤姆与杰瑞
比如作为一只老鼠,它知道奶酪好,猫坏,如果有奶酪出现就可以吃,有猫出现就要跑。这里”奶酪出现”和“猫出现”都是事实,根据这个事实,老鼠就可以进行简单的判断。
有些时候,数据的片段能够作为“事实”,很轻易构成完整的逻辑链:
比如聊天系统显示,你一直和一个女生沟通很频繁,每天有超过200条聊天数据,最近这个数据突然上升到300;你的搜索记录显示你频繁搜索“第一次见面“这个关键词;淘宝的交易记录还显示你买了一些安全类产品,就在后天寄到。
综上所述,我能90%地肯定,你最近要和一个暧昧已久的妹子见面了。
你懂的
怎么样?要是你把这些事情和我说一遍,我也八九不离十能猜到你最近要和一个暧昧已久的妹子见面。然而在这个例子里,你并没有告诉我你要做这些事儿, 只是你的行为被转化成了数据,成为了我做推断的事实 。
知道为什么你的网页左右两边时常出现你想要买的东西的广告了吗?如这个例子一样,你平时在网页上点点点,搜索引擎框里搜搜搜的这些行为,都被转化成了数据,从而出卖了你的想法。
有一个著名的案例叫“Target超市比父母更早知道你的女儿怀孕”。这个案例讲的是因为女儿在Tareget超市中购买的物品的数据被经过分析,得出了女儿大概在什么时候怀孕,从而提前开始向家里寄广告。这导致一开始父母都不知道为什么,后来才恍然大悟。
数据时代的一个重大变化就在于: 那些平日里被我们认为没有意义的举动或者瞬间,实际上都被事无巨细地转化成数据,保留成事实,从而用来有效地推断你的行为。
04
当零零散散的数据被记录下来,最终构成一个庞大的集合, 比起之前那个脉络清晰的个人分析,你发现想要从这个集合中获取有价值的特征信息变难了。
举个例子,在一个庞大的数据系统中,记录了每个人的相关身份信息以及信用违约记录,这个数据系统里有1000万条数据,虽然还远远称不上“大数据”,然而早已超出了人力能够观察承受的范围。
这个时候,我们就需要利用一些数据分析的技术——你所听到的统计分析,神经网络,等等等等,都属于这样一个范畴。在此本狗不深究分析的技术细节,但想要高度概括地表达一下:
所有的技术,都是用来辅助你表达对于数据的观点,如同我们通过观察现象,从而表达对事实的观点一样。
数数,是人类最早掌握的关于统计的,最简单的技巧,光用这一点,人们就已经开始利用观察到的数据证明事实。
比如著名的“世界上没有黑天鹅”的例子:相比于见到黑天鹅的人,见到白天鹅的人实在是太多了,因此人们利用“数数”,将这样一个数据组成一个集合,作为说服人的依据——我已经遇到了9999个见到白天鹅的人,没有人见到黑天鹅,因此下一只见到的天鹅也一定是白的。
黑天鹅
一些更复杂的技巧与方法,能体现出“事实之下的事实”,跨越了“数量”这样给人最直观感觉的事实。平均数,众数,期望等——能体现不同标准下最有可能出现的事实;方差,标准差——体现事实的变动程度。
再往下,人们尝试寻找事实的“分布”,也就是事实出现的一般规律。再深一点,人们开始意识到事情并不是A喜欢B,B喜欢C,那么A喜欢C那么简单,于是出现了事实之间的线性,非线性关系,从数据进行推断,表达观点的过程变得越来越复杂。
但最终说了这么多,我们再回到最开始 —— “数据分析”,是用数据作为事实证据,从而来表达观点的过程。如同一般讲道理,表达观点的思维一样,我们永远需要疑问的两点是:
1.作为事实的数据值得信赖吗? (比如黑天鹅的例子,我们观察到的数据并不是事实的全部,然而事实上人们常常使用错误的数据尝试证明一个看似正确实则错误的观点)
2.表达观点的过程有道理吗? (不管是多高级的方法,支持向量机,AlphaGo用的深度学习网络等等,都是需要有一个符合直觉的解释,就像是我们利用事实讲道理一样)
为此,人们又研究发明了许多方法来证明这两点,从而证明整个利用数据推断的过程都是可以信赖的,最终才能证明得到的结论值得信赖。然而这些都是后话了,有兴趣的读者可以自行搜索交叉验证,P值,置信区间等等关键词。
只要明白这两点,你就能逐渐开始明白大数据世界中的谎言与事实,开始渐渐明白数据思维的乐趣。
数据分析咨询请扫描二维码
数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20统计学专业的就业方向和前景非常广泛且充满机遇。随着大数据、人工智能等技术的快速发展,统计学的重要性进一步凸显,相关人才的 ...
2024-11-20