解读《大数据时代》:大数据时代的神话
地球人都知道我们处在大数据时代,或许地球人也都知道关于大数据时代最著名的一本书就是迈尔-舍恩伯格所著的《大数据时代》。
我本以为大数据这么高深的学问绝不是我们这样的屌丝能够理解或者使用的,所以一直对此书敬而远之,不敢阅读。不料周边谈论大数据的人越来越多,谈论《大数据时代》这本书的人也越来越多,似乎不读《大数据时代》,估计连屌丝都做不成了。所以斗胆请来《大数据时代》。一读,果然不懂,许多疑问。
何为大数据?
这是一个很令人困惑并且绝对屌丝的问题,平时都不好意思开口问别人,希望从书中得到答案。遗憾的是,迈尔大叔在书中就根本没有告诉我们什么是大数据,这对像我这样习惯在课堂里死记硬背的学生来说,就产生了轻微的智障:怎么似乎什么都是大数据。可要我记住哪一个却十分困难。
看完此书,我只能回答说大数据就是数据多数据大。可是这个回答似乎有明显的问题。迈尔大叔在书中就举了一个大数据的例子,这个大数据只有“4000”和“两小时”。
在解释大数据时代不需要精准性时,迈尔大叔这样写道:
“互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时,可以看到有多少其他人也在点击。当数量不多时,会显示像“63”这种精确的数字。当数量很大时,则只会显示近似值,比方说“4000”。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。另外,数据更新得非常快,甚至在刚刚显示出来的时候可能就已经过时了。所以,同样的原理适用于时间的显示。谷歌的Gmail邮箱会确切标注在很短时间内收到的信件,比方说“11分钟之前”。但是,对于已经收到一段时间的信件,则会标注如“两个小时之前”这种不太确切的时间信息。”
4000个“赞”或者两小时(120分钟)也是大数据?我开始崩溃了!
我想是不是迈尔大叔可能考虑到我们对过万的数字数不过来所以有意简化,挑选我们能够理解的“大数据”来说明他的论断。
指鹿为马是谓荒唐。可是,如果对马没有定义,那指鹿为马就无所谓了。
呵呵,迈尔大叔还真幽默。
何为大数据时代?
我读西洋人写的书,总是觉得读书时很爽,读完后基本记不住。读《大数据时代》也有同感。很多很多的大数据例子,读完合上书后基本上一个都记不住。不过迈尔大叔可能知道我的这个毛病,所以提纲挈领,总结了大数据时代的三大特征。这就是地球人都知道的大数据时代的三大特征:1)不是随机样本,而是全体数据;2)不是精准性,而是混杂性;3)不是因果关系,而是相关关系。
一本书,三句话,一个时代的特征!楚汉河界,泾渭分明,一目了然。
小数据时代是随机样本、精准性和因果关系,大数据时代是全体数据、混杂性和相关关系。
可是我的脑子就是转不过来,没法从迈尔大叔的三个简单扼要的特征总结中悟出大数据时代来。这个看上去忒简单的总结,其实真的很深奥。简直可谓深不可测!
一大堆的问题等着迈尔大叔来回答。
比如说,是不是大数据时代就不要随机取样分析了?小数据时代是否也有所谓的全体数据?比如说30年前互联网未流行前美国银行或保险公司拥有的数据是不是全体数据?怎样定义全体数据?谷歌、百度、FACEBOOK或者腾讯,哪个公司拥有所谓的全体数据?为什么有了全体数据分析就要完全抛弃随机样本分析?如果考虑到随机样本分析会影响到分析结果的精度,不是大数据时代不追求精度吗?
关于大数据时代不要精准性,我怎么也拐不过弯来。你说,大数据时代的老师教学生“2+2或许等于3.9”,公司会计记账错了也可以对老板理直气壮地说“现在是大数据时代了”,甚至到饭店吃饭付账也不要精准了....。.呵呵,这日子还让不让人活啊?!
还有有关因果关系和相关性的问题,这也要命!我一直认为人与猴子的根本区别在于人喜欢问个“为什么?”。原本两个猴子,一个不断好奇地问“为什么日落就要睡觉”,结果大脑不断进化变成了人;另一个只是看到日落就上树睡觉,结果至今还是猴子。现在好了,大数据时代不需要问“为什么”了,岂不苦了我们从猴子变人过程中长期培育起来的好奇心了。
因果关系与相关关系的区别,就是因果关系在相关关系上问了个”为什么“。
流传甚广的有关超市将啤酒与尿布一起卖的大数据例子。说是通过大数据分析发现,人们在买尿布时通常也会买啤酒,于是就将啤酒与尿布陈列在一起卖。
如果你生活在大数据时代,故事到此结束了。
如果你还好奇地想知道为什么人们买尿布时要买啤酒。呵呵,对不起,你和我一样还生活在小数据时代。
我们无疑生活在一个互联网的时代,这是一个充满海量数据的世界。数据的多种形式、数据的多种来源、数据之间的多种复杂的联系,都使我们这个世界变得更加神秘但也更加激动人心。这就是大数据时代。
对大数据时代的探索,犹如当年美国对西部的探险,充满许多传说和神话。《大数据时代》或许可能就是这样一本充满神话与传说的探险记。我们为之心动,但依旧要活在现实的生活中,现实生活中的那些规律依旧适用。
即使是大数据时代,我们依旧需要问”为什么“,我们依旧需要教会孩子“2+2=4”,我们甚至依旧要做随机样本分析。
大数据并没有改变我们现有社会的基本生活逻辑。
大数据时代,平常人,平常心。
数据分析咨询请扫描二维码
数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21