大数据将打开一扇怎样的门
作为人类生活的重要基础,大数据打开了一扇新的大门。而更重要的在于,通过大数据打开的那扇门,人们看到的不只是数据本身,而是在大数据基础上出现的一种新的人类文明。
近20年来,大数据浪潮已经向我们扑面而来。有人形容,大数据就像一片无边无际的大海,海面一浪高过一浪,而浪潮之下深不见底。与此同时,从国际零售巨头沃尔玛“啤酒和尿布”的经典案例到精准医疗等,大数据在人们生活和工作中的重要性越来越得以凸显。面对大数据打开的一扇新的大门,我们不能不深入思考:这将是怎样的一扇大门?又会将我们带进一个怎样的世界?
大数据正在把世界变成数据?
从通常的定义看,大数据被认为是不能用传统数据库软件工具获取、贮存、管理和分析的数据集合。这是大数据的技术定义,但显然,并没有涉及大数据浪潮深处最重要的内容。
大数据技术定义最主要的一个着眼点,就是规模大。但是,大数据的关键性质不主要是规模大,而是完全不同于作为样本数据的小数据。通常,样本数据的获取总是在先设定明确甚至单一目的的。这种具有在先设定的取样,一方面可以更好地实现采样前预设的目标;另一方面就像亚里士多德所说,在选择了某种可能性的同时,也抹去了无数其他可能性的蓓蕾。
大数据的另一个更重要性质是维度全。通常,我们拍照会选取一个角度,角度一取,数据就固定了。面对一张拍好的平面照片,再要换个角度去观察已不可能。而大数据则几乎保留了全纬度。面对大数据,我们可以从不同的角度进行考察。当然,事实上没有任何大数据是真正“全”的,就像世界上没有任何事物是十全十美的,但是,就人类的使用需要来说,其维度则可以看作是“全”的。作为样本数据,小数据是“残缺”的。就像尼采说抽象的概念是“干枯的标本”,样本数据和抽象概念的共同特点都是已经“失活”了。而大数据意味着活数据(动态数据)、全数据。因此,“全数据”是理解大数据的一个富有哲学意蕴的角度。从这个角度,我们可以看到更丰富的内容:大数据是不仅在规模上大,而且在维度上全到就人类使用需要而言的全数据。
大数据特别是其全数据的性质意味着什么呢?
在大数据的基础上,物数据化和数据物化构成循环。大数据的核心口号是量化世界。而量化世界为创构世界奠定了基础。这是因为,物数据化事实上就是物信息化,而物信息化是一个含义更为广泛的概念,它与小数据基础上也能出现的物数据化完全不同。同样,数据物化实质上就是信息物化。信息物化和物信息化两个方面所构成的循环,使人类进入一个创构的时代。大数据基础上的创构与筑路修桥等工程不一样。随着数字技术的发展,创构活动及其产物与人的存在方式越来越密切地联系在一起。
这里涉及一个新的重要概念,信息。对于信息,已有一百多个定义。其中,控制论创始人维纳的定义最为耐人寻味。在维纳看来,“信息就是信息,既不是物质也不是能量”。这个定义看上去像是同义反复,但却富有深意。它表明,信息是一种不同于物能,但又具有和物能并列地位的资源。信息不仅既不是物质也不是能量,而且具有一些物能所不具有的重要性质。比如,物能复制成本呈正比增加,而信息复制的边际成本递减;物能越分享越少,而信息越共享越多。信息的这些重要性质,在作为样本数据的小数据时,显示不出其重要性,而在具有全数据性质的大数据基础上,则就非同寻常了。在大数据的基础上,信息不可能不对人类的文明发展产生极为重要的影响。
如今,作为人类生活的重要基础,大数据打开了一扇新的大门。而更重要的在于,通过大数据打开的那扇门,人们看到的不只是数据本身,而是在大数据基础上出现的一种新的人类文明。
关于大数据的特征,最多的提到了“42v”
关于大数据的特征,最早是用“3v”概括的。几年前,人们认为“3v”不足以描述大数据的特征,又提出了“4v”的描述。到现在,关于大数据特征,最多的提到了“42v”。不过,对于大数据特征,目前获得较多共识的是这“4v”,即大量“volume”、多样“verity”、高速“velocity”和价值“value”。
“volume”一般理解为大量。大数据首先意味着数据量巨大。小数据时代主要由人工创建数据,而大数据时代则是由机器、网络和人类相互作用生成。大量是大数据的基本特征,但往往被误以为大数据就是大,事实上,这个特征所表达的是大数据规模的整全性。正如前面所谈到的,大数据的“大”不是纯粹的量的概念,这个“大”的关键是全。样本数据也可以规模很大,但不具有大数据的性质。大数据的“大”事实上是一个质的概念。
“verity”一般理解为多样。这包括大数据来源的多样性和类型的多样性,也包括数据结构的多样性。但是,“verity”不能简单地理解为数据来源和类型的多样性,也不能只是进一步涉及数据的结构化、半结构化和非结构化。由于数据结构的多样性和复杂性,大数据的这一特征还意味着数据结构的开放性。数据的结构化、半结构化和非结构化所表达的,不仅仅是数据的结构状态,更意味着开放的大数据结构。比如,大数据与大自然不同。大自然可以满足我们的生存需要,但我们面对大自然,作为很有限。而大数据不一样,在以人类需要为出发点的大数据挖掘中,数据结构开放在数据和人类需要及其发展这一无限空间中,人类则正是在这一无限空间进行满足自己需要的创构。
“velocity”一般理解为高速。它不仅仅是指技术设备的数据处理速度,更重要的,是指决定于数据处理速度的实时数据流。样本数据在取样后就是冻结的,而大数据可以实时获取所需信息。对于大数据来说,信息是活的,是随着时间而流动的。正因为如此,对于实时数据流来说,速率就特别重要。高速的数据流更能在时间上与现实过程同步,因而跟人类的生存更密切地联系在一起。不仅如此,只有高速流动的数据,才能为我们提供无限的可能性。以往由于受速率限制,我们所获得的数据和所要反映的内容往往是脱节的,而数据流的高速率使我们把握对象的手段越来越完善。事实上,大数据的整全性就包括数据流速这个至关重要的维度。
“value”用以描述大数据的价值。这个“v”所涉及的是大数据最重要的特征。人们普遍认为,大数据的价值密度低,数据挖掘是“沙里淘金”。其实,大数据价值特征的重要性不言自明,但大数据也十分复杂。大数据是否有价值的关键,在于能否把握数据背后所揭示的相关关系组合与人的需要及其发展的关系。由于与人的需要及其发展相联系,由于数据结构是开放的,大数据的价值不再只是简单地反映大数据与人的自在需要的关系,而更与人的理解能力密切相关。对于同一个结构开放的大数据,在有的人看来是一座宝库,价值连城;而另一些人则可能视其为一堆垃圾,毫无意义。大数据的价值和意义,很大程度上取决于人们关于大数据相关关系和人的需要及其发展之间关联的理解,取决于人们的眼光,而归根结底,取决于对人的需要及其发展的理解和把握。而这显然是个典型的哲学课题。随着大数据的发展,不仅哲学等各学科将越来越相互融合,而且将迎来哲学与科学、社会和生活一体化发展的时代。
大数据应用:毫无意义的垃圾,还是价值连城的宝库?
上述所谈到的,大数据究竟是垃圾,还是宝库,涉及的是大数据的应用。换句话说,既然大家都认为大数据是个好东西,是个有用的东西,那么,怎么应用呢?
就目前而言,大数据应用仍然是国际上一个重要而前沿的话题。而大数据中的相关关系和因果关系,是当前大数据应用和分析研究中的重要问题。大数据凸显了相关关系的巨大魅力,但同时构成了对传统因果观念的严峻挑战。
跨国零售企业沃尔玛“啤酒和尿布”的故事,就是人们津津乐道的大数据应用的一个经典案例。沃尔玛在大数据基础上,用“购物篮方法”分析消费者购物行为时发现,一些男性顾客在购买婴儿尿布时,常常会同时买几瓶啤酒。原来,美国家庭有了小孩,一般是母亲在家照顾孩子,父亲外出采购。而为家里添丁忙碌的年轻父亲们在购买尿布时,常常会稍带给自己买上几瓶啤酒,既解乏又喜庆。由此,沃尔玛推出啤酒和尿布摆在一起的促销方式,吸引了更多有这种需要的顾客到沃尔玛购物,使尿布和啤酒的销量都大幅增加。
大数据相关关系在类似行业的成功应用,使人们理所当然地提出还要不要深究因果关系的问题。一些极端的观点甚至认为:大数据是关于“是什么”而不是“为什么”的;大数据会自己说话,因而,只要相关关系,不要因果关系。只要相关关系不要因果关系的观点,显然是兴奋于大数据相关关系令人惊叹的实用性。但其实,大数据不仅把握相关关系,而且把握作为其根基的因果关系。
“蛋挞和手电筒”,就是一个典型的例子。与“啤酒和尿布”的案例一样,沃尔玛的大数据表明,很多人在买手电筒的同时购买了蛋挞。因而,根据顾客同时购买蛋挞和手电筒的相关性,在货架上把它们摆放在一起,以提高销售量。但是,如果知道其背后的因果关系,相关销售效果显然会更好。究其原因,有人发现,人们同时购买手电筒和蛋挞的因果关系涉及北美飓风。这是因为,飓风来临前人们既需要准备手电筒,又需要准备食物。可是,北美飓风是季节性风暴,如果只知道相关关系不知道因果关系,就可能一直把手电筒和蛋挞这两类不同商品放在同一货架上。而知道了背后的因果关系,就可以在飓风来临前把蛋挞和手电筒放在一起,而且还可专设飓风用品位置。
可见,只要相关关系、不要因果关系的观点,很容易被驳倒。其实,更关键的问题,不在于是相关关系还是因果关系更加重要,而在于怎么理解相关性和因果性之间的关系。
关于这一问题的研究,涉及传统因果概念的重新刻画。传统因果观只是反映了日常生活和经典物理学中因果关系的表观现象,“原因的原因的原因……”。一方面,追溯通常会导致最终原因的难题,另一方面,作为原因的现象引起作为结果的现象的简单模型,具有明显的内在逻辑矛盾。这样的因果模型,不仅不能理解大数据的相关关系,更不能建立起大数据相关关系和因果关系的关联。只有把原因看作是因素相互作用的过程,把结果看作是因素相互作用过程的效应,才能扩展对因果关系的理解,从而适用于大数据相关关系和因果关系问题的认识。由此建立起来的新因果模型具有内容丰富的结构,不仅存在因素相互作用已经完成和因素相互作用进行中的环节,还存在因素尚未进入相互作用的环节。这就呈现出了因果模型的过去时态、进行时态和未来时态。这不仅更有利于人们理解凝固的因果关系,而且在人们面前敞开了创构未来的广阔空间。
由此,不仅可以看到,相关关系其实有它的因果根据,而且可以对相关关系和因果关系作一个统一的理解。在新的因果模型中,相关关系可以被理解为是因果派生关系,包括因素和结果之间的关系、结果和结果之间的关系以及特别重要的因素和因素之间关系。由于这些因素和结果还包括潜在的,我们还可以看到大数据相关关系的因果根基以及很多耐人寻味的重要内容,包括一些奇特相关关系案例的理解。由于相对于潜在结果,因素关系构成了无限广阔的可能性空间,由此构成的相关关系内容非常丰富。在潜在因素的无限空间中,根据特定需要,让特定因素以特定方式进入特定相互作用过程,就能创构出我们所需要的东西。显然,这种新的因果关系与现实社会更加接近。
大数据将带来新的信息文明并影响世界权力重构
如果把以往的文明形态都看作是物能文明的话,那么,人类社会发展到大数据时代所迎来的,则是一种不同于物能文明的信息文明。信息文明的形成和发展,必须有大数据作为基础。作为一种与物能文明相平行的文明形态,信息文明是一种基于信息本性的共享文明。只有在大数据的基础上,信息的共享本性才可能充分展开。而且,信息文明的发展,是一个在大数据基础上的公共信息对称化过程。
这就要求,一方面,为推动信息文明的发展,必须在公共领域尽可能消除信息不对称;另一方面,为保持信息文明发展的动力,必须尽可能保护创新专利,而这也只有基于大数据才有可能。作为一种人类文明,信息文明是一种基于信息机制的役物文明。在信息文明时代,人类越来越通过信息控制物能,使物质通过结构的调整,由一种对人类不那么有价值的材料变成价值更大的材料,从一种不太能满足人的需要的形态变成一种更能满足人的需要的形态,使能量从难以利用的形态变成更容易获得和利用的形态,从而,人类活动更多地是直接与信息打交道而不是传统的主要与物能打交道。而这些都必须在大数据基础上进行。如果没有大数据,信息即使重要,但也只能居于依附的地位。
作为人类文明发展的更高阶段,信息文明还是一种基于信息创构的人性文明。正是大数据,也只有大数据,才能为这种创构的文明提供必不可少的信息空间。某种程度上说,信息创构活动是最符合人性的活动,只有到了以大数据为基础的信息时代,人类历史才真正步入人性文明的轨道,不仅对物能的控制达到全社会甚至全人类实现“物为人役”的水平,使人类活动从以描述认识为主进入到以创构认识为主;而且,创构时代所需要的全面解放创造力,也意味着社会发展到了这样的程度,即人性在社会维度获得程度越来越高的解放的文明水平。由此可见,信息文明与物能文明的区分,本质上不是一种基于社会生产方式的区分,而是一种基于人的存在状态的人类文明划分。这意味着,大数据将越来越成为人类生存的重要基础,也意味着人将越来越以信息方式存在。
人越来越以信息的方式存在,预示着大数据所打开的信息文明大门,也将释放出一系列新的重要问题。这些重大的问题,既涉及个人生活,也涉及社会发展。
一是信息生态问题。由于人越来越以信息方式存在,信息生态理所当然成了一个越来越重要的基础性问题。对于人类来说,自然生态或更根本地说物能生态具有切身性,而信息生态则不仅具有切身性,而且更具“切心性”,信息生态更切近人的心灵。因此,在自然生态的基础上,信息生态将日益为人们所密切关注,成为信息文明时代关乎人类发展的问题。就像在物能文明时代,自然生态是关乎人类生存的问题一样。
二是人的存在意义问题。没有物能就没有信息的存在,物能存在是基础。但是,在信息文明时代,如果一个人仍然主要以物能方式存在,仍然以基于物能的感官享受作为生活意义的主要来源,一句话,仍然主要滞留于物能存在方式,那么,很可能将迟早将进入无意义的人群。在信息文明时代,人类的活动主要是信息活动,只有主要以信息方式存在,并且以创构活动作为自己主要活动方式的人,才能进入意义生产的领域。在这个意义上,信息文明的确意味着这样一种分化:相对无意义的人群和生产意义的人群。这很可能将是信息文明时代发展的必然趋势。当然,对此人类社会也应当提前思考,如何避免新的社会不公平的出现。
三是国家的发展问题。从人类社会发展史中可以看到一个重要事实:一个大国的真正崛起,通常必须要引领一种新的文明。信息文明时代的到来,必定伴随着大国的新的崛起,不管是现实的还是潜在的大国。在21世纪,中国要和平发展、成为世界上的大国,就需要引领信息文明。也许,信息文明不可能再像传统文明时代的世界那样,由某个国家引领,但不进入引领信息文明国家的行列,任何国家都不可能真正作为大国崛起。而国家的兴衰与个人的生存和发展不仅联系在一起,而且构成一个相互依存和协同发展的循环。
21世纪的竞争,将是信息的竞争。大数据时代的竞争将是信息文明引领的竞争,这意味着,大数据时代,中国要么在引领信息文明中作为真正的大国,要么只是作为大国崛起在物能文明层次。这也是从大数据所打开的信息文明大门,我们能越来越清晰看到的最为关切的一个重要内容。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 7 Pandas分组聚合 分组聚合(group by)顾名思义就是分2步: 先分组:根据某列数据的值进行 ...
2024-11-25数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21