大数据的幕后推手是什么_数据分析师
今年全国两会时,“大数据” (Big data)第一次出现在政府工作报告中,这表明我国对大数据重要性的认识上升到了国家层面。信息产业发达国家,如美、英、德、日等此前已将大数据作为国家核心竞争力提升为了国家战略。数字主权将是继边防、海防、空防之后,又一个大国博弈的空间。
一、大数据的定义和特征
大数据并非现在才出现。中国东汉时期人口已达6千多万,这显然是一个大数据,但不是今天讨论的大数据。维基百科对大数据的定义为:“大数据意指一个超大、难以用现有常规的数据库管理技术和工具处理的数据集。”IDC(互联网数据中心)报告对大数据的定义为:“大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值。”大数据研究的目的是将数据转化为知识,探索数据的产生机制,进行预测和政策制定。建立在相关关系分析法基础上的预测是大数据的核心,通过找出一个关联物并监控它,我们就能预测未来。
大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低和处理速度快。具体来讲,一是数据体量巨大。数据信息计量的最小基本单位是字节(Byte) ,换言之, Byte是计算机信息技术用于计量存储容量和传输容量的一种计量单位,一个字节等于8位二进制数,在UTF-8编码中,一个英文字符等于一个字节。数据存储是以“字节”(Byte)为单位,数据传输是以“位”(bit)为单位,一个位就代表一个0或1(即二进制),每8个位(bit)组成一个字节(Byte)。8bit=1Byte,数据存储是以10进制表示,数据传输是以2进制表示,所以1KB不等于1000B,而是1KB=1024B, K是千, M是兆 ,G是吉咖, T是太拉。按信息量从小到大的顺序,单位分别是:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,除了 1Byte=8bit而外,后续的计量单位均按照进率1024(2的10次方)来计算。大数据的“大”没有精确的定义,不同的时代对应着不同的大数据规模,当前大数据的数据规模在GB、TB、PB、EB、ZB这几个规模尺度上。二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。三是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。大数据分析犹如“大海捞针”。四是处理速度快。数据处理遵循“1秒定律”,需从各种类型的数据中快速获得高价值的信息。
二、大数据的主要成因
大数据的背后推手有哪些?以下三大因素是大数据的主要成因:
第一,人类保持数据的能力增强。
1965年,英特尔的创始人之一戈登·摩尔提出了著名的摩尔定律。该定律认为,同一面积集成电路上可容纳的晶体管数量,一到两年将增加一倍。回顾半个多世纪的历史,硬件技术的发展基本符合摩尔定律。以物理存储器为例,其性能不断上升,与此同时,价格不断下降。1955年,IBM推出第一款商用硬盘存储器,一兆字节的存储量需要6000多美元。到2010年,一兆字节的存储量仅仅需要0.005美分。半个多世纪,存储器的价格下降了1亿倍!
预计2020年,1太硬盘的价格将下降到3美元,相当于一杯咖啡的价格。一所普通大学的图书馆,其馆藏量大约就一两个太。也就是说,到2020年,只需要花上一杯咖啡的钱,就可以把一个图书馆的全部信息拷进一个小小的硬盘。正是因为存储器的价格在半个世纪之内经历了空前绝后的下降,人类才可能以非常低廉的成本保存海量的数据,这为大数据时代的到来铺平了硬件道路,打下了坚实的物质基础。
第二,人类生产数据的能力增强。
从2004年起,以脸谱网(Face book)、推特(Twitter)为代表的社交媒体相继问世,拉开了互联网的崭新时代—2.0时代。社交媒体的问世,带来以下三大变化:
一是社交媒体把交流和协同的功能推到了一个登峰造极的高度。在此之前,互联网的主要作用是信息的传播和分享,其最主要的组织形式是建立网站,但网站是静态的。进入Web2.0时代之后,互联网开始成为人们实时互动、交流协同的载体。2011年8月23日,美国弗吉尼亚州发生5.9级地震,纽约市居民首先在推特上看到这个消息,几秒钟之后,人们才感觉到地震波从震中传过来的震感。社交媒体把人类信息传播的速度,带到了比地震波还快的时代!
二是社交媒体推动数据总量骤然增加。由于社交媒体的横空出世,人类自己开始在互联网上生产数据,例如发推特、微博和微信,记录各自的活动和行为,全世界的网民都是数据的生产者,每个网民都犹如一个信息系统、一个传感器,不断地制造数据,这引发了人类历史上迄今为止最庞大的数据爆炸。2012年,乔治敦大学的教授李塔鲁考察了推特上产生的数据量,他做出估算说,过去50年,《纽约时报》总共产生了30亿个单词的信息量,现在仅仅一天,推特上就产生了80亿个单词的信息量。也就是说,如今一天产生的数据总量相当于《纽约时报》100多年产生的数据总量。
数据量的增长到现在,已经不是以我们所熟知的多少G和多少T来描述了,而是以P(1千T),E(1百万T)或Z(10亿T)为计量单位。百度对此给予了更形象的描述。仅其新首页导航每天就要从超过1.5PB的数据中进行挖掘,这些数据如果打印出来将超过5千亿张A4纸,摞起来会超过4万公里高,接近地球同步卫星轨道长度,平铺可以铺满海南岛。而2020年新增的数字信息将是2009年的近45倍。如今,只需要两天就能创造出自文明诞生以来到2003年所产生的数据总量。
三是社交媒体使人类的数据世界更为复杂。数据包含两类数据:结构化数据和非结构化数据。在大家发的微博中,你的带图片、他的带视频,大小、结构完全不一样。因为没有严整的结构,在社交媒体上产生的数据,也被称为非结构化数据。目前全世界的数据大约75%都是非结构化数据。这部分数据的处理,远比结构严整的数据困难。
第三,人类使用数据的能力增强。
大数据之大,不仅在于其大容量,更在于其大价值。最根本的原因,是人类使用数据的能力取得了重大突破和进展。
这种突破集中表现在数据挖掘上。数据挖掘是指通过特定的算法对大量的数据进行自动分析,从而揭示数据当中隐藏的规律和趋势,即在大量的数据当中发现新知识,为决策者提供参考。数据挖掘进步的根本原因是人类能够不断设计出更强大的模式识别算法。正是通过数据挖掘,各大商家谱写了不少点“数”成金的传奇故事。例如沃尔玛通过捆绑“啤酒和尿布”提高销量。阿里巴巴等凭借长期以来积累的用户资金流水记录,涉足金融领域,在几分钟之内就能判断用户的信用资质,决定是否为其发放贷款。
2014年1月,美国的电子零售巨头亚马逊宣布了一项新的专利:“预判发货”。即在网购时,顾客还没有下单,亚马逊就将包裹寄出。这种顾客未动、包裹先行的做法,核心技术还是数据挖掘。发货的根据是顾客以前的消费记录、搜索记录以及顾客的心愿,甚至包括用户的鼠标在某个商品页面上停留的时间。微软纽约研究院经济学家大卫·罗斯柴尔德利用大数据准确预测了2014年第86届奥斯卡24个奖项中的21个奖项。 2012年,他正确预测了美国51个行政区中50个总统大选的结果……结果就在大数据中,惊喜已死。
三、大数据应用
主要有以下四个方面:
第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。
移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。本文来自:http://cda.pinggu.org/
第二,大数据是信息产业持续高速增长的新引擎。
大数据时代,面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
第三,大数据利用将成为提高核心竞争力的关键因素。
各行各业的决策正在从“业务驱动” 转变“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据在促进经济发展、维护社会稳定等方面的重要作用已开始得以发挥。
第四,大数据时代科学研究的方法手段将发生重大改变。
抽样调查是社会科学的基本研究方法。但在大数据时代,不需要通过抽样,而是通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。
四、大数据与反腐倡廉
大数据反腐,是指利用强大的数据库支持反腐的各个环节,实现精准预测和发布。具有以下重要价值:
第一,大数据为网络反腐提供便利的“信息来源”。
中国工程院李国杰院士指出,“数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络”。大数据为网络反腐提供了一个非常庞大并且可以便利索取的“数据库”和“信息来源”,这使得网络犹如一个巨大的“信息蓄水池”。尽管这些信息是碎片化并且是无序排列的,但是可以通过设置“关键词”等形式,将大数据变成小数据,从而使得信息有序排列,获取到有价值的信息。在“杨达才事件”中,以“杨达才、安监局”为关键词,就可以获取大量相关的信息。利用搜索、社交网络、网络新闻等互联网服务中的语义分析和关键词分析,掌握各地区腐败轻重程度、廉洁指数、市民抱怨度、市民对政府的满意度等,为反腐败和廉政工作提供数据支撑。
第二,大数据刺激并鼓励网民的“掏粪运动”。
19世纪末20世纪初,美国新闻界以杂志为主体掀起了一场揭露丑闻、谴责腐败、呼唤正义与良心的运动,这就是著名的“掏粪运动”。这一名称源于当时的美国总统罗斯福。 在大数据时代,“掏粪运动”有越演越烈之势。正是因为网民围观以及他们的“掏粪运动”,一件普通的事件也容易发生“多米诺骨牌效应”,从而“拔出萝卜带出泥”。 “杨达才事件”,是一个微笑引发的腐败案。一张再普通不过的新闻图片,被细心的“信息搬运工”发现,这位官员竟然在车祸现场微笑。旋即引起网民围观,继而被扒出佩戴多款价值不菲的名表,又因回应言辞欠妥陷入诚信危机,再因眼镜、皮带等昂贵饰物被接连曝光催生腐败疑云,直至因涉嫌严重违纪被撤职。
第三,大数据破解信息不对称的监督难题。
反腐败之难,难在信息不对称。运用大数据反腐败,就像开在马路上的汽车,任何行驶的蛛丝马迹都逃不脱电子警察的法眼,从而真正做到全员监控、全程监控、全方位监控,实现可记录、可追溯、可查究。在全民围观时代,现实中再强势的官员也会变成弱势。官员不恰当的言行举止,都有可能引发网络围观效应,瞬间激起网民“拍砖”热情,在虚拟社区形成巨大的舆论漩涡,并投射到现实社会中去。
通过大数据和云计算技术建立全国性的官员资产纪录大数据库。因为贪官可以通过白手套和假的身份文件持有资产,因此可以仿效英国的电子护照,在身份证和户口当中植入记录指纹信息的电子芯片,这样一来资产就和独一无二的指纹对应起来,再加上数据挖掘技术,贪官的财产就无处遁形。
人民币冠字号码记录跟踪系统开始应用于反腐败。该系统是一种ATM现金循环保障方案,通过实时监控交易和钞票冠字号码,一方面,可以帮助银行解决自助设备现金循环出现的伪钞纠纷、金额纠纷;另一方面,每个人正常所得工资及收入,其人民币冠字号码都很清楚,那么非法所得就是人民币冠字号码异常,这些人民币是谁的,到了谁手中,谁在哪里使用,都很清楚,因此谁在行贿、受贿,就一目了然,因为有人民币号码作证,人民币就是“跟踪器”,现金行贿就难以进行!
数据分析咨询请扫描二维码
数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21