大数据到底是什么_数据分析师培训
如果用非IT类媒体的报道次数或关注度,来去衡量一个IT词汇的热度,我相信“大数据”绝对可以算得上是当前最热的IT词汇,云计算肯定不是它的对手。
大数据之所以这么火热,是因为它与普通大众的生活之间,相较其他IT术语似乎有着更为重大,或者说更具传奇色彩更为深厚的关系。从定向营销,到助力美国总统大选,大数据迅速披上了神奇的外衣。而也正是因为它对于人类生活的这种显性的影响力,让它成为了每个生活于信息世界中的人,或多或少都要关注的方向。
仅以企业与客户者之间的关系而言,企业主希望借助大数据来分析客户行为规律、兴趣爱好、找到目标的客户,向潜在的客户推送他们可能想要的信息,但另一方面消费者也会因为一些不靠谱的信息推送,来揣测相关企业的大数据的水平。除此之外,通过大数据来改变自身运营效率的企业案例,似乎也正在飞速增加着……因此,从哪个方面看,大数据也越来越有成为公从谈资的资本。然而,大数据到底是什么,可能这些参与其中的人又会给出不同的说法,有技术层面上的解读,有理念层面上的解读,有从使用效果上的事后总结……但实话实说,与其他IT术语相比,大数据在解释上更具多样性与不确定性色彩。
大数据是噱头吗?
今天我们来谈“大数据到底是什么”,并不想从技术或理念上深究,而希望能一种浅显的描述,来最大限度的达成一种对大数据的共识。其实,大数据这一概念最早成型于IDC与EMC合作的调研报告中,可是那个调研报告的侧重点还在于对互联网、物联网、云计算等大趋势下的数据积累、保存与管理的警示,随后不同的厂商在这一基础上不断扩展、丰富并最终延伸出一个业界公认的4V属性理论(体量Volume、种类Variety、速度Velocity、价值Value,IBM的4V理念将最后一个V定义为真实Veracity),从而形成了一个闭合的大数据体系,从纵向上又总结出从硬件基础设施到数据管理,再到数据分析,最后是数据呈现等4层架构。归根结底,大家最后的共识都认为大数据最终要用服务于社会的,这是它的终极用途,之前所说的积累、保存、管理、分析都是为这一目的服务的。
这么说来,对大数据的认识似乎又统一了,但也因此也使很多人对大数据概念嗤之以鼻。如果仅就大数据最终要体现出应用的价值为社会服务的话,与以前的数据挖掘、商业智能理念又有怎样的区别呢?大数据中的体量,可能在很多场合也并不能体现出来,可能就是几TB的数据也能把人搞得焦头烂额,无非就是数据类型扩展而已。所以,说“大数据只是一个噱头”并无道理。
但是,当前的一些大数据的应用案例,也的确与以往的数据仓库应用不同,这其中可能有非结构化与结构化数据的原因,但也有一新的理念、处理模型与手段的变化。至于哪些新东西是因大数据引发的,我们在此也没必要去纠缠,只需要解答一个核心的问题即可:数据到底是什么?
数据能源?
如果说很多人追捧大数据的神奇在于,它可以将原本不起眼的历史数据化腐朽为神奇,那么我们是不是可以将大数据比作一种通过加工而来的一种能源?如果可以,我们放眼地球上的能源,就会发现其与大数据有着太多相似之处。
地球上的能源有很多种,但是它们之所以是能源的前提在于人类对它们的认知。在远古时期,人类因雷电引火,发现了火和木材这两种能源,前者可用来取暖、驱兽、加工食品,后者可用来生火。在此之后,随着人类文明的进步,科技的发达,逐渐发现了越来越多的能源,比如煤、天然气、石油、太阳能等等,但是在人类还不能认知它们时,它们就不存在了吗?显然不是,在没有人类的时候,它们就已经在地球上静静的等候了成万上亿年,只是人类掌握了相应的科技与工具之后,它们才得以登堂入室。
数据也是一样,如果数据有着一个生成/采集——应用/加工——保存/管理——分析/挖掘——再保存或删除这样的一个周期的话,那么在其生成的那一刻起,它就存在着应有的价值,只是在于你是否有能力去发现它们。这需要新的理念、知识、技术与相应的工具。原始人即使知道地下几十公里有石油,他们也无法开采,所谓的数据分析,道理也是一样的。
从人类发展的历史来看,不断发现新的能源,是一种公理似的注定。当我们掌握了越来越先进的理念基础,并依此开发出越来越先进的工具,出现新的惊喜可以说理所当然。就像刚发明汽车时,谁也不会想到电、水会成为汽车可行的能源。从这个角度讲,当前的大数据所带来的种种神奇,只是人类在数据收集、管理、分析等领域的一次进步而已,它有出现的必然,而非人类的一种“顿悟”。
我们再来看看地球能源的4V属性:
图注:大数据的4V属性:Volume、Variety 、Velocity和Value。
1、Volume——储量:现在已经探明的,或新探明的煤、天然气、石油、风、太阳能等能源的储量是相当惊人的,但遍布于多种地形、地貌中,就看人类有没有本事都能获取到了。
2、Variety——类别:随着人类技术水平的进步,所获得的能源种类也就越来越多,并且越来越多以前认为不行的资源,后来也慢慢成为了能源,放射性元素就是典型的例子,而若技术成熟,海水将成为人类用之不竭的新能源。曾经有一篇科幻论文说得好“也许未来只需要一把泥土,就能把火箭送上月球”。另一方面,不同能源所需要的开采技术与工具也各不相同,这就好比结构化数据与非结构化数据的处理手段的差别。因此,人类面对的能源类别越来越多,它也需要人类具备越来越多种类的能源开采能力。
3、Velocity——开采/转换效率:很难想像一口一天只产一加仑的油井有什么价值,如果一个太阳能的光电转换效率不到1%,还有使用它的必要吗?因此,人类在能源上的开采/转换的效率将决定这种能源的可利用性,就如果做数据分析,今天的销售数据分析,一个月后才能出来,那不分析也罢了。
4、Value——价值:能源的价值取决于它所能提供的能量与贡献,谁都知道95号汽油比92号汽油好,但也更贵;煤很便宜,但能提供的能量也相对较低;电能,在目前仍要通过其他能源转换得来,这都是价值之所在。它决定于自身的属性,与相应的数据挖掘与提炼的能力,前者相当于汽油与煤的不同,后者相当于炼油厂在95与92号之间的提炼工艺不同。它们都最终决定了数据的价值——并且像某些大数据宣传中所鼓吹的那样,好像任何数据用大数据分析后,就能黄土变黄金一样,这是不可能的,除非你自己对某类数据的认知就有偏差(原本就是土,和原本就是金子,有着本质不同)
IBM所提倡的Veracity,我认为可以理解为能源的提炼水平,就算是95号汽油,中国产的能和欧美产的相提并论吗?这就是所谓的真95与假95号的区别。另一个典型的例子就是浓缩铀,丰度为3%的铀235的低浓缩铀可用于核发电,而丰度高于90%的铀235则可以用来制造核武器,两者的价值肯定不一样?所以,这种提炼质量与能力上的区别也最终会体现在能源的价值上。因此,IBM强调数据分析的准确与真实,可以与能源提炼过程中的纯度相对应,体现了对数据分析的一种质的要求。
图注:IBM把大数据第4个V定义为Veracity。
说完理念的对比,再看纵向技术架构上的相似之处,大家可以想想大数据中所谈到的数据采集、汇总、保存、管理、分析、呈现是不是与能源的勘探、开采、汇聚、保管、提炼、使用有着一一对应的关系呢?
特别需要指出的是,现在物联网的一大分支——工业互联网越来越热,而大数据就是其最后的重要支撑(前不久通用电气还专门为此投资了Pivotal),其理念在于将各种传感器、致动器也纳入整体的信息采集体系,借助工业设备管控平台,分析出存在于工业设备内有价值的信息,以便于管理、精度调校以及健康预警。想想看,这是不是像地质勘探中,将不同炸点的传感信息汇总起来,再通过震荡波分析软件,来呈现出地下的矿产分布与结构视图?
大数据到底是什么?
话说至此,我们应该可以总结一下了——在某种角度上讲,大数据其实就是人类能源开拓历史在IT领域的一种再现与映射。
无论从理念还是实现手法上,大数据的种种说辞,都可以在人类悠久的能源勘探、开采、利用的经验中到对应的关系,因此,从根本上讲它并不新鲜。
但关键就在于,在IT领域,对于“数据能源”的认知水平,远不如人类对其他类别能源的认知,所以当我们有一天终于完善了相关理念基础,开发出相应的工具,看到了数据内部的能源之后,可能就一种当初发现石油一样的冲动,进而将其夸大、神话。但是,仔细想想,对于已经经历过太多这类惊喜的人类来说(火、电、煤、油、气、核能、太阳能,哪个不给我们一个惊喜?),应该不必如此大惊小怪。
我认为,在数据利用的愿景方面,大数据与原来的数据仓库、数据挖掘、商业智能等概念是同出一辙、一脉相承的。大数据其实是对人类在数据利用方面进入的一个新阶段,它代表了一种理念(数据能源)、一种思路(从数据收集到数据分析再到数据呈现的整体构想)和一种新工具(将结构化与非结构化数据、语义与机器化数据汇聚、统一处理、分析与呈现的工具)的集合。它赋予了人类对数据认知的新能力,也进一步打开了人类的数据利用方面的想像空间。就这一点来说,全盘否定大数据,一概以噱头蔽之,也是不可取的。
总之,我们必须明白大数据并非是从天上掉下来的,是人类IT水平发展到一定阶段的必然结果,就像PC、智能手机等出现一样,是很多相关技术互动过程中自然而然的产物。我们要从一个整体去看它,不能一上来只看到某些诱人的东西,而将这些原本很平实的信息变成了一种“传说”。显然,大数据现在有这种倾向,它似乎无所不能,无所不包。就像我们上文所说的那样,如果数据本身的价值就在泥土一级的,也就不用指望它能提炼出黄金,大数据分做的只是将原本就存在的各种等级的“数据能源”真实的呈现出来而已。在可预计的未来,它将成为一种常态,一种基本的能力,就像现在的汽油一样,每辆车不用因为烧汽油而会自豪,会成为传奇。
所以,我认为当前的大数据热潮应该有针对性的降降温,让其回归本色,还原其实质,并将精力放在一个能源开采者所应投放的地方——数据采集的渠道是不是不够广?数据汇聚的能力是不是不够强?数据管理是不是太过复杂?数据处理能力是不是太弱?数据分析太是不是不智能?数据的呈现是不是易用性与友好度不同?——其实当一件事,到最后大家都要做的时候,当一种能力,大家都要具备的时候,它也就不是神话与传奇了,大数据即是如此。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 7 Pandas分组聚合 分组聚合(group by)顾名思义就是分2步: 先分组:根据某列数据的值进行 ...
2024-11-25数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21