如果你不知道大数据,至少应该知道这七个概念
大多数人根本不知道大数据(Big Data)到底是什么的时候,不可否认的是,大数据已经在 21 世纪掀起一场惊涛骇浪。
根据研究机构 IDC(国际数据资讯公司)的分析,这个世界上的资料正在以每两年就翻倍的惊人速度增加中。了解大数据、如何利用巨量资料,成了人人关心的重点议题。
尽管大数据的定义各家歧异,但基本上,大数据领域里的每个人都同意一点:大数据不仅仅是指更多资料而已。这篇文章整理出 7 个重要的大数据观点,希望大家不只是看着大数据的表皮,而能用不同的角度深入检视大数据。CDA数据分析师是指在互联网、零售、金融、电信、医学、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才。CDA数据分析师覆盖了国内企业招聘数据分析师所要求的所有技能,包括统计知识、软件应用(SPSS/SAS/R等)、数据挖掘、数据库、报告撰写、项目经验等。
1) 最基本的大数据定义 The Original Big Data
大数据的 3Vs 定义是目前为止最受推崇且最广为人知的说法。3Vs 由 Gartner 的分析师 Doug Laney 最早在 2001 年时提出,分别代表资料量 Volume、资料传输速度 Velocity、资料类型 Variety。从那之后,便有人在 3Vs 之外陆续提出更多「V」, Veracity、Validity、 Value、Visibility 等,其中又以 Veracity (真实性)最被普遍认同。
2) 大数据即科技 Big Data as Technology
大数据并不是什么崭新的概念,好几十年前 CERN 的科学家就在处理每秒上看 PB (Peta Bytes)巨量资料。那为什么一直到近几年“大数据”这颗原子弹才被投到科技圈,轰得人人叁句不离大数据?
现今要处理的资料量更庞大、资料产生跟处理速度更惊人、资料来源更多样,于是处理、储存大量资料的新技术跟工具快速发展,像是开源软体 Hadoop 跟 NoSQL 资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前的科技作出区别,于是“大数据”一词因应而生。
因此大数据不只是指资料,也指这些用来分析、处理巨量资料的新兴科技。
“Big Data is the new tools helping us find relevant data and analyze its implications.”
3) 大数据即不同的资料类型 Big Data as Data Distinctions
现今”大数据“所涉及的资料已经和过去的资料已经不同了。根据 Hortonworks 公司战略副总裁 Shaun Connolly 的说法1,过去的资料大部分是人工手记下来的交易纪(Transactions),现在则是机器替我们记录下来的交易资料;除此之外,还有人们跟事物、企业间的互动资料(Interactions),例如人们在网路上点击网页跟连结的纪录;最后则是机器自动生成、累积下来的观察资料(Observations),例如智慧型家居产品记录下来的室温变化等。
因此 Shaun Connolly 定义大数据是由交易、互动、观察资料所组成的资料型态。
“Big Data = Transactions + Interactions + Observations”
4) 大数据即讯号 Big Data as Signals
SAP 公司的高管 Steve Lucas 不以资料型态来看待大数据,而是以目的(intent)跟时机(timing)。在过去,企业收集到的资料只能在事情发生后引以为鉴,但现在企业收集到的是「新讯号」2,可以在事情发生前得到前兆跟提示,进而做出行动来影响事情结果。例如某品牌广告在社群网站上的「讚」数、点阅率如果跌落谷底,公司便可以预期接下来产品销售量一定也会惨不忍睹;同样的情形在过去时,公司所得到的数据就是产品发售后的销售量。
“Big Data is the new signals.”
5) 大数据即机会 Big Data as Opportunity
根据 451 Research 的数据专家 Matt Aslett,他将大数据定义为“以前因为科技所限而忽略的资料”,这个说法也受到许多人的赞同,因为多半提起大数据时,都是在讨论这些以前无法分析处理、囊括其中的资料。
“Big Data is data that was previously ignored because of technology limitations.”
其实他在文中并不是用 Big Data 一字,而是使用“Dark Data(暗数据)”。事实上许多公司都使用暗数据这个字,因为当资料变“暗”了,便表示一个漏掉的讯息、错失的机会,在企业策略中留下一个盲点4。一直以来,各企业雇用数据专家的目的就是希望能“点亮”这些暗数据(illuminate the Dark Data),观察到以前不曾注意过的趋势、做出更全面的考量。
也因此,SAP 曾经做过一个调查显示,将近 76% 的企业高管们视大数据为“机会”。个人也满喜欢这个观点,毕竟现在各公司在推动大数据的塬因,就是希望能掌握全面的讯息、把握住这些机会!
“A new survey by SAP suggests that nearly 76 percent of executives see “Big Data” as an opportunity” 5
6) 大数据的哲学定义 Big Data as Metaphor
着名的摄影师和出版人,前《Time(时代)》、《Life(生活)》、《National Geographic(国家地理)》杂誌摄影师,负责过有史以来最大摄影项目的 Rick Smolan ,在他的着作《大数据的人性面孔》(The Human Face of Big Data)一书中,则给了大数据一个最完美的哲学定义 ——“大数据是帮助地球建构神经系统的一个过程,在这系统中,我们(人类)不过是其中一种感测器。”
“Big Data is the process of helping the planet grow a nervous system, one in which we are just another, human, type of sensor.”
深奥吧?如果你读过《大数据的人性面孔》一书,相信你应该会对这个比喻点头如捣蒜。
7) 大数据是旧东西的新噱头 Big Data as New Term for Old Stuff
也有部份人认为,“大数据”一词被严重滥用,大数据只是商业智慧(Business intelligence)或商业分析(Business analytics)演化后的新字。
从 Google Trend 里可以看出,从 2004 年到现在,“Big Data”一字的搜寻次数从 2011 年开始飙涨的同时,人们对“Business intelligence”的兴趣则是持续降低。“Business analytics”趋势虽然小幅上涨,但短时间应该不可能赶上另外两个字的风潮。
结语
以上七个定义/观点无论认同与否,相信大家都同意的是:Big Data 绝对是个“Big Deal”,接下来几年里,大数据将带来无限商机。CDA数据分析师的就业前景可选择于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研、教育等多个行业和领域。,根据三个不同的等级胜任不同的数据分析工作任务。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20