全民大数据时代已不远_数据分析师考试
大数据的神奇令人惊叹,不过要面对超爆发式的数据增长,企业往往要支付超高额的数据存储费用,因此大数据产业仅仅集中在超大型、垄断型企业,不过在日前举行的2015上海大数据产业高端峰会上,肯睿中国区副总裁苗凯翔介绍了一种名为Hadoop的技术,通过重塑数据构架,它在一定程度上解决了大数据发展的成本之痛。而今,全球大数据生态圈中,Hadoop已经成为最为核心的技术。
存储成本阻碍大数据发展
数据量的快速增长,是IT业面临的重大挑战。统计显示,人类迄今为止存储的数据中,90%以上是最近两年新产生的,这种数据爆炸的趋势还将延续。“到2020年,互联网设备的总数将达到500亿部,数据总量将达到40ZB(1ZB=十万亿亿字节)。”苗凯翔说,这大约是人类现在需要处理信息量的10到20倍,换句话说,年均增长超过40%。
数据量快速增长,要求数据处理能力同步提高,但多数企业却因为预算不足而难以招架。以美国主要的四家银行为例,它们每年新增的数据量大致是40PB(1PB=100万GB),仅仅为存储这些数据,每年就必须增加3.2亿美元的投入。
“钱是主要问题。”苗凯翔说。事实上,为了应对40%的数据增速,企业在IT系统方面的预算必须以4%的年率增长,但实际上这块预算的增速很难超过1%。由于投入不足,银行不得不放慢推进大数据业务的速度,比如推广手机银行。
开源模式推动大数据发展
奥巴马政府把大数据比作“未来的新石油”,不过静静流淌的石油并没有价值,只有经过勘探、钻井、提炼、加工成石化产品,其商业价值才能体现。当下,关于大数据说得多做得少,正是由于开采工具不足。苗凯翔认为,要改变这一现象,必须从更深层次理解数据在当今时代意味着什么。
在过去,数据主要驻留在结构化的交易数据库里,结构是固定的,比如企业数据仓库用来产生运营报告;存储系统用来保留数据的有效和安全;搜索系统通过Web搜索引擎来寻找和探索信息……这都是一个个“地窖”,当需要计算时,就将“地窖”中的一部分数据送到计算机处。
不过这种方式只能进行少量、低频率的计算,想要应对当今的数据量、数据多样性和数据生成速度,旧的数据构架显然难以为继。“因为数据的属性已经改变,所以数据构架也一定要变。”苗凯翔说。
10年前,大数据概念还未问世,雅虎公司的技术人员就注意到了这个问题,并由此开发出基于互联网架构的数据处理技术,并以他3岁儿子的棕黄色大象玩具之名将其命名为Hadoop,如今这一开源技术已经成为大数据生态圈的核心。
“它是开源的,能够更高效地处理信息,而且支持标准化存储设备的无限扩容。”苗凯翔说。以国有四大银行为例,一个由53台PC机组成的大数据平台能够支持并发用户30万个,而此前的数量是300个。这样一套系统的使用成本不到原来的1/3。
小微企业为大数据开发注入新活力
Hadoop平台孕育了多家大数据商业开放公司,论规模和影响力,肯睿是其佼佼者,这家公司在全球已经拥有1300家合作伙伴,市值超过50亿美元。去年9月,肯睿(上海)软件有限公司完成注册,目前已有30多名员工。
一直以来,受限于高昂的服务器成本,大数据产业仅仅集中在电信、能源、证券、烟草等超大型、垄断型企业,利用开源性的Hadoop平台,就是淘宝店主也能享受到大数据带来的好处。“我们有免费版本,只要经过简单培训,并愿意共享你的数据,就能使用这个平台。”苗凯翔说。
小微企业的加入或许能为目前发展有些缓慢的大数据注入新的活力。因为根据以往全球的经验来看,企业规模稍大一些,就不太愿意分享自己的数据,而小企业主往往更愿意走出这一步。
数据分析咨询请扫描二维码
统计学基础 - 理解统计学的基本概念和方法是数据分析师必备的技能之一。统计学为他们提供了处理数据、进行推断和建模的基础。 数 ...
2024-11-25数据分析师在如今信息爆炸的时代扮演着至关重要的角色。他们不仅需要具备扎实的数据分析技能,还需要不断学习和适应不断发展的技 ...
2024-11-25数据分析师的工作职责涉及多个关键方面,从数据的获取到处理、分析再到可视化,旨在为企业的决策提供有力支持。让我们深入了解数 ...
2024-11-25数据分析师:洞察力量的引擎 数据分析师的兴起 数据分析师行业目前正处于快速发展阶段,市场需求持续增长,薪资水平也有所提升。 ...
2024-11-25数据收集与整理 - 从各种来源收集数据,清洗和整理以确保数据质量和可用性。 数据分析与建模 - 运用统计学方法和机器学习模型对 ...
2024-11-25数据分析是当今社会中不可或缺的一项技能,涵盖了广泛的工具和技术。其中,掌握各种数据处理函数对于数据分析师至关重要。本文将 ...
2024-11-25“大数据治理”是一个涵盖广泛的复杂概念,其核心在于确保大规模、多样化的数据资源能够被有效管理和利用。不仅涉及数据的采集、 ...
2024-11-25一、引言 背景介绍 随着信息技术的快速发展和互联网的普及,大数据已经成为现代社会的重要资产。大数据的兴起不仅推动了各行各业 ...
2024-11-25《Python数据分析极简入门》 第2节 7 Pandas分组聚合 分组聚合(group by)顾名思义就是分2步: 先分组:根据某列数据的值进行 ...
2024-11-25数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22