大时代3.0之大数据时代
有一天,美国零售企业好市多(Costco)接到了一位母亲的投诉:“我的女儿才16岁,你们却向她推销孕妇类的产品。”
但是,这一次,尴尬的是这位母亲自己,她16岁的女儿确实怀孕了。为什么卖货的商场,却能比朝夕相处的母亲,更早知道女儿的孕事?
回答这个问题,要扯上一个在2012年热透全球科技行业的关键词——大数据。
数据之大
发现自己怀孕之后,16岁的她不敢告诉母亲,只能时常在网上浏览一些和怀孕相关的网站,搜寻一些孕妇要用的东西。这些浏览行为会被当做数据记录下来,Costco的数据分析团队,会据此进行精确的商品促销定位。
向记者讲述这个故事的华为企业业务BG存储营销总监杨传斌,有很多这样的故事。
“最近我们中标了山东移动,运营商对大数据的需求是相当的迫切和强烈。”杨传斌说,对用户的话费清单进行分析,不管是对用户还是对运营商自己都能带来很大的价值。
首先,从用户层面看,用户查询到自己每月的话费单后,面对一长串的数字,往往无所适从。他们需要知道的是,自己这个月漫游多还是本地电话多,接电话多还是打出电话多,哪些是自己联系最多的人。
其次,从运营商层面来看,山东移动有数千万客户,怎样发掘这些用户的共性消费特征,制订出符合用户需求的资费套餐,是一个很大的学问。
而这些都有赖于引入大数据的存储系统和分析系统。“部署大数据,一方面可以增加客户的黏度,另一方面可以降低运营成本,有的资费套餐只有很少人用,却还要为它维持一整套系统。”杨传斌向记者透露,华为的大数据解决方案已经在电信领域有了很多成功案例。
“大数据”的风靡一时,归根结底还是因为人类社会数据量的几何级增长。
“根据我们的跟踪,每18个月新产生的数据量是过去所有历史数据的总和。”杨传斌说,尽管公众接触到大数据这个概念是最近一两年的事,但在业界,这个词早在上世纪60年代就已经出现。
从那时候到现在,人类对数据的应用主要经历了三个阶段。
第一个阶段被称为关键应用部署阶段,时间从上世纪60年代到80年代早期,当时的主要用户是企业,主要是在大型机上部署财务、银行等关键应用系统,存储介质包括磁盘、磁带、光盘等。
这些数据很关键,很重要,尽管当时人们称之为大数据,但从现在看来,这些数据的量是很有限的,这从上述存储介质的出货量增长上就能看出来。
第二个阶段是企业自动化阶段,标志是PC的出现和大量应用,企业内部出现了很多以办公文档为主要形式的数据,包括office文档、Excel文档,以及后来的图片、图像、影像和音乐等。这时候,产生数据的不仅仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据量的增长。
互联网的兴起为数据的第三次大规模增长插上了翅膀,在这个阶段,产生数据的人更加扩展了,不光是企业的办公人员,几乎全民都在制造数据。与此同时,数据的形式也极大丰富,各种应用层出不穷,既有视频、微博、博客等主动产生的数据,也有搜索、浏览网页等被动行为过程中被记录、搜集的数据。
杨传斌说,发展到今天,这些数据已经呈现指数级的增长。目前全球性的科技公司都要和PB级规模的数据打交道,而Facebook每天要存储大约100TB的用户数据,NASA(美国国家航空航天局)每天要处理约24TB的数据。
这些用来存储数据信息的单位可能比较抽象,拿人们熟悉的兆(MB)来做参照,1024个MB是1个GB,1024个GB是1个TB,1024个TB是1个PB,1024个PB是1个EB,1024个EB是1个ZB。举个例子来说,欧洲物理对撞机每年会产生28PB的数据规模。
杨传斌说,目前全球每年产生的数据量是ZB级,到2015年会达到35个ZB。
商业机会
数据无处不在,并通过各种可能的方式影响着企业业务和每个人的生活。但某种程度上,这又是一个很容易陷入行话堆砌和承诺陷阱的领域,尤其是最近一两年来,随着“大数据”成为科技热词,各路厂商纷纷从自己的角度出发,推介自己形形色色的大数据产品和解决方案。一时之间,赶时髦者有之,新瓶装旧酒者有之。
“华为目前推出的大数据存储产品,比如N8000、CSS等就具有这样的特征。”杨传斌说,作为高性能存储的一个指标,华为的大数据解决方案在最近的一项测试中达到了300万OPS。这是衡量存储性能的一个指标,意思是每秒钟能进行300万个操作。
杨传斌向记者透露,华为的这些大数据存储已经在国内外有了很多客户,除了前文提及的Costco、山东移动、欧洲核子研究中心(CERN),还包括工商银行、全球最大的体育视频节目制作公司IMG等。前者希望从客户的存储中挖掘投资习惯,并向客户针对性地推荐理财产品;后者对分布式动态视频渲染有着很大的需求。
“除了存在那里,大数据主要还是要给存储数据的用户或者是最终的使用者带来价值。”杨传斌对记者表示,对于如何从数据中发现价值,业界有很多不一样的技术,其中最主要的是以Hadoop为基础建立的一整套分析体系。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,主要来源于开源社区。杨传斌说,这个体系由众多的自由贡献者、部分厂商,通过开源的方式提供出来供大家自由使用,华为在其中也贡献了自己的计算分析和存储技术。
截至目前,无论是英特尔、IBM、EMC这样的基础架构厂商,还是微软、SAP、甲骨文这样的应用软件厂商,都推出了支持Hadoop或者基于Hadoop的产品线,以应对市场对于大数据的需求。
“华为也会在Hadoop的体系内提供接口,和整个大数据的分析领域对接起来。”杨传斌说,Hadoop对于IT业界来说,除了存储,还可以在计算、分析、数据调度等方面为企业带来商机。
著名市场研究公司Gartner在2012年10月发布的一份研究报告称,在2012年,大数据对全球IT开支的直接或间接推动达960亿美元,而到2016年,这一数字预计将达到2320亿美元。
基于大数据的分析,未来会在社会的方方面面得到应用。比如,通过遍布各地的电子眼和监控摄像头,警务系统可以基于大数据识别一些危险的人或危险的行为,发现苗头进行预警。
再比如,现在几乎没有人可以离开手机,而手机信号的大数据使用,未来甚至可以用于控制交通流量,通过车上的GPS和手机,当交通进入拥堵状态,就通过手机提示你进入某个路段要收费,如果执意进入,费用就从手机上直接自动收取了,这就避免了现在在各个路口设卡刷卡的做法所带来的麻烦。
“这些都是和政府的政策相关,技术上已经完全能实现,只不过政策上怎么部署的问题。”杨传斌说。
格局未定
“大数据还刚刚开始,可以说还没有形成格局。”杨传斌认为,截至目前,也还没有一个完全独立的大数据市场来作为样本分析。
谈到市场竞争,杨传斌表示,“从国内来讲,华为在大数据领域遇到的竞争还是比较少的,因为其他厂商还不太关注中国市场的大数据;从海外来讲,大数据解决方案提供商涵盖传统基础架构厂商、新兴软件厂商和一些基于开源平台的厂商,提供大数据收集、存储、提取、分类、分析、报表、商业智能等某几方面的功能模块。”
事实上,存储巨头EMC对大数据也一直在摇旗呐喊。EMC董事长、总裁兼首席执行官乔·图斯曾对记者表示,大数据已不仅停留于概念,数据大爆炸催生了社会各界对数据分析的需求。他还预测,大数据的发展必将影响职场,未来,拥有一个数据科学(DataScience)学位将比拥有一个计算机科学(ComputerScience)学位更有市场。
在华为看来,大数据解决方案和传统IT相比面临一些新的挑战,首先,大数据应用的数据量很大,并且是有一个逐步积累的过程,要求无论是存储能力和计算能力都需要按需可扩展;其次,大数据由于数据体量庞大,数据移动面临困难,要求应用程序就近计算,结果输出;第三,存储面临着成本压力问题,重删、备份及归档一体,可大幅降低存储成本。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31