2014年我国大数据发展分析报告 _数据分析师
在立足国家战略和产业政策推动大数据收集和分析技术快速发展的同时,我们也应清醒地认识到避免数据垄断和保护数据安全的重要性,及早开展相关法律法规的探讨和研究。
伴随着大数据时代的来临,世界各国对数据的重视提到了前所未有的高度。套上大数据的光环后,原本那些存放在服务器上平淡无奇的陈年旧数一夜之间身价倍增。按照世界经济论坛报告的看法,“大数据为新财富,价值堪比石油”。正如大数据之父维克托所预测,“虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题。”
今天的国家将大数据视为国家战略,并且在实施上,也已经进入到企业战略层面,这种认识已经远远超出当年的信息化战略。我们上面介绍了许多国外的动态,末了自然也要落脚到本国,思考本国可能采取的发展道路。但是,尚未见到网络安全战略和信息化发展战略全文(据说两会期间公布,也就是这几天),我们也不妨先总结国外的情形,以便进行比较。
2014年2月27日中央网络安全和信息化领导小组宣告成立,组长习近平指出,没有网络安全就没有国家安全,没有信息化就没有现代化。建设网络强国,要有自己的技术,有过硬的技术;要有丰富全面的信息服务,繁荣发展的网络文化;要有良好的信息基础设施,形成实力雄厚的信息经济;要有高素质的网络安全和信息化人才队伍;要积极开展双边、多边的互联网国际交流合作。从话的另一方面也说明目前我们没有自己的过硬技术,网络文化还有点问题,基础设施还是太差,人才队伍素质跟不上需求,也没有可靠的盟友,信息经济实力太弱。
毫无疑问,中国的底子太薄了。但是,大数据是信息化时代的“石油”。开发大数据资源的能力将影响未来国家的核心竞争力。我国不能幻想走在别人修好的道路,更不能等靠,只能依赖自身能力加速前行,这种能力就是将数据转化为信息和知识的速度与技术,而这种转化速度和技术,则决定了大数据技术能力的高低。
二、我国大数据的发展趋势及误区
1、我国大数据的发展趋势
在全球经济、技术一体化的今天,我国IT行业已经开启了大数据的起航之旅,大数据已经在经济领域发挥重要作用。据计世咨讯预测,2012年,政府、互联网、电信、金融等领域市场规模占据近一半的市场份额。大数据在主要经济领域的发展趋势如下:
1)大数据在经济预警方面发挥重要作用
在2008年金融危机中,阿里平台的海量交易记录预测了经济指数的下滑。2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,预示了经济危机的来临。数以万计的中小制造商及时获得阿里巴巴的预警,为预防危机做好了准备。
2)大数据分析成为市场营销的重要手段
与传统的市场研究方法不同,大数据的市场研究方法不再局限于抽样调查,而是基于几乎全样本空间。例如,百度拥有中国最大的消费者行为数据库,覆盖95%的中国网民,搜索市场占比达87%。百度基于最真实的用户行为数据和多维度研究工具,帮助宝洁精准的定位了消费者的地域分布、兴趣爱好等信息,根据百度分析的结论,宝洁适时地调整了营销策略。
3)大数据在临床诊断、远程监控、药品研发等领域发挥重要作用
我国目前已经有十余座城市开展了数字医疗。病历、影像、远程医疗等都会产生大量的数据并形成电子病历及健康档案。基于这些海量数据,医院能够精准地分析病人的体征、治疗费用和疗效数据,可避免过度及副作用较为明显的治疗,此外还可以利用这些数据进行实现计算机远程监护,对慢性病进行管理等。
4)大数据为金融领域的客户管理、营销管理及风险管理提供重要支撑
大数据能够解决金融领域海量数据的存储、查询优化及声音、影像等非结构化数据的处理。金融系统可以通过大数据分析平台,导入客户社交网络、电子商务、终端媒体产生的数据,从而构建客户视图。依托大数据平台可以进行客户行为跟踪、分析,进而获取用户的消费习惯、风险收益偏好等。针对用户这些特性,银行等金融部门能够实施风险及营销管理。
当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义。
中国人口居世界首位,将会成为产生数据量最多的国家,但我们对数据保存不够重视,对存储数据的利用率也不高。此外,我国一些部门和机构拥有大量数据却不愿与其他部门共享,导致信息不完整或重复投资。政府应通过体制机制改革打破数据割据与封锁,应注重公开信息,应重视数据挖掘。美国联邦政府建立统一数据开放门户网站,为社会提供信息服务并鼓励挖掘与利用。
2、我国大数据行业的误区
误区一:只有搞大数据技术开发的,才是真正“圈内人”。
笔者曾经参加过若干会议,70%是偏技术的,在场的都是国内各个数据相关项目经理和技术带头人,大家讨论的话题都是在升级CDH版本的时候有什么问题,在处理Hive作业的时候哪种方式更好,在Storm、Kafka匹配时如何效率更高,在Spark应用时内存如何释放这些问题。参会者都一个态度:不懂大数据技术的人没资格评论大数据,您要不懂Hadoop2.0中的资源配置,不懂Spark在内存的驻留时间调优,不懂Kafka采集就别参加这个会!对了,最近Google完全抛弃MR只用Dataflow了,您懂吗?不懂滚粗!
在这里我想说,技术的进步都是由业务驱动的,某宝去了IOE才能叫大数据吗,我作为一个聋哑人按摩师用结绳记事完成了对于不同体型的人,用什么按摩手法进行全流程治疗,就不叫大数据分析了吗?技术发展到什么程度,只有一小部分是由科学家追求极致的精神驱动,大部分原因是因为业务发展到一定程度,要求技术必须做出进步才能达成目标的。
所以,真正的大数据“圈内人”至少要包含以下几种人:
1)业务运营人员。
比如互联网的产品经理要求技术人员,必须在用户到达网站的时候就算出他今天的心情指数,而且要实现动态监测,这时候只能用Storm或者Spark来处理了;比如电信运营商要求做到实时营销,用户进入营业厅的时候,必须马上推送短信给用户,提示他本营业厅有一个特别适合他的相亲对象(呈现身高、三围、体重等指标),但是见面前要先购买4G手机;再比如病人来到银行开户,银行了解到用户最近1周曾经去医院门诊过两次,出国旅游过3次,带孩子游泳两次,马上客户经理就给客户推荐相关的银行保险+理财产品。这些业务人员,往往是驱动技术进步的核心原因。
2)架构师。
架构师有多么重要,当一个业务人员和一个工程师,一个说着业务语言,一个说着技术术语在那里讨论问题的时候,工程师往往想着用什么样的代码能马上让他闭嘴,而架构师往往会跳出来说“不,不能那样,你这样写只能解决一个问题并且会制造后续的若干问题,按照我这个方案来,可以解决后续的若干问题!”一个非技术企业的IT系统水平,往往有70%以上的标准掌握在架构设计人员手里,尽快很多优秀的架构师都是从工程师慢慢发展学习而来的,IT架构的重要性,很多企业都意识到了,这就是很多企业有CTO和CIO两个职位,同样重要!架构之美,当IT系统平稳运行的时候没人能感受到,但是在一个烟囱林立、架构混乱的环境中走过的人眼中,IT开发一定要架构现行,开发在后!
3)投资人。
老板,不用说了,老板给你吃穿,你给老板卖命,天生的基础资料提供者,老板说要有山便有了山,老板说要做实时数据处理分析,便有了Storm,老板说要做开源,便有了Hadoop,老板还说要做迭代挖掘,便有了Spark……
4)科学家。
他们是别人眼中的Geek,他们是别人眼中的高大上,他们是类似于霍金一样的神秘的早出晚归昼伏夜出的眼睛男女,他们是驱动世界技术进步的核心力量。除了世界顶级的IT公司(往往世界技术方向掌握在他们手中),其他公司一般需要1-2个科学家足以,他们是真正投身于科学的人,不要让他们去考虑业务场景,不要让他们去考虑业务流程,不要让他们去计算成本,不要让他们去考虑项目进度,他们唯一需要考虑的就是如何在某个指标上击败对手,在某个指标上提高0.1%已经让他们可以连续奋战,不眠不休,让我们都为这些科学家喝彩和欢呼吧。在中国,我认为真正的大数据科学家不超过百人……
5)工程师。
工程师是这样一群可爱的人,他们年轻,冲动,有理想,又被人尊称为“屌丝”“键盘党”,他们孜孜不倦的为自己的理想而拼搏,每次自己取得一点点进步的时候,都在考虑是不是地铁口的鸡蛋灌饼又涨了五毛钱。他们敏感,自负,从来不屑于和业务人员去争论。工程师和科学家的不同点在于,工程师需要频繁改动代码,频繁测试程序,频繁上线,但是最后的系统是由若干工程师的代码组合起来的。每个自负的工程师看到系统的历史代码都会鄙视的发出一声“哼,这垃圾代码”,之后便投入到被后人继续鄙视的代码编写工作中去。
6)跟风者。
他们中有些是培训师,有些是杀马特洗剪吹,有些是煤老板有些是失足少女。他们的特点就是炒,和炒房者唯一不同的就是,他们不用付出金钱,他们认为只要和数据沾边就叫大数据,他们有些人甚至从来没碰过IT系统,他们是浑水摸鱼、滥竽充数的高手,他们是被前几种人鄙视的隐形人。不过我想说,欢迎来炒,一个行业炒的越凶,真正有价值的人就更能发挥自己的作用。
误区二:只有大数据才能拯救世界
大数据目前的技术和应用都是在数据分析、数据仓库等方面,主要针对OLAP(OnlineAnalyticalSystem),从技术角度来说,包含我总结的两条腿:一条腿是批量数据处理(包括MR、MPP等),另一条腿实时数据流处理(Storm、内存数据库等)。
在此基础上,部分场景又发现MR框架或实时框架不能很好的满足近线、迭代的挖掘需要,故又产生了目前非常火的基于内存数据处理Spark框架。很多企业目前的大数据框架是,一方面以Hadoop2.0之上的Hive、Pig框架处理底层的数据加工和处理,把按照业务逻辑处理完的数据直接送入到应用数据库中;另一方面以Storm流处理引擎处理实时的数据,根据业务营销的规则触发相应的营销场景。同时,用基于Spark处理技术集群满足对于实时数据加工、挖掘的需求。
以上描述可以看出,大数据说白了就是还没有进入真正的交易系统,没有在OLTP(OnlineTransactionsystem)方面做出太大的贡献。至于很多文章把大数据和物联网、泛在网、智慧城市都联系在一起,我认为大数据不过是条件之一,其余的OLTP系统是否具备,物理网络甚至组织架构都是重要因素。
最后还想说,大数据处理技术,再炫如Google的Dataflow或成熟如Hadoop2.0、数据仓库、Storm等,本质上都是数据加工工具,对于很多工程师来说,只需要把数据处理流程搞清楚就可以了,在这个平台上可以用固定的模版和脚本进行数据加工已经足够。毕竟数据的价值70%以上是对业务应用而言的,一个炫词对于业务如果没有帮助,终将只是屠龙之术。任何技术、IT架构都要符合业务规划、符合业务发展的要求,否则技术只会妨碍业务和生产力的发展。
随着时代变迁,大浪淘沙,作为数据行业的一员,我们每个人都在不同的角色之间转换,今天你可能是科学家,明天就会变成架构师,今天的工程师也会变成几年后的科学家,部分人还终将步入跟风者的行列。
2014年我国大数据发展分析报告
三、我国大数据发展的机遇和困境
1、大数据迎来大发展的机遇
大数据的快速发展,使它成为IT领域的又一大新兴产业。据中央财经大学中国经济管理研究院博士张永力估算,国外大数据行业约有1000亿美元的市场,而且每年都以10%的速度在增长,增速是软件行业的两倍。我国2012年大数据市场规模大约4.7亿元,2013年增速将达到138%,达到11.2亿元,产业发展潜力非常巨大。
1)政府积极介入推动
2009年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。2012年1月,世界经济论坛年会把“大数据、大影响”作为重要议题。美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。美国在开放政府上非常积极,通过Data.gov开放37万个数据集,并开放网站的API和源代码,提供上千个数据应用。除了推动本国政府数据开放,美国倡导发起全球开放政府数据运动,已有41个国家响应。美国政府还投资两亿美元促进大数据核心技术研究和应用,把大数据放在与集成电路、互联网同等重要的位臵,从国家层面推进。
2)资本市场也对大数据钟爱有加
2012年4月,大数据分析公司Splunk高调宣传大数据,引发投资者关注。12月初,为企业市场提供Hadoop解决方案的创业公司Cloudera获得6500万美元融资,估值约为7亿美元。近期,高盛联席主席斯科特。斯坦福说:“投资大数据及其运用回报率最高”。大数据领域的企业并购热度也在上升,单笔平均并购金额方面,大数据超过云计算位居IT领域榜首,在总并购额上也位居第二。
3)人才需求巨大
据一家国际咨询公司,盖特纳咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万—49万,缺口14万—19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。中国是人才大国,但能理解与应用大数据的创新人才更是稀缺资源。
4)各方积极参与
大数据的火爆,也带动了国内学术界、产业界和政府对大数据的热情。2011年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题,科技部的《中国云科技发展“十二五”专项规划》和工信部的《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。
其中工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。
应用方面,中国三大通信运营商都在结合自身业务情况,积极推进大数据应用工作,并取得了较好的进展。电子商务企业阿里巴巴提出要做中国数据分析第一平台,通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。据透露,截至目前阿里巴巴已经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。
研发企业方面,我国能够处理大数据的企业并不是很多。北京永洪科技在这方面做的不错。永洪科技在大数据、分布式计算、数据分析等领域具备核心竞争力、自主创新并拥有多项发明专利。推出的Z系列产品在大数据的应用分析中在国际上也是领先的。
大数据的热潮触发了一场思想启蒙运动,使得“大数据是资产,不是包袱”、“要拿数据说话”等观念逐步深入人心,改变了以往不重视数据积累,不相信数据分析等认识。有了这种思维模式的改变,大数据的应用就有了希望。
2、大数据落地面临的困难
应该说,全球来看,对大数据认识、研究和应用还都处于初期阶段。特别是对我国来说,大数据真正落地,还需要迈过三道坎。
1)数据是否足够丰富和开放
丰富的数据源是大数据产业发展的前提。而我国数字化的数据资源总量远远低于美欧,每年新增数据量仅为美国的7%,欧洲的12%,其中政府和制造业的数据资源积累远远落后于国外。就已有有限的数据资源来说,还存在标准化、准确性、完整性低,利用价值不高的情况,这大大降低了数据的价值。
同时,我国政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,系统之间缺乏统一的标准,形成了众多“信息孤岛”,而且受行政垄断和商业利益所限,数据开放程度较低,以邻为壑、共享难,这给数据利用造成极大障碍。制约我国数据资源开放和共享的一个重要因素是政策法规不完善,大数据挖掘缺乏相应的立法,无法既保证共享又防止滥用,一方面欠缺推动政府和公共数据的政策,另一方面数据保护和隐私保护方面的制度不完善抑制了开放的积极性。因此,建立一个良性发展的数据共享生态系统,是我国大数据发展需要迈过去的第一道砍。
2)是否掌握强大的数据分析工具
要以低成本和可扩展的方式处理大数据,这就需要对整个IT架构进行重构,开发先进的软件平台和算法。这方面,国外又一次走在我们前面。特别是近年来以开源模式发展起来的Hadoop等大数据处理软件平台,及其相关产业已经在美国初步形成。
而我国数据处理技术基础薄弱,总体上以跟随为主,难以满足大数据大规模应用的需求。如果把大数据比作石油,那数据分析工具就是勘探、钻井、提炼、加工的技术。我国必须掌握大数据关键技术,才能将资源转化为价值。应该说,要迈过这道坎,开源技术为我们提供了很好的基础。
3)管理理念和运作方式能否适配数据化决策
大数据开发的根本目的是以数据分析为基础,帮助人们做出更明智的决策,优化企业和社会运转。哈佛商业评论说,大数据本质上是“一场管理革命”。大数据时代的决策不能仅凭经验,而真正要“拿数据说话”。因此,大数据能够真正发挥作用,深层次看,还要改善我们的管理模式,需要管理方式和架构的与大数据技术工具相适配。这或许是我们最难迈过的一道坎了。
四、对我国发展大数据产业的建议
大数据有巨大的社会和商业价值,就看会不会挖掘,是否善于运用数据分析的结果。同时,它又是一个应用驱动性很强的服务,要做好大数据产业,为经济发展提供更大的动力,需要从以下几人方面入手。
1、建立一套运行机制。
大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。
2、规范一套建设标准。
没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。
3、搭建一个共享平台。
数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。
4、培养一支专业队伍。
大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。
五、结论
目前,大数据在电信、智慧城市、电子商务及社交娱乐等行业已经出现规模化应用,中国大数据市场将进入高速发展时期。大数据真正的价值体现在从海量且多样的内容中提取用户行为、用户数据、特征并转化为数据资源,对数据资源进一步加以挖掘和分析,增强用户信息获取的便利性,实现从产品价值导向到以客户体验价值为中心导向的转换,客户体验的提升也正是激发信息消费的根本原因。
中国信息消费市场规模量级巨大,增长迅速。在网络能力的提升、居民消费升级和四化加快融合发展的背景下,新技术、新产品、新内容、新服务、新业态不断激发新的消费需求,而作为提升信息消费体验的重要手段,大数据将在行业领域获得广泛应用。
大数据已经渗透到各个行业和业务职能领域,成为重要的生产因素,大数据的演进与生产力的提高有着直接的关系。随着网速的大幅提升,数据也将迎来爆发式增长,快速获取、处理、分析海量、多样化的交易数据、交互数据与传感数据,从而实现信息再价值化,对大数据的利用将成为企业提高核心竞争力和抢占市场先机的关键。大数据因其巨大的商业价值正在成为推动信息产业变革的新引擎。
中国发展大数据,具有得天独厚的优势,主要体现在我国的特殊的国情,拥有独特的位势和经济社会高速稳定发展,给大数据及其应用带来了巨大的发展空间。大数据在我国各领域和不同行业的应用潜力巨大、机遇重大。大数据的核心技术进展和大数据应用有可能带来我国新兴战略性产业发展的新机遇。(文章来源CDA数据分析师)
数据分析咨询请扫描二维码
数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21