“六问大数据”,第一个问题就可能把你问住!
大数据,顾名思义,“大”该是应有之义。“大数据的定义最初与容量有关系。”工信部信息化和软件服务业司副司长李冠宇分析说,业界有几种对大数据的定义,其中一个共同点就是数据的容量超出了原有的存储、管理和处理能力。
正如中国电子信息产业发展研究院副院长樊会文接受记者采访时指出的,大数据概念产生就是因为数据量和数据类型急剧增加,以至于原有的数据存储、传输、处理以及管理技术不能胜任,需要全新的技术工具和手段。
对于“多大容量的数据才算大数据”,工信部赛迪研究院软件所所长潘文说,大数据的规模并没有具体的标准,仅仅规模大也不能算作大数据。规模大本身也要从两个维度来衡量,一是从时间序列累积大量的数据,二是在深度上更加细化的数据。
李冠宇说,比如一份现在看起来很小的数据,但是纵向积累久了也可以变成大数据,横向与其他数据关联起来也可能形成大数据。而一份很大的数据如果没有关联性、没有价值也不是大数据。
运满满研究院院长徐强认为,“大”是必要条件,但非充分条件。基于移动互联网用户规模红利,国内平台型企业比较容易获取大量数据,但数据不是越多越好,无用数据就像噪音,会给数据分析、清洗、脱敏和可视化带来负担。
“大数据概念正是来自信息技术的飞速发展和应用,特别是随着云计算、物联网、移动互联网的应用,数据量迅猛增长。数据来源有两种,一种与人有关,比如政府、企业等为人们服务时产生的数据;另一种与物有关,在移动泛在、万物互联时代,物联网应用的浪潮将带动数据量爆发式增长。”李冠宇说。
这也就不难理解,为何当下数据产生的速度如此之快。正如樊会文所分析的,一方面,信息终端大面积普及,信息源大量增加;另一方面,基于云计算的互联网信息平台快速增长,数据向平台大规模集中。
大数据与云计算、物联网、人工智能等新一代信息技术之间相互影响、相互促进、相互融合。徐强说,运满满通过车联网设备和信息平台,每天获取3TB至4TB的数据,运用先进的大数据算法模型,实现了智能车货匹配、智能实时调度等。
“大数据作为重要的基础性战略资源,核心价值在于应用,在于其赋值和赋能作用,在于对大量数据的分析和挖掘后所带来的决策支撑,能够为我们的生产生活、经营管理、社会治理、民生服务等各方面带来高效、便捷、精准的服务。”李冠宇强调。
二问:大数据怎么赚钱
◎目前,大数据的金矿还仅是开挖了“冰山一角”。
◎大数据主要盈利模式围绕两方面展开,一是通过直接“搬运”数据赚钱,二是通过数据加工分析盈利。
“大数据的市场规模没有天花板。”国务院发展研究中心信息中心研究处处长李广乾认为。不过细想,这正是目前各大企业和资本疯狂追逐大数据产业的重要原因。
目前,大数据的金矿还仅是开挖了“冰山一角”。从总体规模看,2016年,全球大数据市场规模实现16.5%的增长,预计将连续3年保持增速在15%左右。同时,大数据成为全球IT支出新的增长点,2016年,有近40%的企业正在实施和扩大大数据技术的应用,另有30%计划在未来12个月内应用大数据。
“说大数据产业是一张画得很大的饼显然是片面的。”潘文预测,包括大数据硬件、大数据软件、大数据服务等在内的大数据核心产业环节,2016年达到3100亿元,将在2020年超过1万亿元;大数据关联产业规模2016年超过5万亿元,将在2020年超过10万亿元;大数据融合产业规模2016年达到3.5万亿元,将在2020年超过20万亿元。
“从大数据核心产业结构看,基于大数据的服务是大数据核心产业的主体,其规模约占大数据核心产业规模的90%,未来,服务也将是大数据产业的最核心部分。”潘文说。
目前国内大数据公司分为两类:一类是已有获取大数据能力的公司,如百度、腾讯、阿里巴巴等互联网巨头及华为、浪潮、中兴等企业,涵盖了数据采集、数据存储、数据分析、数据可视化及数据安全等领域;另一类则是初创大数据公司,依靠大数据工具,针对市场需求,为市场带来创新方案并推动技术发展。
不同的大数据公司,盈利模式也不相同。如果把大数据产业比作房地产开发,那么海量数据就是地产开发时的土地资源,数据挖掘开发就是地产搭建盖楼。大数据主要的盈利模式也是围绕这两方面展开,一是通过直接“搬运”数据赚钱,二是通过数据加工分析盈利。
“我们就像一个自来水厂一样,用户要你提供干净的自来水,对方可能是酒厂、饭店、饮料厂,他把你的水做成饮料或酒。”聚合数据就是一家主要依靠为客户提供数据盈利的公司,公司创始人左磊对其商业模式作了一个形象的比喻。
在开发APP应用过程中,左磊发现客户对于数据的需求非常大,但他们本身却没有能力去做这些事情。聚合数据的主营业务,就是整合市面上有价值的数据源,从车辆违章信息、航班火车查询、全国加油站实时油价,到在线试题、电影、股票,做成标准化的API(应用程序编程接口),开放给开发者、企业及微信公众号用户等使用,为他们免除数据收集、维护等环节。简言之,聚合数据是一家数据源公司,充当的是数据“搬运工”的角色。
此外,如果说搬运数据是秀肌肉的“体力活”,那么分析数据并提供解决方案就是拼智商的“脑力活”,相当于把收集来的数据“消化”“利用”好。直接售卖数据是比较底层的盈利方式,而对数据进行处理加工则在商业模式上具备更多的想象空间。
三问:大数据如何影响传统产业
◎大数据对传统产业的改变不只是某个环节,而是从设计研发、生产管理到售后维护的全流程。
◎大数据要与传统产业更好地融合,关键还在于产业本身的发展和应用。
零售巨头沃尔玛每天都要处理庞大的数据信息,所有店面的销售情况都实时反映到大数据中心,通过对比分析可以准确发现隐藏的问题。沃尔玛相关负责人表示,运用大数据工具之后,出现问题到解决问题的时间从两到三周缩减为20分钟。
零售业运用大数据调整销售策略,制造业运用大数据加强售后维护,农业运用大数据制定收割路线,电信业运用大数据加强精准营销……显然,大数据对传统产业的改变不只是某个环节,而是从设计研发、生产管理到售后维护的全流程。
“大数据的高容量、多样性、存取速度快、应用价值高等特性都有助于传统产业转型升级。”潘文接受记者采访时表示,大数据是创新发展的资源,大数据资源的开发也要经历采集、传输、储存、梳理、分析等过程去形成软件和个性化解决方案,然后应用到相关的领域、行业和企业。而大数据的实时、感知和预测等特点确实可以在企业降低成本、缩短生产周期、提升效率、细分产品定位、优化流程和决策等方面扮演重要角色。
目前,商业、金融业、制造业等传统行业都有成功的大数据应用。其中,“零售、媒体、能源、电信等行业应用大数据做得比较好。”潘文解释说,前两者是因为在消费前端,加之“互联网+”大潮带动,大数据的价值很容易体现出来;后两者则是因为本身在国家推进产业发展时就一直比较重视信息化建设以及后来的智能化升级改造,大数据的应用水平自然水涨船高。
“制造业是大数据应用的主战场。”李冠宇认为,大数据能推动制造业在更大范围、更深层次实现更有效率、更加精准的资源配置,加速驱动制造业生产、管理、营销模式的全面变革,显著提升制造业发展的质量和效益。智能制造是《中国制造2025》的主攻方向,而大数据正是智能制造的重要内容。
“目前,我国制造业应用大数据的水平并不高。”潘文坦言,大数据从消费端向生产端渗透是一个渐进的过程,此外我国制造业本身各行业之间智能化水平差异较大,这两方面都直接影响到大数据的应用水平。
“举一个简单的例子,日本工厂的一条生产线有上千个传感器,国内企业则只有几百个。少这么多不是为了省钱,而是因为国内企业不知道还能在哪些地方放传感器。由此可见制造工艺水平越高,对精准操控的要求就越高,对传感器的要求也就越多。”李冠宇说。
由此可见,大数据要与传统产业更好地融合,关键还在于产业本身的发展和应用。比如,最靠近消费者的服务业把大数据用得最好。潘文认为,服务业成功应用大数据的经验可以总结为3点,一是从过程看,大数据实现了要素间的互联互通和综合集成,借鉴到制造端就是现在大家熟知的信息物理系统。二是从要素看,大数据平台搭建推进了要素的优化整合和高效配置,借鉴到制造端就是工业大数据。三是从决策看,大数据成为精准投放决策的重要支撑,借鉴到制造端就是商业智能。
四问:大数据如何影响百姓生活
◎随着大数据的广泛应用,这个世界越来越透明,人们就像生活在玻璃鱼缸里。
◎不管是在工作场所、购物娱乐场所还是家中,人们都能够随时随地发现大数据带给生活的改变。
对大数据时代,当下有一个形象又略带幽默的说法:随着大数据的广泛应用,这个世界越来越透明,人们就像生活在玻璃鱼缸里。
在这个时代,每个人都是大数据的生产者,数据让孤立的个人不再神秘。随着智能终端的发展,人们的每一个行为都可能产生数据,并且被记录下来。比如,每一次心脏跳动、生活中的每一笔花销、每一次外出旅行等等。
“大数据技术现在已经被应用在了我们生活当中的很多地方,其中包含了我们日常的衣食住行。”潘文表示,不管是在工作场所、购物娱乐场所还是家中,人们都能够随时随地发现大数据带给生活的改变。
目前,大数据在电子商务领域的应用最广,成为大数据最成熟的应用模式。京东通过建立PB级大数据平台,将每个用户在其网站上的行为数据进行记录和分析,提高与用户的沟通效率、提升用户体验,实现了向不同用户展示不同内容的效果。
“利用大数据,还可以通过分析预测出行交通规律,指导公交线路的设计、调整车辆派遣密度,进行车流指挥控制,及时做到梳理拥堵,合理缓解城市交通负担。”李冠宇说,比如,滴滴出行通过掌握的用户打车记录、司机行车轨迹等交通大数据,可以科学实现运力调度,精确匹配乘客和司机,优化路径,减少拥堵。
与民生福祉密切相关的健康医疗领域也在逐步应用大数据。李冠宇透露,我国部分省市正在实施病历档案数字化,配合临床医疗数据与病人体征数据的收集分析,用于远程诊疗、医疗研发,甚至结合保险数据分析用于商业及公共政策制定等等。
大数据给人们的生活带来了便利,但在“鱼缸生活”中,每个人都赤裸裸地暴露着,从衣食住行到医疗信息,无一不被外界掌握,一旦被不法分子或别有用心的人利用,都将带来巨大的威胁。可以说,大数据对人们的隐私权带来严重挑战。
李广乾说,我们通常将信息安全受到威胁的情况分为两种,一种是系统被黑客攻入、被人为破坏,无法正常运转;还有一种是个人隐私泄露,给个人带来很大的困扰和危险。保护个人信息安全,一是要提高个人信息自我保护意识和隐私意识,谨慎对待信息采集等;二是要规范数据采集、使用部门的行为,严格管理,杜绝信息被盗取、泄露;三是要完善相应的法律法规,对罔顾个人信息安全的行为进行严惩。
五问:中国大数据世界排第几
◎大数据产业是新兴产业,中国和世界各国都处于起步阶段,综合排名缺乏统一标准。
◎在许多垂直领域,中国的大数据核心技术处于全球领先。
中国大数据在世界上处于第几方阵?对此,潘文表示,大数据产业是新兴产业,中国和世界各国都处于起步阶段,综合排名缺乏统一标准。从大数据产业收集端、处理端和应用端来看,中国在收集端和应用端全球领先,在处理端核心技术方面还有差距。
“各个国家在大数据方面的优势各有不同,目前还没法评判谁做得更好。”徐强表示,比如,日本在医疗交通方面做得不错,欧洲在数据保护方面领先,新加坡在电子政务方面独树一帜。而即使是大数据核心技术比较领先的美国,在智慧物流、移动支付等部分垂直应用领域也逊色于中国。
从大数据核心产业结构来看,服务是大数据产业的最核心部分。全球市场数据分析服务占整体收入的47.6%,而国内市场数据分析服务在整体收入中占比却比较低,主要企业仍停留在前期的基础软硬件设施投入和部署阶段。樊会文表示,从这个对比可以判断,国内大数据市场虽然已经进入快速增长通道,但仍处于增长的早期阶段。
“中国大数据对世界的贡献主要是三点。”潘文分析说,一是引领大数据的创新应用,特别是在消费领域;二是互联网公司、初创企业引领技术创新步伐,特别是语音识别、图像理解、文本挖掘等方面已涌现出明星企业;三是我国已成为产生和积累数据量最大、数据类型最丰富的国家之一。
“我国在大数据应用方面处于世界前列,特别是在服务业领域,蓬勃发展的电子商务衍生出一系列基于大数据的互联网金融及信用体系产品,互联网创新应用普及速度非常快。”潘文说。以互联网金融领域为例,蚂蚁金服推出了芝麻信用,其芝麻分来自淘宝、支付宝的数据占30%-40%。通过综合考虑个人用户的信用历史、行为偏好、履约能力、身份特质、人脉关系等信息,直接与其信用挂钩,准确率非常高。
与世界各国相比,中国大数据体量位居前列。我国大型数据中心跨地区经营互联网数据中心业务的企业已达到295家。李冠宇指出,目前中国网民数量超过7亿,移动电话用户突破13亿,均居全球第一。中国已是世界上产生和积累数据体量最大、类型最丰富的国家之一。
“在许多垂直领域,中国的大数据核心技术处于全球领先。比如在智慧物流领域,中国就比美国发展得好。”徐强表示,调研表明,菜鸟网络、运满满等企业的智慧物流建设,通过为货主和司机提供实时信息数据匹配,可以降低物流运价5%至10%,单车运行效率可以提升30%以上,降本增效效果显著。
潘文认为,中国大数据产业发展将迎来“黄金期”。随着国家大数据战略配套政策措施的制定和实施,我国大数据产业的发展环境将进一步优化,大数据的新业态、新业务、新服务将迎来爆发式增长,产业链进一步成熟和扩张。
尽管与发达国家相比,中国大数据发展还存在数据资源开放共享程度低、技术创新与支撑能力不强、大数据产业支撑体系不完善等差距,“但中国要发挥出市场规模大、应用需求旺的优势,以企业为主体集中攻克大数据关键技术,全面提升我国大数据的资源掌控能力、技术支撑能力和价值挖掘能力,加快迈向数据强国。”李冠宇说。
六问:发展大数据还有啥问题
◎数据孤岛林立、融合困难,已经成为政府与企业面前的首要难题。
◎如何处理巨量数据是中国大数据产业面临的首要技术问题。
◎人才不足限制了大数据产业创新发展的成效。
“第一个问题就是没数据,理论上我们中国有很多数据,但实际做数据分析会发现非常困难。”中国科学院院士、北京大数据研究院院长鄂维南表示,数据孤岛是一个严重的问题,不同部门的数据储存在不同地方,格式也不一样。大数据最高的层次就是用数据来形成智慧,使得社会各方面可以运转起来。做数据分析先要整合数据,这本身就是研究的困难。
由于政府部门之间、企业之间、政府和企业间信息不对称、制度法律不具体、缺乏公共平台和共享渠道等多重因素,导致大量政府数据存在“不愿公开、不敢公开、不能公开、不会公开”的问题,而已开放的数据也因格式标准缺失无法进行关联融合,形成孤岛。
对于如何打通数据孤岛,潘文建议,要建立完善大数据发展协调机制,加快政府数据开放共享,稳步推动公共数据资源开放。同时,统筹规划大数据基础设施建设,推动制定公共信息资源保护和开放的制度性文件,并加强大数据标准化顶层设计,逐步完善标准体系。
在数据共享的路上,2015年成立的贵阳大数据交易所已经做出了成功的尝试。王叁寿表示,若想打通城市现存的信息壁垒,就要让城市多方资源联动起来,搭建城市数据共享的平台,从而激活大数据价值,充分发挥数据资源整合的优质效应,用信息化手段辅助科学决策。
即便解决了数据共享问题,数据可供随时取用,数据的采集和分析仍是主要挑战。微软大中华区董事长兼CEO柯睿杰认为,数据智能并非那么触手可及。大数据来源众多、数量巨大、形式各异,要从中获得一目了然的信息,就需要真正高效、可靠的数据管理和分析平台。
如何处理巨量数据是中国大数据产业面临的首要技术问题。鄂维南表示,“中国的数据体量特别大,比如,中国的视频比任何国家都要多,这些数据储存困难,需要用的时候往往就没了”。再以基因测序领域为例,中国每年新增的基因组测序原始数据超过20PB(1PB相当于100万GB),面临着数据量大、数据处理流程长等技术挑战。
另一方面,数据分析本身也是一个难题。大数据中,绝大部分属于非结构化的数据,它们大量存在于社交网络、互联网和电子商务等领域,这些数据的不确定性表现在高维、多变和强随机性等方面。股票交易数据流就是不确定性大数据的一个典型例子。这些都需要通过包括数学、经济学、社会学、计算机科学和管理科学在内的多学科交叉来研究和讨论。
此外,人才不足限制了大数据产业创新发展的成效。在高端人才稀缺的现实情况下,企业多选择从海外和传统行业挖掘跨界人才,但仍然无法满足国内市场的大量需求。针对大数据人才供应不足的现象,各种培训机构和各大高校也开始强化大数据人才的培养。但培养大数据人才需要时间,在短期内对于大数据领域的高端人才仍然会呈现出供不应求的现象。
对于大数据人才建设,潘文表示,要建立适应大数据发展需求的人才培养和评价机制,并建立健全多层次、多类型的大数据人才培养体系。同时,还要完善配套措施,培养大数据领域创新型领军人才,吸引海外大数据高层次人才来华就业、创业。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16