抓住大数据发展的关键问题_数据分析师
在今年“双十一”电商大战中,刚刚上市的阿里巴巴以日销售额571亿元引来全球关注,大数据应用也成为其中的一个新亮点。大数据应用今年以来获得快速发展,百度、阿里等网络巨头与行业领军企业都在谋求大数据应用的发展,国家部委及地方政府对发展大数据兴趣浓厚,纷纷推出行动计划。但人们对于大数据却总有些雾里看花的感觉。
究竟什么是大数据?为什么大家竞相发展大数据?大数据会对经济发展产生什么影响?为此,中国经济时报记者专访了国务院发展研究中心技术经济研究部第二研究室主任田杰棠。
怎样挖掘非结构化数据是关键
中国经济时报:今年大数据发展加速,但“大数据”仍是一个新生事物,目前还没有形成学术上的定义,所以人们对大数据的认识、理解比较模糊。您作为研究技术经济的专家,怎么理解大数据?
田杰棠:互联网应用以来,从2005年开始,数据在不断地增长,到2010年以后基本上是一个指数增长的过程,到2013年时已经超过4个ZB(10万亿亿字节),每年的增长率超过50%。这是一个从量变到质变的过程,因此“大”的概念就蹦出来了,但它其实不是一个严格的学术概念。
现在谈大数据的定义,最多的就是所谓的四个“V”,第一个“V”就是它的实际规模。
第二个“V”是多样的数据类型,尤其是里面包涵了大量的非结构化数据。
第三个“V”是价值,有两点:一个是价值大,大数据带来各种可能性;另外一个比较重要的是,它虽然量很大、价值也很大,但是密度很低。
第四个“V”就是动态数据的快速处理。这里面比较核心的,也是大数据将来能不能从“可能”到“可行”转变的两个要素,即:非结构化和低密度。如果技术上能解决怎么分析非结构化数据、怎么从低密度价值里面提取数据的价值,那么大数据的应用可能就会有一个飞跃式增长。所以,我觉得非结构化和低密度可能是大数据的核心东西。
中国经济时报:您认为大数据未来需要关注更多的非结构化数据处理,那么需要什么技术促进大数据发展产生飞跃?
田杰棠:大数据要快速发展,前提就是数据的存储技术和挖掘技术的发展以及技术成本的不断降低。
现在数据的来源是非常多的,主要可以分为物的数据和人的数据。物的数据基本是结构化的数据,是比较好存储分析的。但人的数据,又主要是非结构化的数据,目前对非结构化数据的处理还是一个难点。
这两年,随着IT成本的下降,云计算的使用率在不断上升,现在云储存的成本是在慢慢降低的。因为IT成本的下降和云计算发展,数据存储成本得以下降,数据量才能出现指数倍增长。
未来的数据更多的是人的数据,是非结构化的数据,因为大数据具有价值大但价值密度低的特点,目前数据挖掘分析技术成本还很高,尤其是对非结构化的数据的分析挖掘技术。所以,未来大数据要得到快速发展,必须把数据挖掘技术成本降下来。
大数据发展对经济的影响和前景
中国经济时报:科技的发展必然会对经济产生影响,大数据的应用对经济有何影响?
田杰棠:如果从宏观或者立体的角度看,人类整个经济发展的过程其实就是不断把一些不可利用的资源变成可利用资源的过程。这个过程一般就是技术的一个个大突破,当然每一次技术突破都伴随着不断的、大量的投资过程,并将其转化成价值。
实际上很多发达国家在2008年金融危机以后寄希望于一套新技术来摆脱实体经济的衰落和危机,大数据、云计算、新能源都是被寄予厚望的几个关键技术之一。
1995年,Bresnahan和Trajtenberg教授提出了通用目的技术,通用目的技术的特征就是它在许许多多的部门都具有广泛而且普遍深入使用的潜力和技术活力。
如果我们从增长的视角来观察大数据的话,一个核心的问题就是:大数据会不会成为我们期待的下一代的通用目的技术?如果是的话,它可能会带来比较显著的经济增长效应。
麦肯锡研究院分析认为大数据影响的面是比较广的,包括了教育、交通、零售、电器、能源以及医疗、金融等等,有可能会每年为世界带来大概3万亿美元至5万亿美元的经济效应,但这个情况目前还只是一个预测。
从经济波动和政府干预的视角看,大数据也会带来一些冲击效应。大数据的发展能否真正改善供需平衡?淘宝曾经做的“订单农业”、“抢先购”以及“家电定制”,都是先收集需求数据情况,再组织生产的事例,在当时的效果都是不错的。收集全国所有的数据,在目前还有点困难。但至少从这个角度是有这种可能性,值得思考。比如政府干预是不是比以前更加不必要了。
中国经济时报:可以发现许多国家都在发展大数据,中国一些龙头企业也在做大数据,您认为大数据的发展前景怎么样?
田杰棠:IDC在2013年认为,2017年大数据市场规模将达324亿美元,麦肯锡也认为大数据会带动其他产业每年有3万亿美元至5万亿美元的增长,这里面的乘数效应是非常大的。在中国,工信部下属的赛迪做过一个关于投资的预测:对大数据的投资从2012年到2015年大概每年增长100%左右,这个速度甚至超过国外的速度。
我国的领导层也比较关注大数据,从2012年以后,科技部、发改委、工信部等部委在研发、探索和产业化专项上,陆续支持了一批大数据项目,不少地方政府也在搞大数据,比如陕西的“大数据科学园区”经、广东的“大数据战略合作方案”、上海的“大数据研发三年行动计划”等等,基本是“多点开花”的状态。
另外像BAT(百度、阿里、腾讯)这样的互联网龙头企业也都在做大数据。所以大数据的发展前景还是非常可期的。
大数据发展的制度建设和政府作用
中国经济时报:目前数据的流通并不通畅,政府的大部分数据在目前也没有公开。大数据发展需要怎样的制度建设?
田杰棠:现在一个很核心的问题是如何界定数据的产权,产权的界定是大数据交易和商业化的前提。
数据的所有权、使用权应该如何界定才能达到最大的经济效应?比如数据企业,包括阿里巴巴或者国内其他公司,他们对数据在什么层次上有使用权?什么情况下可以不经过数据生产者的同意就可以使用?数据的生产者对数据到底有哪些权利?这些都是值得思考的问题。
另外,政府及公共机构的数据是否应该开放?是不是应该把使用权让渡给社会?或者说哪些数据应该开放,开放到什么程度?在中国,政府、部分事业单位有非常多的数据,但是使用得非常不充分。
怎么去界定数据产权至少需要三个层次的立法:其一,数据的商业运用应该是什么边界?个人隐私保护应该在什么边界?政府数据的公开应该在什么边界?另外,还有其他的制度需求,需要公平竞争的环境,例如对金融行业使用大数据的前景是非常好的,但现在也存在很多的市场准入门槛,使银行仅靠存贷差就可以过好日子。
其二,数据安全或者信息安全的问题。关于这点甚至提得更高,说“数据主权比产权还高”,包括一些安全预警与审查机制;数据存储的地域限制;再如对国家数据的外泄要立法等。
其三,行业性立法。中国的医疗行业,在大数据出现之前,病历在医院已经电子化了,但是不同医院之间仍然不能够共享,所以这也是一个体制问题。如果能通过行业性立法,把这些能够利用的大数据都放在一个平台上,那情况就大不一样了。
中国经济时报:在大数据发展中政府应该起什么作用,如何推动大数据的发展?
田杰棠:首先来看国外政府在做什么。2012年美国政府推出“大数据行动计划”,已经炒得很热。主要是在研究和应用上投了很多钱。
奥巴马2013年签署法令,要求所有新增政府数据都必须以电脑文件方式向公众开放。白宫颁布了开放数据政策,要求政府部门列出所有可公开的数据清单。如果不可公开的话,也要做出说明,为什么不可公开?
在政府采购方面,云计算时,联邦政府还任命了一个首席技术官,专门推进联邦政府和部门的云计算应用。现在数据服务可能也是这样。
最后要制定法规。这不仅是中国的问题,也有医疗、教育、个人隐私等方面的问题,也需要制定法规。在欧洲,有关个人隐私的法律很多,还有很多的工作要做。
关于大数据的发展有几点建议:不要急于出台所谓的战略性规划和设立产业专项资金。合理改造、建设和布局好IT基础设施,除云计算外,主要就是加快“宽带普及提速工程”。推动隐私保护和公共机构信息公开等立法。资助大数据基础技术研究,包括人才培养。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16