统计报告=大数据?论玩转大数据的正确姿势
随着物联网技术的发展,各种设备数据量的增多,“大数据”和“数据分析师”的概念正逐渐走进普通人的生活。然而近期,“大数据”或“数据分析师”正沦为一种炒作概念和传播噱头。在政府和企业的各种统计报告中,不提大数据似乎便是落伍。
日前,南京交管部门本周就发布了“2015年南京交通事故大数据分析报告”。让我们来看看报告中的内容。
数据分析报告显示,2015年全年,南京新增机动车驾驶人26.2万人,其中男性16.5万,女性9.7万。在发生的全部交通事故中,驾龄1年以下的司机引发的事故占13.6%,驾龄1至2年的司机占6.5%,驾龄2至3年的司机占的8.6%,驾龄6到10年的司机占5.5%,驾龄11至15年的司机占3.3%。
在此基础上,数据分析师还在报告中做了更多分析:在驾龄3年以下司机引发的事故中,男司机占87%,女司机占13%。而从2013年至2015年,南京新增司机中男性和女性分别占60%和40%。这就是说,3年以下新手中,四成女司机引发的交通事故占一成多,而六成男司机引发的交通事故近九成。所以结论是,男性新手司机引发的事故高于女性新手司机。
看到这里,你可能会问,这个“大数据”报告仅此而已?这样的数据又说明了什么?制作这样的报告似乎只需利用简单的数据库即可。如果数据量只有几万行,甚至Excel表格都能妥妥搞定。任何学过Excel制表的新手都能完成这样的“大数据分析”。
那么,数据科学是否真的如此简单?这种数据统计报告是否就等同于大数据?很明显,答案是否定的。
1.大数据究竟有多大?
本月,雅虎公布了用户使用该公司服务,例如雅虎新闻和雅虎财经的大量数据。雅虎的计划是将这些数据开放给学术界,给大数据和机器学习研究者提供素材。那么,雅虎提供的“大数据原材料”究竟有多大?
准确数字是13.5TB。如果使用当前常见的1TB移动硬盘去保存,那么这些数据需要14块硬盘才能完全容纳。
雅虎表示,这些数据来自2015年4个月时间里的2000万用户,其中包括用户使用的设备类型、阅读文章的时间、文章主题,以及用户的位置、年龄和性别。雅虎认为,只有通过对这种规模量级的数据进行研究,才能帮助学术界更好地理解普通人的在线阅读习惯和偏好。
雅虎此前也曾开放过一些规模较小的数据集,但这些数据集的大小也要达到1TB。这远远不是电子表格工具,或是传统数据库有能力处理的。而这才是数据分析师真正的用武之地。
2.大数据应当怎么做?
大数据的一条基本理论在于,单纯的数据并不产生价值,只有通过数据分析师的计算分析,找出其中趋势,为未来的决策提供依据,这样的大数据技术才是有意义的。
在本周于上海举行的阿里云栖大会上,阿里云大数据事业部资深总监徐常亮指出,大数据技术的重要一部分是数据加工工具,这样的工具需要打通数据生产链条,包括从数据采集到计算引擎,到数据加工、数据分析,到机器学习再到数据应用,最后形成闭环又回到数据采集。
道路交通状况分析和预测就是这种大数据技术实际应用的一个简单案例。在这一分析预测系统中,输入的数据是每辆汽车的信息,包括当前时间、汽车行驶速度,以及天气状况等。这样的数据既可以来自交通监控设备,也可以来自未来的互联汽车传感器。在繁忙的城市道路上,这样的数据将是海量的。
数据分析师可根据历史数据,我们可以建模,了解不同季节、不同时间、不同天气状况下汽车行驶速度和交通拥堵状况。随后,利用这样的模型,系统可以对道路上的合理车速做出预测,判断是否会出现交通拥堵,并提前预警,以便及时疏导交通。而更进一步,这样的信息对于城市未来的交通设计和规划也有着参考意义。
在本周的阿里云栖大会上,中国天气网宣布了与阿里云的战略合作,将把气象大数据开放给开发者。对这些大数据的分析处理将给农业(气象变化对农业生产的影响)、医疗健康(天气对人体罹患疾病的影响)和零售(不同天气状况下消费者的消费模式)等行业带来重要指导。
3.研究大数据需要什么样的技能?
数据科学很明显是未来科技行业发展的一大方向,然而在全球范围内,大数据人才的缺口很大。
麦肯锡的一项研究预计,到2018年,美国在深度数据分析领域的人才缺口可能将高达50%至60%。埃森哲的大数据战略调查则显示,有90%客户表示,计划招聘更多具备数据分析技能的员工。然而在1000多家受访的客户中,有41%表示,市场上数据科学人才的匮乏造成了限制。
那么,数据科学人才需要具备什么样的技能?
首先,对数据科学家(数据分析师)来说,数学是必不可少的知识基础。统计、概率论、数学建模,这些都是数据科学研究的基础。其次,他们还需要使用计算机语言,例如R或Python去玩转这些数据。
只有通过计算机编程,数学理论才能被用于实践,而数据集也才能得到适当的分析处理。最后,数据科学家还必须对某些垂直领域,例如交通或气象,有自己的兴趣。对于这些领域的多方面影响因素,他们必须了若指掌。而这也是使用数学理论去展开实用型研究的前提。
在此基础上,许多大数据公司还在开发机器学习技术,利用机器去深挖数据的潜力。这就要求数据科学家还要去了解机器学习算法,甚至相配套的硬件设计。
这样看来,数据科学的研究有着相当高的门槛,而理想的数据科学家(数据分析师)应当是了解数据、计算机,以及其他某一专业的复合型人才。这远远不是刚学会数据库操作的新手所能胜任的工作。
结论
数据统计并不等同于大数据。这可能是数据科学发展的最初形态,但未来的大数据技术还需要从这些统计数据中得出更多具有指导意义的分析结论。
回到2015年南京交通事故大数据分析报告。如果希望这成为真正的大数据报告,并带来参考意义,那么首先可能要做的就是增大数据集,采集更多类型的司机和车辆数据,并将覆盖范围扩大至整个省,甚至全国。
另一方面,数据科学家(数据分析师)需要做进一步的数据挖掘,将目光瞄准更多有价值的点。这将给交通出行体系和汽车业的多个领域带来帮助:汽车厂商可以基于这些信息开发安全功能,而道路设计也可以据此优化以减少事故的发生。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26