统计报告=大数据?论玩转大数据的正确姿势
随着物联网技术的发展,各种设备数据量的增多,“大数据”和“数据分析师”的概念正逐渐走进普通人的生活。然而近期,“大数据”或“数据分析师”正沦为一种炒作概念和传播噱头。在政府和企业的各种统计报告中,不提大数据似乎便是落伍。
日前,南京交管部门本周就发布了“2015年南京交通事故大数据分析报告”。让我们来看看报告中的内容。
数据分析报告显示,2015年全年,南京新增机动车驾驶人26.2万人,其中男性16.5万,女性9.7万。在发生的全部交通事故中,驾龄1年以下的司机引发的事故占13.6%,驾龄1至2年的司机占6.5%,驾龄2至3年的司机占的8.6%,驾龄6到10年的司机占5.5%,驾龄11至15年的司机占3.3%。
在此基础上,数据分析师还在报告中做了更多分析:在驾龄3年以下司机引发的事故中,男司机占87%,女司机占13%。而从2013年至2015年,南京新增司机中男性和女性分别占60%和40%。这就是说,3年以下新手中,四成女司机引发的交通事故占一成多,而六成男司机引发的交通事故近九成。所以结论是,男性新手司机引发的事故高于女性新手司机。
看到这里,你可能会问,这个“大数据”报告仅此而已?这样的数据又说明了什么?制作这样的报告似乎只需利用简单的数据库即可。如果数据量只有几万行,甚至Excel表格都能妥妥搞定。任何学过Excel制表的新手都能完成这样的“大数据分析”。
那么,数据科学是否真的如此简单?这种数据统计报告是否就等同于大数据?很明显,答案是否定的。
1.大数据究竟有多大?
本月,雅虎公布了用户使用该公司服务,例如雅虎新闻和雅虎财经的大量数据。雅虎的计划是将这些数据开放给学术界,给大数据和机器学习研究者提供素材。那么,雅虎提供的“大数据原材料”究竟有多大?
准确数字是13.5TB。如果使用当前常见的1TB移动硬盘去保存,那么这些数据需要14块硬盘才能完全容纳。
雅虎表示,这些数据来自2015年4个月时间里的2000万用户,其中包括用户使用的设备类型、阅读文章的时间、文章主题,以及用户的位置、年龄和性别。雅虎认为,只有通过对这种规模量级的数据进行研究,才能帮助学术界更好地理解普通人的在线阅读习惯和偏好。
雅虎此前也曾开放过一些规模较小的数据集,但这些数据集的大小也要达到1TB。这远远不是电子表格工具,或是传统数据库有能力处理的。而这才是数据分析师真正的用武之地。
2.大数据应当怎么做?
大数据的一条基本理论在于,单纯的数据并不产生价值,只有通过数据分析师的计算分析,找出其中趋势,为未来的决策提供依据,这样的大数据技术才是有意义的。
在本周于上海举行的阿里云栖大会上,阿里云大数据事业部资深总监徐常亮指出,大数据技术的重要一部分是数据加工工具,这样的工具需要打通数据生产链条,包括从数据采集到计算引擎,到数据加工、数据分析,到机器学习再到数据应用,最后形成闭环又回到数据采集。
道路交通状况分析和预测就是这种大数据技术实际应用的一个简单案例。在这一分析预测系统中,输入的数据是每辆汽车的信息,包括当前时间、汽车行驶速度,以及天气状况等。这样的数据既可以来自交通监控设备,也可以来自未来的互联汽车传感器。在繁忙的城市道路上,这样的数据将是海量的。
数据分析师可根据历史数据,我们可以建模,了解不同季节、不同时间、不同天气状况下汽车行驶速度和交通拥堵状况。随后,利用这样的模型,系统可以对道路上的合理车速做出预测,判断是否会出现交通拥堵,并提前预警,以便及时疏导交通。而更进一步,这样的信息对于城市未来的交通设计和规划也有着参考意义。
在本周的阿里云栖大会上,中国天气网宣布了与阿里云的战略合作,将把气象大数据开放给开发者。对这些大数据的分析处理将给农业(气象变化对农业生产的影响)、医疗健康(天气对人体罹患疾病的影响)和零售(不同天气状况下消费者的消费模式)等行业带来重要指导。
3.研究大数据需要什么样的技能?
数据科学很明显是未来科技行业发展的一大方向,然而在全球范围内,大数据人才的缺口很大。
麦肯锡的一项研究预计,到2018年,美国在深度数据分析领域的人才缺口可能将高达50%至60%。埃森哲的大数据战略调查则显示,有90%客户表示,计划招聘更多具备数据分析技能的员工。然而在1000多家受访的客户中,有41%表示,市场上数据科学人才的匮乏造成了限制。
那么,数据科学人才需要具备什么样的技能?
首先,对数据科学家(数据分析师)来说,数学是必不可少的知识基础。统计、概率论、数学建模,这些都是数据科学研究的基础。其次,他们还需要使用计算机语言,例如R或Python去玩转这些数据。
只有通过计算机编程,数学理论才能被用于实践,而数据集也才能得到适当的分析处理。最后,数据科学家还必须对某些垂直领域,例如交通或气象,有自己的兴趣。对于这些领域的多方面影响因素,他们必须了若指掌。而这也是使用数学理论去展开实用型研究的前提。
在此基础上,许多大数据公司还在开发机器学习技术,利用机器去深挖数据的潜力。这就要求数据科学家还要去了解机器学习算法,甚至相配套的硬件设计。
这样看来,数据科学的研究有着相当高的门槛,而理想的数据科学家(数据分析师)应当是了解数据、计算机,以及其他某一专业的复合型人才。这远远不是刚学会数据库操作的新手所能胜任的工作。
结论
数据统计并不等同于大数据。这可能是数据科学发展的最初形态,但未来的大数据技术还需要从这些统计数据中得出更多具有指导意义的分析结论。
回到2015年南京交通事故大数据分析报告。如果希望这成为真正的大数据报告,并带来参考意义,那么首先可能要做的就是增大数据集,采集更多类型的司机和车辆数据,并将覆盖范围扩大至整个省,甚至全国。
另一方面,数据科学家(数据分析师)需要做进一步的数据挖掘,将目光瞄准更多有价值的点。这将给交通出行体系和汽车业的多个领域带来帮助:汽车厂商可以基于这些信息开发安全功能,而道路设计也可以据此优化以减少事故的发生。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03