2016年数据科学家将扮演什么角色?
数据科学家已被誉为2016年美国最好的工作,但是这一岗位的定义和所要求的技能却一直在变化。技术进步与商业需求不断驱动数据科学岗位的演化,其所处的行业也是日新月异。在本文中,我们将更加仔细地审视2016年数据科学家将扮演的角色。
Dave Holtz写道,“数据科学家”常用作“一揽子头衔”(blanket title)的统称,描述一组截然不同的工作岗位。他将这个现象的原因,归结为数据科学领域仍处在早期发展阶段,对其定义不够准确。如果接受数据科学是一个“跨学科领域”这种大而全的说法,那么数据科学家的工作就是从不同形式的大量数据中提取知识或洞察。我们已经处在大数据时代,这是无法改变的事实。随着数据量与日俱增,从这些数据中提取出价值的工作只会慢慢变得更加复杂和困难。
大数据经济背后的逻辑,正在以无法想象或预测的方式重塑我们的生活;我们做出的每一个电子操作都将产生数据,并留下与自己生活相关的蛛丝马迹。作为消费者经济的参与者,我们访问任何网站或电子服务时,所产生的数据都会被挖掘,而数据科学家就要通过计算机科学、数据分析和复杂的商业知识,来收集、清洗、分析我们提供的数据,并据此进行预测。下面的图表列出了一名数据科学家所需要的技能集。我们可以发现,与一般意义上的大数据开发者或商业分析师不同,这个岗位的职责要求掌握多种技能集。
图1:数据科学家的技能集
Rivera 和 Haverson认为,之前的数据专业人员关注的是数据的流动过程和解释,而数据科学家更注重数学视角 —— 聚焦于从历史数据和当前数据中洞察出未来的模式。如果仅从字面上理解这两个词,“科学”意味着通过系统研究获得的知识;“数据”则是由定性化或定量化变量组成的信息集合。因此,数据科学家的字面定义应该是:一个系统性地研究信息的组织与性质的人。尽管统计人员和其他研究数据分析的人也扮演着重要的角色,但是Anjul Bhambari所描述的数据科学家既是分析师,又是艺术家,其角色注定是变革传统数据的分析和使用方法。
商业社交网站LinkedIn的成功,很好地证明了数据科学家为商业智能所带来的重大利好。作为一家几乎纯粹依赖其3.8亿名用户相互联系所产生数据的企业,LinkedIn正在利用受过正规培训、有着强烈好奇心的数据科学家们不断探索大数据的世界。LinkedIn与Facebook、Google等其他大型知识型企业都在利用数据科学家对大量的杂乱数据进行结构化,确定数据的价值大小,以及变量之间的系统性关系。
KPMG近期对企业高管的一项调查显示,99%的受访者认为大数据分析对于制定次年的战略非常重要。预计到2020年,每天产生的企业数据将超过240EB,在这一时代背景下,对于掌握了从数据中提取价值洞见能力的数据科学家的需求比以往更加重要…但是,Venture Beat公司的Travis Wright在一篇文章中提到,对数据科学家的需求远远超过了供给,如果想跟上新型数据经济的步伐,仅美国的公司就需要雇佣14-19万名数据科学家。
令人讽刺的是,关于数据科学家的平均收入的数据却存在许多相互冲突的地方。不过,比较明显的是平均收入与对数据科学家的高需求是正相关的。如果雇主要求员工能够熟练使用数据挖掘算法、精通像R和Python这样的语言、又具备处理大型数据库(SQL或类似数据库)的经验,还得开发Java应用、处理NoSQL数据库(引用自某个职位要求,上述要求只占十分之一)——此外,还要能够将以上这些清楚地传达给非技术同事,那么平均12万美元的薪资看上去也就不那么过分了。
尽管数据科学家的角色与传统意义上的数据分析岗位有重合之处,但是区别也尤其明显。一名数据分析师或数据架构师能够从大规模数据集中提取信息。但是他们只掌握SQL查询命令和对数据进行切片的分析包。借助对机器学习的深刻了解和编程开发等方面的知识,数据科学家可以随心所欲地处理数据,挖掘出更深的洞见。他们摆脱了这些程序的束缚。普通的数据分析师会观察过去发生的事情,但是数据科学家必须具备长远的眼光,展望未来。通过应用先进的统计知识和复杂的数据建模,他们必须挖掘出数据中隐藏的模式,对未来做出预测。数据科学家所需要的技能成功的数据分析需要做到能够清洗、集成和转变数据 —— 这些都是数据科学家必须掌握的重要技能。将科学背景与计算分析技能结合在一起之后,你就能够“胜人一筹”。下面的图2列出了数据科学通常关注的几个领域。
图2.数据科学关注的领域
不过我们还是要更细致地探讨一下成为数据科学家所需要的实际技能。Mark van Rijmenam是Data Floq公司的CEO,为了能够开发出提出正确的问题并寻找正确答案的算法,他建议数据科学家掌握以下技能:统计技能、数学和伦理学技能,并且具备构建预测性模型的丰富经验。
来自LinkedIn的Ferris Jumah更是将所要求的技能进行了归类,尽管数据科学家可能需要的技能和担任的岗位角色纷繁复杂。
数据科学家必须做到:
以数学思维看待数据。学习诸如机器学习、数据挖掘、数据分析和统计学等技能十分重要。数据科学家需要从数学的角度对数据进行解释和分析。
使用一门常用语言,进行数据访问、探索和建模。掌握一门统计编程语言将是关键。R、Python或MATLAB等语言,以及类似SQL等数据库查询语言是最受追捧的技能。数据提取、探索和假设检验是数据科学实践的核心。
具备很强的计算机科学和软件工程背景。这需要掌握包括Java、C++或算法知识和Hadoop。这些技能将用于利用数据来设计系统架构。
与使用标准工具的普通程序员不同,数据科学家一般会使用各种各样的工具,而且工具时刻在更新。这是因为数据科学领域正在快速发展,许多新工具还远未成熟。尽管如此,下面我们还是精选了一些数据科学家常用的工具:
数据分析
在这方面,使用的工具其实就是数据科学家用于提取和分析数据的编程语言。一般来说是Python、R和SQL。
数据科学家可以选择自己用于提取和分析数据的数据库。处理合理大小的数据集时,最流行的选择是MySQL。进入大数据领域之后,他们通常会转向使用Hive或Redshift。
数据可视化方面最常提及的工具,是D3.js和Tableau。只要是你能想象出来的数据可视化方式,数据科学家都可以利用D3.js实现。Tableau是目前市面上最流行的数据可视化工具,支持从数百个输入源汇集数据,并轻松地将这些数据转换成可视图表。
这或许是每天新增工具最多的一个领域了。知名度最高、使用最广泛的工具可能是Scikit-learn,它利用Python进行机器学习。然后当然还有Spark MLlib,这是Apache推出的针对Spark和Hadoop的机器学习库。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31