2016年数据科学家将扮演什么角色?
数据科学家已被誉为2016年美国最好的工作,但是这一岗位的定义和所要求的技能却一直在变化。技术进步与商业需求不断驱动数据科学岗位的演化,其所处的行业也是日新月异。在本文中,我们将更加仔细地审视2016年数据科学家将扮演的角色。
Dave Holtz写道,“数据科学家”常用作“一揽子头衔”(blanket title)的统称,描述一组截然不同的工作岗位。他将这个现象的原因,归结为数据科学领域仍处在早期发展阶段,对其定义不够准确。如果接受数据科学是一个“跨学科领域”这种大而全的说法,那么数据科学家的工作就是从不同形式的大量数据中提取知识或洞察。我们已经处在大数据时代,这是无法改变的事实。随着数据量与日俱增,从这些数据中提取出价值的工作只会慢慢变得更加复杂和困难。
大数据经济背后的逻辑,正在以无法想象或预测的方式重塑我们的生活;我们做出的每一个电子操作都将产生数据,并留下与自己生活相关的蛛丝马迹。作为消费者经济的参与者,我们访问任何网站或电子服务时,所产生的数据都会被挖掘,而数据科学家就要通过计算机科学、数据分析和复杂的商业知识,来收集、清洗、分析我们提供的数据,并据此进行预测。下面的图表列出了一名数据科学家所需要的技能集。我们可以发现,与一般意义上的大数据开发者或商业分析师不同,这个岗位的职责要求掌握多种技能集。
图1:数据科学家的技能集
Rivera 和 Haverson认为,之前的数据专业人员关注的是数据的流动过程和解释,而数据科学家更注重数学视角 —— 聚焦于从历史数据和当前数据中洞察出未来的模式。如果仅从字面上理解这两个词,“科学”意味着通过系统研究获得的知识;“数据”则是由定性化或定量化变量组成的信息集合。因此,数据科学家的字面定义应该是:一个系统性地研究信息的组织与性质的人。尽管统计人员和其他研究数据分析的人也扮演着重要的角色,但是Anjul Bhambari所描述的数据科学家既是分析师,又是艺术家,其角色注定是变革传统数据的分析和使用方法。
商业社交网站LinkedIn的成功,很好地证明了数据科学家为商业智能所带来的重大利好。作为一家几乎纯粹依赖其3.8亿名用户相互联系所产生数据的企业,LinkedIn正在利用受过正规培训、有着强烈好奇心的数据科学家们不断探索大数据的世界。LinkedIn与Facebook、Google等其他大型知识型企业都在利用数据科学家对大量的杂乱数据进行结构化,确定数据的价值大小,以及变量之间的系统性关系。
KPMG近期对企业高管的一项调查显示,99%的受访者认为大数据分析对于制定次年的战略非常重要。预计到2020年,每天产生的企业数据将超过240EB,在这一时代背景下,对于掌握了从数据中提取价值洞见能力的数据科学家的需求比以往更加重要…但是,Venture Beat公司的Travis Wright在一篇文章中提到,对数据科学家的需求远远超过了供给,如果想跟上新型数据经济的步伐,仅美国的公司就需要雇佣14-19万名数据科学家。
令人讽刺的是,关于数据科学家的平均收入的数据却存在许多相互冲突的地方。不过,比较明显的是平均收入与对数据科学家的高需求是正相关的。如果雇主要求员工能够熟练使用数据挖掘算法、精通像R和Python这样的语言、又具备处理大型数据库(SQL或类似数据库)的经验,还得开发Java应用、处理NoSQL数据库(引用自某个职位要求,上述要求只占十分之一)——此外,还要能够将以上这些清楚地传达给非技术同事,那么平均12万美元的薪资看上去也就不那么过分了。
尽管数据科学家的角色与传统意义上的数据分析岗位有重合之处,但是区别也尤其明显。一名数据分析师或数据架构师能够从大规模数据集中提取信息。但是他们只掌握SQL查询命令和对数据进行切片的分析包。借助对机器学习的深刻了解和编程开发等方面的知识,数据科学家可以随心所欲地处理数据,挖掘出更深的洞见。他们摆脱了这些程序的束缚。普通的数据分析师会观察过去发生的事情,但是数据科学家必须具备长远的眼光,展望未来。通过应用先进的统计知识和复杂的数据建模,他们必须挖掘出数据中隐藏的模式,对未来做出预测。数据科学家所需要的技能成功的数据分析需要做到能够清洗、集成和转变数据 —— 这些都是数据科学家必须掌握的重要技能。将科学背景与计算分析技能结合在一起之后,你就能够“胜人一筹”。下面的图2列出了数据科学通常关注的几个领域。
图2.数据科学关注的领域
不过我们还是要更细致地探讨一下成为数据科学家所需要的实际技能。Mark van Rijmenam是Data Floq公司的CEO,为了能够开发出提出正确的问题并寻找正确答案的算法,他建议数据科学家掌握以下技能:统计技能、数学和伦理学技能,并且具备构建预测性模型的丰富经验。
来自LinkedIn的Ferris Jumah更是将所要求的技能进行了归类,尽管数据科学家可能需要的技能和担任的岗位角色纷繁复杂。
数据科学家必须做到:
以数学思维看待数据。学习诸如机器学习、数据挖掘、数据分析和统计学等技能十分重要。数据科学家需要从数学的角度对数据进行解释和分析。
使用一门常用语言,进行数据访问、探索和建模。掌握一门统计编程语言将是关键。R、Python或MATLAB等语言,以及类似SQL等数据库查询语言是最受追捧的技能。数据提取、探索和假设检验是数据科学实践的核心。
具备很强的计算机科学和软件工程背景。这需要掌握包括Java、C++或算法知识和Hadoop。这些技能将用于利用数据来设计系统架构。
与使用标准工具的普通程序员不同,数据科学家一般会使用各种各样的工具,而且工具时刻在更新。这是因为数据科学领域正在快速发展,许多新工具还远未成熟。尽管如此,下面我们还是精选了一些数据科学家常用的工具:
数据分析
在这方面,使用的工具其实就是数据科学家用于提取和分析数据的编程语言。一般来说是Python、R和SQL。
数据科学家可以选择自己用于提取和分析数据的数据库。处理合理大小的数据集时,最流行的选择是MySQL。进入大数据领域之后,他们通常会转向使用Hive或Redshift。
数据可视化方面最常提及的工具,是D3.js和Tableau。只要是你能想象出来的数据可视化方式,数据科学家都可以利用D3.js实现。Tableau是目前市面上最流行的数据可视化工具,支持从数百个输入源汇集数据,并轻松地将这些数据转换成可视图表。
这或许是每天新增工具最多的一个领域了。知名度最高、使用最广泛的工具可能是Scikit-learn,它利用Python进行机器学习。然后当然还有Spark MLlib,这是Apache推出的针对Spark和Hadoop的机器学习库。
数据分析咨询请扫描二维码
数字化转型是企业提升竞争力和实现可持续发展的关键路径。面对快速变化的市场环境,以及技术的飞速发展,企业在数字化转型过程中 ...
2024-11-15CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13在现代银行业中,数字化用户行为分析已成为优化产品和服务、提升客户体验和提高业务效率的重要工具。通过全面的数据采集、深入的 ...
2024-11-13在这个数据飞速增长的时代,企业若想在竞争中占据优势,必须充分利用数据分析优化其营销策略。数据不仅有助于理解市场趋势,还可 ...
2024-11-13数据分析行业的就业趋势显示出多个积极的发展方向。随着大数据和人工智能技术的不断进步,数据分析在各行各业中的应用变得越来越 ...
2024-11-13市场数据分析是一门涉及多种技能和工具的学科,对企业在竞争激烈的市场中保持竞争力至关重要。通过数据分析,企业不仅可以了解当 ...
2024-11-13数据分析与数据挖掘是数据科学领域中两个关键的组成部分,它们各有独特的目标、方法和应用场景。尽管它们经常在实际应用中结合使 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13作为一名业务分析师,你肩负着将业务需求转化为技术解决方案的重任。面试这一角色时,涉及的问题多种多样,涵盖技术技能、分析能 ...
2024-11-13自学数据分析可能看似一项艰巨的任务,尤其在开始时。但是,通过一些策略和方法,你可以系统地学习和掌握数据分析的相关知识和技 ...
2024-11-10Excel是数据分析领域中的一款强大工具,它凭借其灵活的功能和易用的界面,成为了许多数据分析师和从业者的首选。无论是简单的数 ...
2024-11-10