攻克大数据:数据科学家的八种技能
随着大数据渗透进各行各业,负责淘洗数据、从中精炼价值的数据科学家无疑是这几年最炙手可热的职位,《哈佛商业评论》将之誉为21 世纪最性感工作。
1,因为优异的数据科学家就像独角兽一样珍贵难寻,而且可不是只有科技公司在抢人,传统金融界、零售商、广告、教育,几乎所有产业都需要数据科学家从大量数据中萃取精华。根据去年七月 Indeed.com 的调查,美国数据科学家每年均薪 12.3 万美金。
2,比起整体均薪多出 113%——当然,还是比每年平均可以领 74 万美金的 CEO 还少,但也够让 99.99% 的上班族望尘莫及。
能领这么惊人的薪资,数据科学家的本领真的不是三言两语就能讲完。但是到底什么是数据科学家?
顶尖的数据科学家最好统计、数学、程式能力最好都要掌握,而且要能从中洞察意义,并且拥有非凡的直觉,用数据数据发声,帮助公司制定重大决策。但是,其实就算同样都是寻找「数据科学家」,Google 跟沃尔玛超市要的人才,可能非常不一样。别因你好像缺了哪个专长而打退堂鼓,如果仔细阅读每家公司张贴的职缺叙述,你会发现说不定现有的技能就能进入数据科学的殿堂。Airbnb 数据科学家 Dave Holtz 把市场上所需的数据科学家概括成以下四类:
四种数据科学家
菜鸟数据科学家说穿了就是数据分析师
有些公司需要的数据科学家,说白话就是数据分析师(data analyst),而数据分析师就是菜鸟数据科学家。你的工作包括从 MySQL 萃取数据或是一名 Excel 专家,也许要能绘制基础的数据视觉图表、分析 A/B 测试的结果或者管理公司的 Google Analytics 帐号。这种公司对抱负远大的数据科学家来说,是很不错的练功场所,当你变成老手了,也能开始尝试新事物,扩充技能组合。
来清理我们乱糟糟的数据!
公司发展到了一定规模之後,累积一堆尚未理清的数据,而且持续大幅增加,因此他们会需要一个能够建立数据基本设施(data infrastrucure)的人,以让他们在这个基础上继续成长。由於你是第一个或第一批获聘的数据相关人员,工作通常不会太难,不求统计学家或机器学习专家才能胜任。在这种公司里面,带有软体工程背景的数据科学家就很吃香了,重点任务是提供数据到 production code,关於数据的洞见与分析倒是其次。就像前面说的,你是这家公司的第一个数据探勘者,通常你不会获得太多上层的支援,虽然反而更有机会大放异彩,不过因为比较缺乏真正的挑战,也有可能面临停滞不前的窘境。
我们就是数据,数据就是我们
也有很多公司,主要的产品就是数据(或数据分析平台)。如果你想进入这种公司,那你势必要具备很高深的数据分析或机器学习功力。完美的人选应该是有正规的数学、统计、物理背景,而且有意继续朝学术面钻研。这些数据科学家的主要职责在於研发出色的数据产品,而非解答公司的营运问题。拥有大量消费者数据也以此作为主要营利来源的公司、或者提供基於数据的服务的公司,都归属此类。
产品并非数据、却以数据驱动产品的公司
很多公司都属这种类型。你可能会加入一组已经建立的数据科学家团队,这家公司很重视数据,但称不上一家数据公司。你既要能够进行数据分析、接触 production code、也能将数据视觉化。一般来说,这种公司要的人才要不是通才,就是他们团队缺乏的某种特殊专才,比如数据视觉化或机器学习。想要通过这类公司的考验,端看你对「大数据(比如 Hive 或 Pig)」工具的熟稔程度,以及过往处理杂乱无章数据的经验。
现在,你了解“数据科学家”的定义很浮动,即使公司开缺都以数据科学家为名,但是他们要找的人其实不太一样,不一样的技能组合、不一样专长、不一样的经验层级,却都能够称之数据科学家,因此找工作时,务必详读职位描述,搞清楚你会进入什么样的团队、发展什么样的技能。
基本工具
无论哪一类公司,统计程式语言如 R 或 Python,以及数据库查询工具像 SQL 大概都是数据科学家必备的常识。
基础统计学
对统计起码要有基本认识,才称得上及格的数据科学家,一名拥有许多面试经验的人资说,很多他曾面试的人连 p-value 的定义都讲得不清不楚。你应该熟悉统计测试、分布、最大似然法则(maximum likelihood estimators)等等。机器学习也很重要,但更关键的能力,是你能否判断不同状况该用什么不同的技术。统计学适用於所有类型的公司,但对那些主要产品并非数据、却大幅依赖数据的公司来说尤为必备能力,老板需要的是你能不能利用数据帮助他们进行决策,以及设计、评估实验与结果。
假如你是在握有大量数据的大型企业,或是产品本身就是以数据为卖点的公司工作,机器学习就是你用来吃饭的家伙。虽然 KNN 演算法(k-nearest neighbors)、随机森林(random forest)、集成学习(ensemble methods)这类机器学习的流行术语好像不懂不行,不过因为事实上很多技术都可以用 R、Python 程式库解决,所以即使你不是演算法的世界顶尖专家,并不代表就毫无希望。比较重要的是,能够纵观全局,每种状况出现都能找出最契合的技术。
多变量微积分、线性代数
就算你即将面试的公司并未要求机器学习或统计学知识,基础多变量微积分与线性代数问题十之八九都是逃避不了的必考题,因为数据科学就是由这些技术型塑而成。尽管很多事情可以交给 sklearn 或 R 自动执行,但是未来如果公司想要建立自有的方案,这些基本知识就变得很重要了。如果你置身於「数据就是产品」,或者预测绩效仅因小小进步或演算法优化就能带来惊人效益的公司里面,微积分、线性代数等数学概念都需了解通透。
清理数据
Data Munging 是最容易令人不耐的过程,你面对的是乱七八糟的数据。这些数据包含消失的数值、不一致的字串格式(比如「New York」与「new york」与「ny」)、数据格式(「2015-03-26」、「03/26/2015」,「unix time」、「timestamps」等等),必须劳心费神梳理这些庞杂的数据。虽然这工作吃力不讨好,但只要是数据科学家,大概都避免不了,而如果你是某家小公司的先遣数据科学家,或是在一家产品非与数据相关,但是数据却扮演重要角色的公司里工作,清理数据的任务格外重要。
数据视觉化与沟通
把枯燥繁琐的数据转成图像,以及向外界沟通的技能愈来愈重要,尤其是在年轻的公司制定由数据驱动的决策,或者协助其他组织进行数据决策的公司。「沟通」二字的真谛在於,面对技术人或一般人,你都能准确的传达研究发现,并能让他们轻易理解。至於视觉化,如果可以熟悉 ggplot、d3.js 等软体的运用,会有很大的助益,当然工具只是表象,能否参透数据视觉化的原则,才是最需费心的地方。
软件工程
如果你是公司数据科学团队的草创元老,拥有强悍的软体工程背景十分重要,你会负责处理很多数据登录(data logging),也有可能需要参与开发以数据为本的产品。
像个数据科学家般思考
所谓数据科学家,就是你解决问题的方法奠基於数据数据。在面试过程中,主考官可能会出一些比较艰涩的问题,比如公司想要执行的某个测试,或者计划开发的数据产品。判断事情的轻重缓急、作为数据科学家如何与工程师和产品经理互动、知道该用什么方式解决问题,都是你该培养的能力。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30数据分析师在现代企业中扮演着关键角色,他们的工作内容不仅丰富多样,还对企业的决策和发展起着重要的作用。正如一个经验丰富的 ...
2024-12-29数据分析师的能力要求 在当今的数据主导时代,数据分析师的角色变得尤为重要。他们不仅需要具备深厚的技术背景,还需要拥有业务 ...
2024-12-29随着技术的飞速发展与行业的持续变革,不少人心中都存有疑问:到了 2025 年,数据分析师还有前途吗?给你分享一篇阿里P8大佬最近 ...
2024-12-29如何构建数据分析整体框架? 要让数据分析发挥其最大效能,建立一个清晰、完善的整体框架至关重要。今天,就让我们一同深入探讨 ...
2024-12-27AI来了,数分人也可以很省力,今天给大家介绍7个AI+数据分析工具,建议收藏。 01酷表 EXCEL 网址:https://chatexcel.com/ 这是 ...
2024-12-26一个好的数据分析模型不仅能使分析具备条理性和逻辑性,而且还更具备结构化和体系化,并保证分析结果的有效性和准确性。好的数据 ...
2024-12-26当下,AI 的发展堪称狂飙猛进。从 ChatGPT 横空出世到各种大语言模型(LLM)接连上线,似乎每个人的朋友圈都在讨论 AI 会不会“ ...
2024-12-26数据分析师这个职业已经成为了职场中的“香饽饽”,无论是互联网公司还是传统行业,都离不开数据支持。想成为一名优秀的数据分析 ...
2024-12-26在数据驱动决策成为商业常态的今天,数据分析师这一职业正迎来前所未有的机遇与挑战。很多希望转行或初入职场的人士不禁询问:数 ...
2024-12-25