数据科学就业市场正在迅速变化。能够建立机器学习模型曾经是只有少数杰出科学家才具备的一项精英技能。但是现在,任何具有基本编程经验的人都可以按照以下步骤来训练一个简单的scikit-learn或keras模型。招聘人员收到了大量的求职申请,因为围绕“本世纪最性感的工作”的炒作几乎没有减弱,而招聘工具正变得越来越容易使用。人们对数据科学家应该带来什么的期望已经发生了变化,企业开始认识到,训练机器学习模型只是数据科学成功的一小部分。
下面是让最好的数据科学家脱颖而出的四个最有价值的品质。
1.聚焦业务
对数据科学家来说,最常见的动机之一是对在数据中发现模式的自然好奇心。深入研究探索数据集的工作是令人兴奋的,用该领域的最新技术进行实验,系统地测试它们的效果,并发现一些新的东西。这种类型的科学动机是数据科学家应该具备的。但如果它是唯一的动力,那就成了问题。在这种情况下,它可能导致人们在一个孤立的泡沫中思考,迷失在统计细节中,而没有考虑他们工作的具体应用和公司的更大背景。
最好的数据科学家了解他们的工作如何与整个公司相适应,并具有交付业务价值的内在驱动力。当简单的解决方案足够好时,他们不会浪费时间在复杂的技术上。他们询问项目的更大目标,并在跳到解决方案之前挑战核心假设。他们关注整个团队的影响,并主动与涉众沟通。他们对新项目充满创意,敢于打破常规。他们为自己帮助了多少人而自豪,而不是他们使用的技术有多先进。
数据科学在很大程度上仍是一个不标准化的领域,数据科学训练营所教授的内容与企业实际需要的内容之间存在很大差距。最好的数据科学家不怕走出自己的舒适区,去解决紧迫的问题,并最大限度地发挥其影响。
2.扎实的软件工程技能
当人们想到理想的数据科学家时,他们脑海中往往会浮现出来自名牌大学的著名人工智能教授。当公司正在竞争建立尽可能高精确度的机器学习模型时,招聘这样的人才是有意义的。当用任何必要的方法挤出最后一个精度百分比非常重要时,那么你就需要注意数学细节,测试最复杂的方法,甚至发明专门针对特定用例进行优化的新的统计技术。
但在现实世界中,这几乎没有必要。对于大多数公司来说,具有相当精确度的标准模型已经足够好了,不值得花费时间和资源把这些模型变成世界上最先进的模型。更重要的是,要快速地以可接受的精度构建模型,并尽早建立反馈周期,这样你就可以开始迭代并加速识别最有价值的用例的过程。准确性上的微小差异通常不是数据科学项目成功或失败的原因,这也是为什么在商业世界中软件工程技能胜过科学技能的原因。
数据团队的典型工作流程通常是这样的:数据科学家用反复试验的代码和意大利面条式的代码构建了一些解决方案的原型。一旦结果开始看起来很有希望,他们就把它们交给软件工程师,然后他们必须从头重写所有内容,使解决方案具有可扩展性、效率和可维护性。不能期望数据科学家交付与全职软件工程师水平相当的生产代码,但是如果数据科学家更熟悉软件工程原理,并且对可能出现的体系结构问题有一定的认识,那么整个过程将会更加顺畅和快速。
随着越来越多的数据科学工作流被新的软件框架所取代,扎实的工程技能是数据科学家最重要的技能之一。
3.关注期望管理
从外部来看,数据科学可能是一个非常模糊和令人困惑的领域。这只是一种炒作,还是世界真的正在经历一场革命性的变革?每个数据科学项目都是机器学习项目吗?这些人是科学家、工程师还是统计学家?他们的主要输出软件还是仪表盘和可视化?为什么这个模型向我展示了一个错误的预测,有人能修复这个bug吗?如果他们现在只有这几行代码,那么在过去的一个月里他们一直在做什么呢?
有很多事情是不清楚的,数据科学家应该做什么,在公司的不同人之间的期望可能会有很大的差异。
对于数据科学家来说,主动地、持续地与涉众沟通是至关重要的,这样才能设定清晰的预期,及早发现误解,并让所有人都站在同一立场上。
最好的数据科学家了解其他团队的不同背景和议程如何影响他们的期望,并仔细调整他们的沟通方式。他们能够以简单的方式解释复杂的方法,以便非技术涉众更好地理解目标。他们知道什么时候该抑制过于乐观的预期,什么时候该说服过于悲观的同事。最重要的是,他们强调数据科学固有的实验性质,当一个项目的成功仍不明朗时,他们不会过度承诺。
4.熟悉云服务
云计算是数据科学工具包的核心部分。在很多情况下,在本地机器上摆弄Jupyter notebook已经达到极限了,不足以完成任务。当你需要在功能强大的gpu上训练机器学习模型、在分布式集群上并行化数据预处理、部署REST api来公开机器学习模型、管理和共享数据集或查询数据库以进行可扩展分析时,云服务尤其有用。
最大的供应商是Amazon Web Services (AWS)、Microsoft Azure和谷歌云平台 (GCP)。
考虑到大量的服务和平台之间的差异,云服务提供商几乎不可能胜任必须提供的所有服务。但是,对云计算有一个基本的了解是很重要的,以便能够浏览文档并了解在需要时这些特性是如何工作的。至少,这可以让你向其他数据工程师提出更好的问题和更具体的需求。
好了。对于正在寻求数据科学团队的公司,我建议寻找能够务实解决问题,有很强的工程能力,能够调整对业务价值的候选人。统计优势可以带来很多价值,但是对于大多数用例来说,它变得不那么重要了,尤其是在早期的团队中。
到目前为止,大多数公司更倾向于雇佣具有强大学术背景的数据科学家,比如数学或物理博士。考虑到该行业近年来的发展,未来是否会有更大比例的软件工程师或技术产品经理转变为数据科学角色,将是一个有趣的问题。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30