作为一个在数据科学领域工作了十多年的人,看到人们预言该领域将在10年内如何灭绝是令人沮丧的。给出的典型原因是emergingAutoMLtools将如何消除从业者开发自己算法的需求。
我发现这样的观点特别令人沮丧,因为它阻止了初学者足够认真地对待数据科学,从而在它方面出类拔萃。坦率地说,对于一个需求只会进一步增加的领域,看到这样的预言是对数据科学界的伤害!
为什么任何一个理智的人会投入有限的时间和精力去学习即将灭绝的东西?
给你点东西。如果有一个领域你最有可能真正退休,那就是数据科学。我将给出数据科学不会很快灭绝的四个关键原因。然后我也会给你我的建议,以确保你在10年后保持在数据科学的正确一边。
数据科学不会灭绝,但如果你不跟上它的步伐,你的技能可能会灭绝。我们潜水吧。
让我们从科学开始。我不必让你相信科学已经存在了几个世纪。科学的本质是从数据中学习。我们观察世界上的事物(收集数据),然后我们创建一个模型(传统上称为理论),可以总结和解释这些观察。我们创建这些模型来帮助我们解决问题。
数据科学的本质也正是如此。收集数据,通过创建模型从中学习,然后使用那些模型解决问题。多年来,不同的学科已经开发和完善了几个工具来实现这一点。根据该领域的重点,使用不同的名称来描述这组工具和过程。术语是Data Science。
然而,以前的时代与现在的不同之处在于数据量和我们可用的计算能力。当我们只有几个数据点和几个维度时,手工将它们放在纸上并拟合一条直线(回归)或识别模式是可能的。现在,我们可以廉价地从多个来源(多个特性)收集大量数据。当你有大量的数据点和维度时,拟合一条直线(或集群)是不可能的,也是不可行的。
如果收集数据并开发模型来解释它的做法已经存在了几个世纪,为什么你认为它会在未来10年内灭绝?
如果有什么不同的话,我们将收集更多种类的数据,我们将需要创造性地将它们结合起来解决问题的新方法。
在“自动机器学习”的保护伞下的几种工具正在获得吸引力,其中一些可能会导致数据科学的民主化。但是,大多数这样的工具将有助于加快对cleaned数据输入的不同算法的测试和实现。
但是向模型中获取干净数据的能力一点也不简单。
事实上,一些与数据科学相关的调查已经指出,任何数据科学家在收集和清理数据上花费的时间都是不成比例的。例如,Anaconda的年度调查(数据科学家使用的领先分布之一)指出,数据科学家将66%的时间用于数据加载、清理和可视化,只有23%的时间用于模型训练、选择和评分。我在这个领域工作了十多年的个人经历也是类似的。
学习算法如何在底层工作并理解它们的细微差别一点也不简单,许多在线课程花时间解释这些都是正确的。然而,这种对算法的关注只会造成一种错误的错觉,好像数据科学就是关于模型的。许多有经验的实践者开始看到以数据清理为代价对模型的过度强调。Andrew Ng(该领域的领先专家)一直鼓励数据科学界转向以数据为中心的方法,而不是我们大多数人目前在数据科学项目中采用的以模型为中心的方法。在他的《收入通讯》中,他说:
这是一个常见的笑话,80%的机器学习实际上是数据清理,好像这是一个较小的任务。我的观点是,如果我们80%的工作是数据准备,那么确保数据质量就是机器学习团队的重要工作。
像Kaggle这样的网站进一步加剧了这种情况,在这些网站上,参与者可以获得干净的数据,任务仅限于开发不同的模型,目的是最大化预先确定的性能指标。(Kaggle真棒!)
一个真实的项目处理几个问题,而这些问题并不是从仔细清理的数据或定义的问题开始的。在大多数项目中,我们先验地不一定知道哪些特性是相关的,收集数据的频率如何,以及需要回答的正确问题是什么。欢迎来到现实世界!
新的自动化工具的出现将继续使不同模型的实现变得容易和可访问。然而,它无法对现实世界项目中更具挑战性的问题进行分类。许多这样的问题依赖于上下文,自动化的时机还不成熟。
也许是受到关于数据科学的炒作的驱使,我遇到过这样的情况,人们接近我,告诉我他们有数据,并希望我应用“数据科学”来解决他们的问题(这可能也不一定是明确定义的)。我敢打赌,许多不是数据科学家的人认为它是某种魔力(一个可以在一边输入数据,另一端获得输出的工具)。
恰恰相反,真正的项目有需要平衡的权衡。这需要一种迭代方法,首先部署初始模型,然后在收集更多数据以进一步改进时监视性能。
任何部署的模型只有在按预期使用时才有用。这是不能保证的。需要有一个熟练的人员元素,可以继续监视和诊断已部署模型的使用,并提出适当的解决方案来改进它。然而,监测部分不一定要自动化,甚至不一定要定量。可能会发生你无法预料的非常意外和奇怪的事情。
不久前,伦敦大都会警察局测试了一个实时面部识别系统。该系统有摄像头,可以扫描购物中心和公共广场上的人,提取各种面部特征,然后将这些特征与观察名单中的嫌疑人进行比较。然后,该系统将显示任何匹配,供官员审查并决定是否需要阻止任何嫌疑人(在某些情况下,逮捕)。关于该系统运作的一项独立声明提出了重大关切,并强调了几个限制。在经过6次审判确定的42名嫌疑人中,只有8名(仅19%)证明是正确的匹配。
有许多数据科学算法被歪曲的例子,使它们不够充分,需要进一步发展。就目前的情况来看,我们甚至还没有处于模型被广泛部署和使用的阶段。因此,我们甚至没有足够的模型漂移或出错的用例来进一步自动化此类工具。到目前为止,我们所拥有的最好的方法是在模型部署时识别问题(例如,银行、医疗保健、警务)。
这是最先进的。我们开发和部署模型,但结果证明它们是不够的,不适合目的。我们正处在一个阶段,我们只看到使用不合适的模型的早期后果。有没有自动化的解决方案来处理这个问题?一个都没有!
即使是手动,我们也在受到挑战!
这是我最喜欢的一点。一段时间以来,平凡的、重复的、非认知要求的任务一直处于自动化的风险之中。然而,这种干扰只会导致更多需要人类创造力和解决问题的工作。我们的记忆很糟糕,但我们,人类,在识别模式以解决问题时,却异常出色。
“你的头脑是用来有想法的,而不是拿着它们。”大卫·艾伦
数据科学是科学是有原因的。而是解决问题。我们面临的问题,需要创造性的、巧妙的解决方案。我们正是在这一点上大放异彩,这是一种非常令人向往的技能。数据科学的用例只会增加。这仅仅是因为我们正在收集更多的数据,我们有更多的计算能力在小芯片上实现复杂的数学运算。
让我向您展示实现当今最著名的机器学习算法是多么的微不足道。
假设您已经仔细清理了输入变量(x)和输出变量(y),准备进入模型。使用ingscikit-learn(Python中一个著名的开源机器学习库),我们可以用以下两行代码实现决策树:
from sklearn import tree tree.DecisionTreeClassifier.fit(X,Y)
我们可以用以下两行代码实现支持向量机:
from sklearn import svm svm.SVC.fit(X,y)
你看到图案了吗?我们所需要做的就是改变函数名,然后你就有了模型。真正的数据科学家不会坐着从头开始重新实现这些算法。他们最终将使用行业中成熟的库,如Scikit-learn。
但你真的认为大多数数据科学家都在这样做,并因这项技能而被雇佣吗?改变模型中的一个单词,然后运行,然后报告结果?不!
然而,作为一名数据科学家,如果这是你关注的全部,那么对这种技能的需求很快就会消失。
实现一个模型是大多数人可以做的事情,如果他们知道工具,而且很容易让人接受培训。硬的部分是:
上面提到的技能是通过在现实世界中工作而获得的,具有挑战性的项目。它们需要时间,学习过程需要认知能力。然而,随着我们收集更多的数据,面对独特的行业挑战,面临更多的竞争(而不是更少!),这些技能将变得越来越重要。
我上面列出的技能属于解决问题和创造力的永恒领域。这些技能将继续备受追捧,因为它们不能自动化。
无论如何,你应该有一个你学习的工具,变得熟练,并理解来龙去脉,因为你得到了更多的经验。但是,要确保你能利用那些让你在挑战性项目中工作的机会,在这些项目中你可以锻炼你的创造性和解决问题的技能。
不要担心数据科学很快就会灭绝。这样的担心只会分散你享受旅程的注意力,你会带着半心半意的信念接近这个领域。如果你相信这样的末日预言,你将无法利用有希望的机会,让你的技能停滞不前。事实上,你的需求将会消失!
“无论你认为你能,还是你认为你不能,你都是对的。”亨利·福特
但是,如果您继续从事具有挑战性的数据科学项目(从数据收集到模型部署),10年后您将处于该领域的正确一边,您的需求只会增加!
选择权在你。对此,作者提出了建议
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30