京公网安备 11010802034615号
经营许可证编号:京B2-20210330
由高级经理(数据科学)Sharan Kumar Ravindran撰写
一个人不需要有天生的天赋就能成为一名成功的数据科学家。然而,要在数据科学中取得成功,需要一些技能。所有这些关键技能都可以通过适当的培训和练习获得。在这篇文章中,我将分享一些重要的技能,为什么它们对数据科学家来说很重要。此外,如何获得这些技能。
数据科学家应该养成批判性思维的习惯。它有助于更好地理解这个问题。除非把问题理解到最细的层次,否则解决方案不可能是好的。批判性思维有助于分析不同的选择,并有助于选择正确的选择。
在解决数据科学问题时,这并不总是一个好的或坏的决定。很多选择都处于好与坏之间的灰色地带。在一个数据科学项目中涉及到如此多的决策。例如,选择正确的属性集、正确的方法、正确的算法、度量模型性能的正确度量,等等。它需要更多的分析和清晰的思考来选择正确的选项。
培养批判性思维的一个简单方法就是像孩子一样好奇。问尽可能多的问题,直到没有更多的问题。我们问得越多,理解得越多。我们对问题理解得越好,结果就越好。
让我用一个例子来演示批判性思维。让我们考虑以下电信公司的场景。我们要识别忠诚的高净值客户。为了识别这个客户群体,我们必须从一系列问题开始,
这些有助于识别精英客户。它有助于组织确保这些客户体验到最好的服务。
有一些技巧有助于提高批判性思维能力。其中一种技巧是第一性原理思维。它是一个有助于更好地理解问题的心智模型。下面是一个使用第一性原理解决数据科学问题的示例。
如何运用第一性原理思维解决数据科学问题?
心智模型是帮助清晰思考和更好决策的惊人工具。因此,采用心智模型有助于提高你的批判性思维能力。这里有一篇文章强调了在工作中采用心智模型的好处。
5个心智模型,帮助提升您的数据科学职业生涯
编码技能对数据科学家来说就像眼睛对艺术家一样重要。数据科学家要做的任何事情都需要编码技能。从多个来源读取数据,对数据进行探索性分析,构建模型,并对其进行评估。
AutoML解决方案会发生什么?近年来有许多AutoML产品出现。许多人甚至认为很快就不需要任何编码技能了。让我们举一个例子,
不可否认,AutoML解决方案将在未来得到广泛采用。数据科学团队今天解决的许多标准问题将被自动化。这并不意味着数据科学工作的结束,也不意味着数据科学家编写代码的需求的结束。它将使数据科学团队能够专注于新的问题。
今天被捕获的数据量如此之高。今天,许多组织只使用了可用数据的一小部分。有了AutoML,焦点将转移到未被探索的领域。
你是否对数据科学感兴趣,但觉得自己没有编码技能?这里有一篇文章将帮助您学习为数据科学编写代码。
不会编码?以下是学习为数据科学编写代码的最佳方法
数学是数据科学家需要理解的另一项重要技能。在学习数据科学时,你不知道一些数学概念是可以的。如果不了解数学概念,就不可能成为一名出色的数据科学家。
让我举一个简单的例子,说明数学概念在解决问题时是如何有用的。让我们选择客户流失分析。
这还不是全部,没有数学就没有机器学习算法。这并不意味着你需要成为一名数学家才能成为一名成功的数据科学家。它所需要的只是高中数学水平。
如果你有兴趣学习数据科学的数学。这是最适合你的课程。
数据科学数学
一个数据科学家不能孤立地工作。一个数据科学家应该与多人协作以确保项目的成功。即使在今天,许多数据科学项目也失败了。大多数失败的首要原因是团队之间缺乏理解和合作。
解释跨不同团队协作和工作的重要性。让我们考虑一个场景,其中数据科学团队正在与客户增长团队合作。目的是了解客户流失的原因。
你决定和几个不同的团队谈谈,他们是这样说的
增长团队-客户流失主要是由于竞争提供的优惠
营销团队-产品团队发布的新特性可能会导致一些问题,从而导致客户流失
产品团队-营销团队只是专注于吸引大量新客户,而没有建立客户的价值或意图
客户支持小组-许多客户报告了许多与支付有关的问题。这可能是客户流失的原因
如果您没有与其他团队交谈,您将根据增长团队提供的信息开始解决这个问题。你不能仅仅依靠一个团队的投入来解决一个问题。即使增长团队是这里的主要发起人,仅仅依赖他们提供的投入也是不够的。为了获得一个整体的图像,您需要与不同的利益相关者交谈。当你限制与你一起工作的人或团队时,来自这些人的偏见会传递到你正在构建的解决方案中。
此外,在许多情况下,数据科学团队需要与数据工程和其他技术团队密切合作。没有良好的合作努力,就不会有成功。
如果解决方案没有很好地传达给利益相关者,所有这些都是无用的。数据科学中涉及的问题和解决方案通常要复杂得多。在将它们传达给业务之前,简化它们是非常重要的。在交流中使用讲故事的方法很有帮助。
让我举一个例子,更简单地解释良好沟通的重要性。让我们考虑以下场景。数据科学团队正在研究一个预测模型,以预测零售能源客户的能源使用情况。数据科学团队需要说服业务和基础设施团队拥有和运行至少10个不同的模型以获得更好的准确性的重要性。这意味着更高的计算能力的使用和更多的时间来训练模型。
选项a-您使用用于将客户分组到不同组中的聚类技术,因此需要为每个组建立一个模型。
这里的问题是,业务团队还没有被告知为每个组实际使用一个模型的好处。因此,如果成本很高,他们可能不会被说服。
选项B-从客户的配置文件和特征开始。您可以显示客户的能源使用模式。你向业务团队展示了独特的模式,比如一些家庭在周末几乎使用可以忽略不计的电力,可能是因为他们通常倾向于在不同的地方度过周末。同样,你展示了独特的模式,因此你解释了一个模型不能适合所有这些不同的客户,因此至少需要每个10个不同的模型来迎合10个不同的独特类别的客户。
现在,企业明白了拥有这么多不同模型的重要性。他们可以很容易地将增量收益与所需的基础设施成本进行比较,以评估选项。
数据科学团队的工作是向利益相关者清楚地传达这个想法。这不是一项容易的工作,因为大多数人对数据科学的知识有限。只有当企业从中发现价值时,数据科学项目才被认为是成功的。
改善组织中协作的一个好方法是提供一个在团队之间有良好信息流动的环境。
Last but not least is leadership skills. Most organizations have a small data science team and they generally work on different sets of problems. It is very common for a data scientist to get pulled into different meetings and for Adhoc questioning. It is the job of the data scientist to decide when to say yes and when to say No. It is very important to set the priorities right.
此外,数据科学家需要有一个清晰的思考过程,并应该有能力预见结果。很多时候,业务团队会有很大的压力来加速分析。数据科学家的角色是管理期望并产生高质量的结果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16