
成为一位卓越数据科学家必须要具备四大特征
对于那些希望在大数据时代掘金的公司来说,成功的关键是找到数据科学家, 并围绕数据科学家搭建团队。如今优秀的数据科学家一将难求, 而卓越的数据科学家更是灿若晨星。 如何才能发现真正改变企业乃至行业未来的伟大的数据科学家呢?
Thomas Redman在哈佛商业评论博客中发表了一篇关于区分好的数据科学家和伟大的数据科学家的文章。
好的数据科学家能够帮助你从浩如烟海的数据中发现你无法发现的规律, 而伟大的数据科学家可以发现一个更大的世界, 他们采用数据, 但不完全依赖于数据。
在过去的几年里, 我有幸能够和上百个好的统计学家, 分析师和数据科学家合作。 其中有一些可以称之为“伟大”。 我发现, 这些伟大的数据科学家们都具备四大特征, 是那些好数据科学家所不具备的。
好奇心
最近有很多人都在提到好奇心是数据科学家的必要素质。 这没错, 和任何领域的科学家一样, 数据科学家也需要具备基本的好奇心。
而伟大的数据科学家将好奇心发展到极致。 他们热衷于研究这个世界, 他们会为了发现事物的规律和原因而兴奋不已。他们从数据中去发现事物的规律和原因。 面对数据 他们会从数据的不同角度来进行研究, 进而去发现别人所看不到的规律。
一定的数学水平
伟大的数据科学家能够发现别人看不到的东西。 举个例子来说, 我以前在一个投行碰到过一个实习生。 他现在已经是一个大的媒体集团的首席数据科学家。 在他第二天上班的时候, 老板给了他一叠报告。 他简单扫了一眼报告, 发现了一个关于回报率的计算错误。 他有花了一个小时验证了这个错误并算出正确答案。
重要的是, 几百人都看过这份报告, 而这是一个顶级的投资银行, 肯定有一些相当好的分析师也看过这个报告, 而只有他看出了这个错误。
在描述现实世界的时候, 数学是一种非常有效的语言(爱因斯坦说是“难以置信的有效)。 伟大的数据科学家对这种语言具备一种天生的感觉, 这些甚至是一些好的数据科学家所做不到的。
坚持
伟大的数据科学家在很多方面都能表现出坚持的特点。 前面说的实习生, 看了一眼发现了错误, 花了一个钟头就验证出来了。 实际上数据分析很少能这么快。 就像BT的CIO Jeff Hooper在贝尔实验室时有句名言:“数据不会轻易地把秘密告诉你, 你需要把秘密从中榨出来。”
这说的一点没错。 即便在最好的情况下, 数据也常常是不完整甚至存在错误的。 而大部分数据最后都和你要解决的问题无关。 盯着这些“噪音”数据工作是一项单调无趣的工作。 好的数据科学家可能会转而研究别的问题, 而伟大的数据科学家会坚持继续研究。
数据科学家的另外一个坚持就是他们会坚持表述自己的发现。 这一点, 在大的企业中, 甚至可能比“噪音”数据更加会令人沮丧。 还是拿前面那个实习生的例子。 他工作第二天就发现了这个错误, 而他需要整个实习期都要来“捍卫”他这个发现。 出了错误的部门肯定会死不承认, 而别的部门就想看笑话。 数据科学家夹在其中, 需要足够的坚持才能把正确的观点传达出来。
技术能力
掌握最新的数据分析方法很重要, 更重要的是, 要有具备对统计学的知识和热情。 简单的说, 数据分析包括两类:描述型分析和预测型分析。 描述性分析已经很难了。 而预测型分析则更加棘手, 它充满了不确定性。
伟大的数据科学家能够驾驭不确定性。 他们知道预测的哪些部分是基于真实的观察, 哪些因素是基于假设的。 他们知道要使预测有效, 哪些条件必须满足。 哪些因素会导致预测失效, 哪些未知因素可能会导致预测错误等等。 他们会量化风险。 他们会设计一些小型实验来验证或者推翻某些假设。
总之, 这不是一种“数学技能”, 而是长期在复杂的工作中,经过了无数成功和失败后培养出来的一种能力。
伟大的数据科学家非常稀少, 他们就是数据科学界的迈克尔-乔丹, 朱莉娅-罗伯茨, 或者帕瓦罗蒂。 如果企业需要认真地把宝压在从大数据和数据分析上, 那么你需要找到一个到两个这样的人, 给他们配备团队, 营造好的环境, 让他们按照自己的方式去工作。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10