发现假数据科学家的20个问题
现在,数据科学家是21世纪最性感的职业,每个人都希望分一块蛋糕。
这表示会有一些装腔作势的数据人士。这些人称自己为数据科学家,但他们并不掌握对应的技能。
这个问题的出现不一定是因为欺骗的目的。数据科学是全新的,且缺乏具有广泛共识的职位描述,意味着很多人只因为处理数据就认为自己是数据科学家。
“假的数据科学家往往是某个特定学科的专家,并且坚持他们的学科是唯一真正的数据科学。这种信念没有抓住数据科学的要点,数据科学涉及到应用全部科学工具和技术(数学、计算机、可视化、分析、统计、实验、问题定义、模型构建和验证等等)以得到来自数据的发现、洞察和价值。”
——Kirk Borne,Booz Allen Hamilton的首席数据科学家和RocketDataScience.org的创始人
第一种发现假数据科学家的方法是了解你应该寻找的技能。知道数据科学家、数据分析师和数据工程师之间的不同之处很重要,尤其是如果你打算雇佣这些不常见的人时。
为了帮助对数据科学家由真到假(或者被误导的)排序,我们提出了一个20道题的列表,你可以在面试数据科学家时问问他们。
解释什么是正则化,以及它为什么有用。
你最欣赏哪些数据科学家?哪些相关的创业公司?
如何验证一个用多元回归生成的对定量结果变量的预测模型。
解释准确率和召回率。它们和ROC曲线有什么关系?
如何证明你对一个算法的改进确实比什么都不做更好?
什么是根本原因分析?
你是否熟悉价格优化、价格弹性、库存管理、竞争情报?举例说明。
什么是统计检定力?
解释什么是重抽样方法和它们为什么有用。并说明它们的局限。
有太多假阳性或太多假阴性哪个相比之下更好?说明原因。
什么是选择偏倚,为什么它很重要以及如何避免它。
举例说明如何使用实验设计回答有关用户行为的问题。
“长”数据和“宽”数据有什么不同之处?
你用什么方法确定一篇文章(比如报纸上的)中公布的统计数字是错误的或者是为了支持作者观点,而不是关于某主题正确全面的事实信息?
解释Edward Tufte“图表垃圾”的概念。
你会如何筛查异常值?如果发现它会怎样处理?
如何使用极值理论、蒙特卡洛模拟或其他数学统计(或别的什么)正确估计非常罕见事件的可能性?
推荐引擎是什么?它如何工作?
解释什么是假阳性和假阴性。为什么区分它们非常重要?
你使用什么工具进行可视化?你对Tableau/R/SAS(用来作图)有何看法?如何有效地在一幅图表(或一个视频)中表示五个维度?
“一名‘真正的’数据科学家了解如何应用数学和统计,如何使用合理的实验设计构建和验证模型。掌握IT技能但没有统计技能只会让你成为一个造手术刀的外科医生那样的数据科学家”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26