京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者李·贝克,Chi-Squared Innovations的联合创始人兼首席执行官。
这些年来,我经常被初学者问到,他们应该从哪里开始统计,他们应该首先做什么,他们应该优先考虑统计的哪些部分,以使他们达到他们想要的地方(这通常是一个高薪的工作)。
现在,由于我几乎完全是自学成才,我并不真的认为自己是一个人应该从哪里开始的权威,我很难用任何坚定的信念来回答这个问题。
当然,我对这个问题有一些想法,但这些想法是由我自己的经历决定的。
所以我想我应该联系一下我们的一些统计学朋友,看看他们能给派对带来什么。
这篇文章中的每个统计人员都被问到了同样的问题:
答案令人震惊--结果是如何从零开始成为一名现代统计学家的路线图。
简而言之,如何成为一名未来的统计学家而不需要任何一节课!
统计上存在分歧。一方面,你有那些在统计理论方面受过正规教育的人,另一方面,那些在实践中学习的人。如果你像我一样,你会是一个完全自学成才的统计学家,他渴望地看着另一边甜美的绿草,希望我得到了适当的教育,这样我就不会犯那么多愚蠢的错误。
但其他统计学家对此怎么看?
杰奎琳·诺里斯和我有相同的道路,但她和我的感觉不一样。Jacqueline(@skyetetra)是一名数据科学顾问,也是《在数据科学中建立职业生涯》一书的作者之一,她告诉我,她从未接受过正规的统计学教育,而是学会了工作中需要的一切:
“如果我必须重新开始,我会做和第一次一样的事情!我的背景是应用数学,所以我只在学术界上了一门统计学课程。统计方面的在职教育对我很有帮助,我认识的那些有更严格统计背景的人似乎没有用到他们学到的很多东西。任何时候,我需要一些像不寻常的统计方法,我都可以自己阅读和学习它。作为一名数据科学家,你需要对数据进行更广泛的理性思考,这种思考可能来自许多领域,而不仅仅是统计学。对我来说,这是数学,但我见过许多人从许多背景中获得它。“
我对我从有限的统计教育中获得的职业生涯非常满意--如果我重新开始,我会害怕踩到统计蝴蝶,害怕改变时间表,以至于我最终成为一名用户体验设计师什么的。“
另一方面,你有数据移动我(@datamovesher)的克里斯汀·凯尔,他受过正规的统计学教育。她告诉我:
“我在本科阶段学习的大部分概率和统计都是理论上的。如果我必须重新开始,我会在本科阶段学习更实用的统计课程。但即使我从头开始学习,我也不会改变我在这个主题上攻读正式学位的决定。”
有趣的是,Chatroulette(@lisachwinter)的高级产品研究员丽莎-克里斯蒂娜·温特(Lisa-Christina Winter)给我的建议恰恰相反:
“我会从统计理论开始--通过理解基本概念和它们的重要性。为了把它放在一个易于理解的框架中,我会在简单的实验设计的背景下研究理论。”
那么为什么统计学的理论基础对你来说很重要呢?
“虽然我在第一次学习统计学的时候并不欣赏,但我现在看到了通过使用公式书和分布表手工解决统计问题有多重要。现在和某人一起工作时,很快就会非常清楚,更深入的统计理解是超级重要的。”
怎么会呢?
“在忙于应用统计数据之前,先浏览大量理论统计数据,这让我远离了大量错误,而这些错误是我通过简单地编写语法永远不会意识到的。”
为商科学生创建数据科学课程的马特·丹乔(@mdancho84)有一些关于学习统计的建议可以分享,他告诉我:
“我会做尽可能多的项目--构建产品是你学习的方式。当你遇到错误时,排除故障,创建,学习。这是一种可以直接转移到你的业务中的技能。”
他还告诉所有那些告诉我们如何学会多任务处理的人(我相信你们都知道一位大学讲师告诉你们要学会这一点):
“我会专注于一个学习目标--这很容易分心。这会让你花费数年时间。相反,专注于一个项目或一个学习目标。不是你听到的每一项新技术。这会扼杀你的生产力。专注对学习至关重要。”
OpenIntro团队(@Minebocek)的米恩·切廷卡亚-伦德尔也建议遵循应用的统计路线:
“我从传统的统计学入门课程开始学习统计学,让我们记住一些公式,但并不真正接触数据。在第一堂课之后,我花了一段时间才把这些东西放在一起,理解(并爱上!)整个数据分析周期。”
那么如果她不得不重新开始统计数据,她会怎么做?
“如果我重新开始,我很乐意在可以处理数据的地方开始学习统计学,进行实际数据分析(用R!),并专注于如何提出正确的问题,以及如何开始在真实、复杂的数据集中寻找这些问题的答案。”
Garrett Grolemund在他给统计学新手的建议的第三部分的第二部分(看,我告诉过你我们会再收到他的信,不是吗?)说如果他有机会重新开始统计:
“我会认真思考随机性到底是什么。统计学是这些东西的应用版本,但我们太快就直接跳到数学/计算上了。”
所以我们有了。十分之九cats统计学家更喜欢应用统计学!因此,下次当你为自己没有理论背景而分析数据而感到遗憾时,请记住,你正在遵循许多受过正式培训的统计学家如果有时间的话会走的道路。如果对他们来说足够好,你知道剩下的...
在统计学中有一个分裂,那就是频率论者和贝叶斯论者之间的分裂。
让我们看看统计学家对这场辩论有什么看法。
我们从柯克·伯恩(@kirkdborne),天体物理学家和火箭科学家(嗯,火箭数据科学家)开始。令人惊讶的是,他告诉我他对当宇航员从来没有任何兴趣!
“我不是统计学家,也没有上过一门统计学课程,尽管我在大学里教过。这怎么可能?”
有趣的是,这对我来说也是一样的!他从哪里得到所有的数据?
“我在本科物理中学到了基本的统计学,然后在研究生院及以后,我作为天体物理学家做了多年的数据分析,学到了更多。大约22年前,当我开始探索数据挖掘、统计学习和机器学习时,我学到了更多的统计学。从那以后,我就没有停止学习统计学。”
这听起来有点像我的统计教育。你所需要做的就是从天体物理学中去掉“Astro”,它们是完全相同的!那么他对重新开始统计数据有什么看法?
“我会从贝叶斯推理开始,而不是把早年的所有时间都投入到简单的描述性数据分析中。这会让我更早地学习统计学习和机器学习。我会更早地学会探索和利用贝叶斯网络的奇迹和力量。”
这也是作者、纳什维尔范德比尔特大学医学院生物统计学教授弗兰克·哈勒尔(Frank Harrell)对按下统计重置按钮(@f2harrell)的看法。他告诉我:
当我问Data-Mania的首席执行官莉莲·皮尔森(Lillian Pierson)从哪里开始时,她也提到了贝叶斯统计学:
“如果我必须重新开始统计,我会从3个基础开始:t检验、贝叶斯概率和皮尔森相关性。”
就我个人而言,我没有做过很多贝叶斯统计,这是我在统计方面最大的遗憾之一。我可以看到用贝叶斯方法做事的潜力,但因为我从来没有老师或导师,我从来没有真正找到一种方法。
也许有一天我会--但在那之前,我会继续传递来自这里统计学家的信息。
跟我重复:
学习贝叶斯统计。
学习贝叶斯统计。
学习贝叶斯统计!
谷歌决策情报主管凯西·科济尔科夫(Cassie Kozyrkov)也给了我一个非常有趣的观点,她告诉我她:
“大概喜欢用打印的统计表生篝火吧!”
嗯,阿门,但说真的,你会从哪里开始统计数据?
“模拟!如果我必须从头开始,我想从基于模拟的统计方法开始。”
好吧,我同意你的观点,但为什么特别是模拟呢?
“在大多数STAT101课程中教授的‘传统’方法是在计算机出现之前发展起来的,不必要地依赖于限制性假设,这些假设将统计问题塞进你可以用常见的分布和那些讨厌的过时印刷表格分析解决的格式。”
我抓到你了。那么你对打印的表格到底有什么不同呢?
“嗯,我经常想知道传统课程是否弊大于利,因为我不断看到它们的幸存者犯‘第三类错误'--正确回答错误的方便问题。有了模拟,你可以回到第一原理,发现统计学的真正魔力。”
统计有魔力?
“当然可以!我最喜欢的部分是,通过模拟学习统计学迫使你面对你的假设所扮演的角色。毕竟,在统计学中,你的假设至少和你的数据一样重要,如果不是更重要的话。”
当谈到他的建议时,KDnuggets(@KDnuggets)的创始人格雷戈里·皮亚特斯基建议:
“我会从利奥·布雷曼关于两种文化的论文开始,另外我会研究贝叶斯推理。”
如果你还没有读过那篇论文(这篇论文是开放存取的),Leo Breiman为算法建模做了铺垫,在算法建模中,统计数据被模拟成一个黑箱模型,而不是遵循一个规定的统计模型。
这就是凯西得到的--统计模型很少适合现实世界的数据,我们要么试图将数据复制到模型中(对错误的问题得到正确的答案),要么切换它,做一些完全不同的事情--模拟!
这是我的原始帖子的摘录,它相当长--太长了,不能完整地在这里发布(有30多个世界级的贡献者!)。
如果你喜欢阅读,你可能会有兴趣听听Dez Blanchfield对领域专家的看法,或者Michael Friendly和Alberto Cairo对数据可视化的过去、现在和未来的看法。
还有一本免费下载的书详细介绍了贡献者的所有评论,包括Natalie Dean和Jen Stirrup对信息流和侦探工作的看法。
不要让我从Charles Wheelan和Chelsea Parlett-Pelleriti关于交流的史诗般的建议开始,或者Apache Crunch项目创始人Josh Wills关于统计食谱、微积分和模拟统计之间的比较。
太棒了--你真的不想错过他们!
请过来阅读原始帖子。
简历:李·贝克里斯是一位获奖的软件创建者,他住在黑暗的房间里的键盘后面。只有监视器发出的光照亮他,他渴望找到电灯开关。他在科学、统计和人工智能方面有几十年的经验,他热爱用数据讲故事,然而尽管解释了十几次,他的母亲仍然不明白他是做什么的。他坚持认为数据分析比我们想象的简单得多,他创作了友好、易懂的书籍和视频课程,教授数据分析和统计的基础知识。作为卡方创新公司的首席执行官,有一天他想退休去做一些更简单的事情,比如鳄鱼摔跤。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13当流量红利消退、用户需求日趋多元,“凭经验决策、广撒网投放”的传统营销模式早已难以为继。大数据的崛起,为企业营销提供了全 ...
2026-05-13 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-05-13在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-05-12用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08