作者 | SHAROON SAXENA
编译 | CDA数据分析师
Everything you Should Know about p-value from Scratch for Data Science
介绍
当你向有抱负的数据科学家谈论p值时,以下情况看起来是否很熟悉?
我无法告诉你数据科学家(甚至是成熟的科学家)在涉及到如何解释p值时是多么的手足无措。实际上,可以花点时间回答以下问题:
这些问题应该是每个数据科学专业人员都应该能够回答的关键问题。以我的经验,大多数人都在努力克服第一个问题。如果我们不能为客户分解机器学习模型的结果,我们就不能说服他们。
维基百科(Wikipedia)对p值的定义让那些统计和数据科学领域的任何新手都感到望而生畏。关于p值的典型对话是这样的:
而且你只知道一些公式和约定,却没有如何系统的解释什么是P值的想法。那么,我们如何一劳永逸地学习p值,并将其根深蒂固地牢记在心?
我们应该如何从头开始理解P值
在本文中,我们将从头开始逐步建立p值的认知,并且还要揭穿p值的传统(错误)解释。我们将介绍以下内容:
什么是p值?
让我们从绝对的基础开始。什么是p值?为了理解这个问题,我们将来看一下正态分布:
我们在x轴上具有值的范围,在y轴上具有不同值的出现频率。
现在,假设我们从此分布中选取一个随机值。我们选择接近均值的值的可能性是最高的,因为它具有最高的峰值(由于该区域中的出现值较高)。我们可以清楚地看到,如果我们远离峰值,则值的出现会迅速减少,相应的概率也会减少,趋近于一个非常小的接近0的值。
但是本文是关于p值的-那么为什么我们要看正态分布呢?好吧,考虑到我们上面讨论的正态分布,请考虑如何定义P值。
P值是上图中红点右侧值的累计概率(曲线下的面积)。
要么是,
当从分布中随机选择值时,与红点相对应的p值告诉我们将任何值带到红点右侧的“总概率”。
现在,这看起来可能像是一个非常幼稚的定义,但是我们将在此基础上继续。
P值本身不包含任何值。较大的p值表示样本得分与总体得分更加一致或相似。它就是如此简单。
现在,你可能已经遇到了将p值与alpha值进行比较以得出结论的经验法则。因此,让我们研究一下alpha值。
P值的统计意义:输入– Alpha值
到目前为止,我已经提到过几次alpha值,alpha值也被称为显著性水平。由于某些未知原因,我们知道该值为0.05或5%。
在统计课上我们也被老师教导过,也就是p值小于alpha意味着所获得的结果具有统计学意义。但是alpha值到底是多少呢?
因此,让我们花点时间看一下alpha值的含义。
alpha值只是一个阈值,P值在进行实验后进行的相似性或显著性(Z-测试或T-测试)中的测试前决定该阈值。
这意味着,如果得到样本得分的概率小于或阈值p-值,我们认为它与总体显著不同,甚至属于新的样本分布。
再次考虑一下上述的正态分布。此分布中的红点表示alpha值或阈值p值。现在,让我们说绿色和橙色点代表实验后获得的不同样本结果。
在图中可以看到,最左边的绿点的p值大于alpha。因此, 这些值可以得到相当高的概率和样本结果被认为是幸运的。
最右边的点(橙色)的p值小于alpha值(红色)。因此,样本结果是一个罕见的结果,不太可能是幸运的。因此,他们与分布有很大的不同。 。
alpha值取决于正在执行的测试。如果我们不确定应该考虑什么值,那么将alpha值设为0.05被认为是一个不错的约定。
但这带有一个星号- 我们考虑的alpha值越小,则将结果视为有意义的难度就越大。请记住,每个实验的alpha值会有所不同,并且没有任何一个alpha值可以视为经验法则。
让我们仔细看一下alpha值和p值之间的关系。
p值<alpha值
考虑以下分布:
在此,红点表示Alpha值。这基本上是阈值p值。我们可以清楚地看到,阈值右侧曲线下方的区域非常小。
橙色点代表使用样本总体的p值。在这种情况下,我们可以清楚地看到p值小于alpha值(红点右侧的面积大于橙点右侧的面积)。这可以解释为:
从样本获得的结果是分布的一个极端(这是一个非常罕见的事件),因此很有可能它可能属于另外一个分布(如下所示)。
考虑到我们对alpha和p值的定义,我们认为得到的样本结果是显著不同的。我们可以清楚地看到p值远远小于alpha值。
p值> alpha值
我觉得你应该在进一步阅读之前回答这个问题。既然你已经知道了硬币的另一面,你就可以想象这种情况的结果了。
p值大于alpha意味着结果支持原假设,因此我们无法拒绝它。此结果通常与备用假设相反(获得的结果来自其他分布),并且获得的结果并不显著,只是一个偶然或者运气的问题。
再次,考虑相同的总体分布曲线,红色点为alpha,橙色点为样本中计算出的p值:
因此,p值> alpha(考虑曲线下方红色和橙色点右侧的区域)可以解释如下:
样本结果只是总体分布的一个低概率事件,很可能是靠运气得到的
我们可以清楚地看到,人口曲线下方橙色点右侧的面积远大于alpha值。这意味着所获得的结果更可能是同一总体分布的一部分,而不是其他分布的一部分。
现在我们已经理解了p值和alpha值的解释,让我们来看一个来自统计世界的经典例子。
统计中p值的例子
在国家射箭队中,总教练打算在即将到来的比赛之前改善射箭运动员的表现。你认为提高弓箭手性能的好方法是什么?
他提出并实施了在比赛前进行呼吸运动和冥想可能会有所帮助的想法。实验前后的统计数据如下:
真有趣。结果支持了弓箭手总体得分提高的假设。但是教练希望确保这些结果是由于弓箭手能力的提高而不是因为运气或偶然性。那么你认为我们应该怎么做?
这是一个典型的相似度测试(本例中为z检验),我们想要检查样本是否与总体相似。我不会深入讨论相似性测试,因为这超出了本文的范围。
为了解决这个问题,我们将循序渐进的方法:
这个问题的解决方案
步骤1:了解给定的信息
我们的总体均值和标准差样本容量超过30,这意味着我们将使用z检验。
根据上面的问题,可能存在两种情况:
步骤2:计算Z分数
现在,我们将使用以上公式计算Z分数。你问这些符号代表什么?好吧,告诉你是什么意思:
插入相应的值后,Z分数为– 3.87。
步骤3:参考Z表并找到p值:
如果我们在Z表中查找3.87,则会得到的值是〜0.999。这是曲线下的面积或总体分布下的概率。但这是什么概率?
我们得到的概率是在我们计算的z分数(红点)的左边。该值0.999表示相对于总体,得到“小于样本得分78”的结果的“总概率”。
这里,红点表示样本均值相对于总体分布的位置。但是我们之前学过p值在红点的右边,我们该怎么做?
对于这个,我们会用到正态Z分布下的总面积是1。因此,z分数右侧的面积(或未阴影区域所代表的p值)可以计算为:
p值= 1 – 0.999
p值= 0.001
0.001 (p值)是红点右侧的未阴影区域。值0.001表示得到“大于样本得分78”的结果的“总概率”,相对于总体。
步骤4:比较p值和alpha值
我们没有为alpha提供任何值,因此我们可以考虑alpha = 0.05。根据我们的理解,如果获得样本(p值)结果的可能性小于alpha值,则我们认为获得的样本结果有显著差异。
我们可以清楚地看到,p值远远小于alpha值:
0.001(红色区域)<< 0.5(橙色区域)
这表明,就总体分布而言,得到平均值为78的概率很低。因此,可以方便地说,射箭运动员在样本群体中成绩的提高不是运气的结果。样本总体属于其自身的某种其它(在本例中更好)分布。
数据科学中p值的例子
现在,我相信这是你一直在等待的部分。在统计中使用p值是可以理解的,我们甚至多次听说过它。但是p值处于数据科学的那个领域中呢?
即使许多有抱负的数据科学家了解p值的含义,他们也不知道如何在数据科学中使用此知识。结果就是他们错过了一个非常强大的方法来改进他们的模型。
P值是特征选择过程中的重要指标。在特征选择中,我们尝试找出自变量的最佳子集来构建模型。
现在你可能会问:“为什么不把所有的自变量都带入呢?”
实际上,引入冗余且没有贡献的变量会增加模型的复杂性。此外,它们可以降低模型在准确性、运行时甚至内存占用方面的性能。
让我们看一个例子。假设我有一个包含不同初创公司信息的数据集。我们有以下变量:
我们的目标是根据其他自变量来预测初创公司的利润。现在,你的直觉可能会说–使用所有可用的自变量来构建一个线性回归模型。
经过预处理和OneHot编码之后,因变量具有以下映射:
接下来,我们将使用statsmodels 库构建一个OLS(普通最小二乘)模型。这是我们得到的:
这个表显示了所有关于独立变量的统计数据。但是现在,我们只对包含p值的列感兴趣。我们可以清楚地看到,“R&D Spend”、“Administration”和“State_California”的p值超过0.50!
但是问题是,这个p值在回归模型中意味着什么?为此,让我们了解计算这些p值的假设是什么:
现在,以上结果表明,“R&D Spend”、“Administration”和“State_California”对初创公司获得的“利润”没有重大影响。因此,让我们从模型中删除这三个变量
除去这两个变量后的结果映射为:
在再次使用statsmodels库构建OLS模型时,我们得到的是:
我们可以看到,现在只有一个变量剩余值为0.05 –“ State_Florida”。那么我们应该删除它吗?
首先,我们从未决定任何alpha值。如果我们将alpha值设为0.05,则变量“ State_Florida”将被消除。如果我将alpha设置为0.10,则该变量将在过滤过程中幸存下来。
在这种情况下,考虑到0.05不是要为alpha值选择的经验法则,我会保留下来。
在这个模型总结中最重要的一点是,尽管我们减少了两个独立变量,但调整后的R-Square值却上升了。
正如我们前面讨论的这是双重效果。借助p值,我们不仅创建了一个变量较少的简单模型,而且还改善了模型的性能。
在总结本文之前,让我们看一下许多数据科学专业人员和统计学家对p值的误解。
对p值的一些传统(错误)解释
我见过很多人对P值有很多的误解。以下是一些最常见的错误:
当然还有更多的错误!但请记住这些,下次你在工作中遇到p值时,你会做得很好。
结论
在本文中,我们通过一步一步地引入一个参数来彻底地理解p值。假定值可以非常有趣的新统计或数据科学家,但我们理解它上面的例子在数据科学统计和一个例子,我相信现在我们可以向任何人解释自信地假定值,而无需依赖于复杂的定义或约定一成不变的只是因为没有人给我们解释。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06在备考 CDA 考试的漫漫征途上,拥有一套契合考试大纲的优质模拟题库,其重要性不言而喻。它恰似黑夜里熠熠生辉的启明星,为每一 ...
2025-03-05“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关 ...
2025-03-04以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-04在现代商业环境中,数据分析师的角色愈发重要。数据分析师通过解读数据,帮助企业做出更明智的决策。因此,考取数据分析师证书成为了许多人提升职业竞争力的选择。本文将详细介绍考取数据分析师证书的过程,包括了解证书种类和 ...
2025-03-03在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2025-03-03数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-03-032025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-03-03大数据分析师培训旨在培养学员掌握大数据分析的基础知识、技术及应用能力,以适应企业对数据分析人才的需求。根据不同的培训需求 ...
2025-03-03小伙伴们,最近被《哪吒2》刷屏了吧!这部电影不仅在国内掀起观影热潮,还在全球范围内引发了关注,成为中国电影崛起的又一里程 ...
2025-03-03以下的文章内容来源于张彦存老师的专栏,如果您想阅读专栏《Python 数据可视化 18 讲(PyEcharts、Matplotlib、Seaborn)》,点 ...
2025-02-28最近,国产AI模型DeepSeek爆火,其创始人梁文峰走进大众视野。《黑神话:悟空》制作人冯骥盛赞DeepSeek为“国运级别的科技成果” ...
2025-02-271.统计学简介 听说你已经被统计学劝退,被Python唬住……先别着急划走,看完这篇再说! 先说结论,大多数情况下的学不会都不是知 ...
2025-02-27“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩稳定, ...
2025-02-26在数据分析工作中,你可能经常遇到这样的问题: 从浏览到消费的转化率一直很低,那到底该优化哪里呢? 如果你要投放广告该怎么 ...
2025-02-25近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的,尤 ...
2025-02-25挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-25在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-25以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-25