在我以前的文章初学者数据科学统计指南和推断统计数据科学家应该知道中,我们讨论了几乎所有的统计基本知识(描述性和推断性),它们通常用于理解和处理任何数据科学案例研究。在这篇文章中,让我们稍微超越一下,讨论一些不在讨论范围内的高级概念。
在了解QQ剧情之前,先了解什么是分位数?
分位数定义了数据集的特定部分,即分位数决定了一个分布中有多少值高于或低于某个极限。特殊分位数是四分位数(四分之一)、五分位数(第五分)和百分位数(第一百分)。
示例:
如果我们把一个分布分成四个相等的部分,我们就说四个四分位数。第一个四分位数包括小于所有值四分之一的所有值。在图形表示中,它对应于分布总面积的25%。两个较低的四分位数占所有分布值的50%。第一个四分位数和第三个四分位数之间的四分位数范围等于围绕平均值分布的所有值的50%所在的范围。
在统计学中,q-q(分位数-分位数)图是通过将两组分位数相对于另一组绘制而形成的散点图。如果两组分位数来自相同的分布,我们应该看到这些点形成了一条大致直线(y=x)。
例如,中位数是一个分位数,其中50%的数据低于该点,50%位于该点之上。Q Q图的目的是找出两组数据是否来自相同的分布。在Q Q图上绘制45度角;如果两个数据集来自一个共同的分布,那么点将落在那个参考线上。
对于你来说,了解分布是否正常是非常重要的,以便对数据应用各种统计度量,并以更易于理解的可视化方式解释数据,它们的Q-Q图就出现在画面中。Q-Q图回答的最基本的问题是曲线是否正态分布。
正态分布,但为什么?
Q-Q图用于寻找随机变量的分布类型,无论是高斯分布,均匀分布,指数分布,甚至帕累托分布等。
你可以用Q-Q图的幂来判断分布的类型,只需看一下图就可以了。一般来说,我们谈论正态分布只是因为我们有一个非常漂亮的概念,即68-95-99.7规则,它完美地符合正态分布,所以我们知道有多少数据位于均值的第一标准差、第二标准差和第三标准差的范围内。因此,知道一个分布是否正态为我们打开了新的尝试之门
Q-Q图可以找到分布的偏度(不对称的度量)。
如果Q-Q图的底端偏离直线,但上端不偏离直线,则分布左偏斜(负偏斜)。
现在,如果Q-Q图的上端偏离星光线,而下端不偏离,那么分布右偏(正偏)。
Q-Q图可以找到分布的峰度(尾度的度量)。
带有胖尾的分布将使Q-Q图的两端偏离直线,其中心跟随直线,其中作为细尾分布,将在两端偏差很小或可忽略不计的Q-Q图项,从而使其完美地适合于正态分布。
假设我们有以下100个值的数据集:
array([ 1.76405235, 0.40015721, 0.97873798, 2.2408932 , 1.86755799, -0.97727788, 0.95008842, -0.15135721, -0.10321885, 0.4105985 ])
要为该数据集创建Q-Q图,我们可以使用statsmodels库中的qqplot()函数:
import statsmodels.api as sm import matplotlib.pyplot as plt #create Q-Q plot with 45-degree line added to plot fig = sm.qqplot(data, line='45') plt.show()
在Q-Q图中,X轴显示理论分位数。这意味着它不会显示您的实际数据,而是表示如果数据是正态分布的数据将在哪里。
y轴显示您的实际数据。这意味着,如果数据值沿45度角的大致直线下降,那么数据是正态分布的。
我们可以在上面的Q-Q图中看到,数据值倾向于密切遵循45度,这意味着数据很可能是正态分布的。这并不奇怪,因为我们使用numpy.random.normal()函数生成了100个数据值。
相反,如果我们生成了一个由100个均匀分布的值组成的数据集,并为该数据集创建了一个Q-Q图:
#create dataset of 100 uniformally distributed values data = np.random.uniform(0,1, 1000) #generate Q-Q plot for the dataset fig = sm.qqplot(data, line='45') plt.show()
In probability, Chebyshev’s Inequality, also known as “Bienayme-Chebyshev” Inequality guarantees that, for a wide class of probability distributions, only a definite fraction of values will be found within a specific distance from the mean of a distribution.
切比雪夫不等式类似于经验规则(68-95-99.7);但是,后一规则只适用于正态分布。切比雪夫的不等式范围更广;它可以应用于任何分布,只要分布包括一个定义的方差和均值。
因此,切比雪夫不等式说,样本中的数据至少(1-1/k^2)必须落在均值的k标准差内(或者等价地,分布的值不能超过均值的1/k^2标准差)。
其中k-->正实数
如果数据不是正态分布的,那么不同数量的数据可能在一个标准差中。Chebyshev不等式提供了一种方法,可以知道在任何数据分布的均值的k标准差内有多少数据。
切比雪夫不等式具有重要价值,因为它可以应用于任何有均值和方差的概率分布。
让我们考虑一个例子,假设1000名参赛者参加一个工作面试,但只有70个职位可用。为了从所有参赛者中选出最优秀的70名参赛者,东主进行测试,以判断他们的潜力。测试的平均分是60,标准差是6。如果申请人得了84分,他们能认为他们得到了这份工作吗?
结果显示,大约63人的分数在60分以上,所以有70个职位可供选择,一个得分84分的参赛者可以肯定他们得到了这份工作。
创建一个有1,000,000个值的总体,我使用形状=2和规模=2的gamma分布(也适用于其他分布)。
导入numpy为np 导入随机 导入matplotlib.pyplot为plt #用创建人口 形状,比例=2.,2。#mean=4,std=2*sqrt(2) mu=形状*尺度#均值和标准差 sigma=Scale*np.sqrt(形状) s=NP.Random.Gamma(形状,尺度,1000000)
现在从人口中取样10,000个值。
#sample 10000 values rs = random.choices(s, k=10000)
计数与期望值的距离大于k个标准差的样本,并使用计数来计算概率。我想描述当k增加时,概率的趋势,所以我使用k从0.1到3的范围。
#set k ks = [0.1,0.5,1.0,1.5,2.0,2.5,3.0] #probability list probs = [] #for each k for k in ks: #start count c = 0 for i in rs: # count if far from mean in k standard deviation if abs(i - mu) > k * sigma : c += 1 probs.append(c/10000)
绘制结果:
plot = plt.figure(figsize=(20,10)) #plot each probability plt.xlabel('K') plt.ylabel('probability') plt.plot(ks,probs, marker='o') plot.show() #print each probability print("Probability of a sample far from mean more than k standard deviation:") for i, prob in enumerate(probs): print("k:" + str(ks[i]) + ", probability: " + str(prob)[0:5] + " | in theory, probability should less than: " + str(1/ks[i]**2)[0:5])
从上面的图和结果可以看出,随着k的增大,概率在减小,每个k的概率遵循不等式。而且,只有k大于1的情况才有用。如果k小于1,则不等式的右侧大于1,这是没有用的,因为概率不能大于1。
In probability theory, a Log-normal distribution also known as Galton's distribution is a continuous probability distribution of a random variable whose logarithm is normally distributed.
因此,如果随机变量X是对数正态分布的,那么y=ln(X)是正态分布的。等价地,如果Y具有正态分布,则Y的指数函数即X=exp(Y),具有对数正态分布。
具有低均值和高方差且所有正值的偏态分布适合于这种类型的分布。对数正态分布的随机变量只取正实值。
对数正态分布的概率密度函数的一般公式是:
对数正态分布的形状由3个参数定义:
如果x=θ,则f(x)=0。θ=0和m=1的情况称为标准对数正态分布。θ等于零的情况称为2参数对数正态分布。
下图说明了位置(μ)和形状(σ)参数对对数正态分布概率密度函数的影响:
让我们考虑一个示例,使用scipy.stats.lognorm函数从μ=1和σ=0.5的对数正态分布生成随机数。
导入numpy作为np 导入matplotlib.pyplot为plt 从scipy.stats导入lognorm NP.Random.Seed(42) data=lognorm.rvs(S=0.5,loc=1,Scale=1000,size=1000) PLT.FIGH(图=(10,6)) ax=PLT.次图(111) plt.title('从对数正态分布生成wrandom数') AX.HIST(数据,bins=np.logspace(0,5,200),density=true) ax.set_xscale(“log”) shape,loc,scale=lognorm.fit(数据) x=NP.logspace(0,5,200) pdf=lognorm.pdf(x,shape,loc,scale) Ax.plot(x,pdf,'y') plt.show()
In statistics, a Power Law is a functional relationship between two quantities, where a relative change in one quantity results in a proportional relative change in the other quantity, independent of the initial size of those quantities: one quantity varies as a power of another.
例如,用边长来计算正方形的面积,如果边长是一倍,则面积乘以四倍。
幂律分布的形式为y=k×α,
其中:
幂律分布只是众多概率分布中的一种,但它被认为是评估正态分布在一定概率下无法处理的不确定性问题的有价值的工具。
许多过程已被发现在相当大的数值范围内遵循幂律。从收入分布、流星体大小、地震震级、深度神经网络中权重矩阵的谱密度、词的使用、各种网络中邻居的数量等(注:这里的幂律是连续分布。最后两个例子是离散的,但在大范围内可以建模为连续的)。
让我们画出帕累托分布,它是幂律概率分布的一种形式。帕累托分配有时被称为帕累托原则或'80-20'规则,因为该规则指出,80%的社会财富由20%的人口持有。帕累托分布不是自然规律,而是一种观察。它在许多现实世界的问题中是有用的。这是一个偏斜的重尾分布。
导入numpy作为np 导入matplotlib.pyplot为plt 从scipy.stats导入pareto x_m=1#刻度 alpha=[1,2,3]#形状参数值列表 PLT.FIGH(图=(10,6)) samples=np.linspace(start=0,stop=5,num=1000) 对于a in alpha: 输出=np.array([pareto.pdf(x=samples,b=a,loc=0,scale=x_m)]) plt.plot(samples,output.t,label='alpha{0}'.format(a)) plt.xlabel('samples',fontsize=15) plt.yLabel('pdf',fontsize=15) plt.title('概率密度函数',fontsize=15) PLT.LEGEND(loc='最佳') plt.show()
The Box-Cox transformation transforms our data so that it closely resembles a normal distribution.
单参数Box-Cox变换在许多统计技术中都有定义,我们假定误差是正态分布的。这个假设允许我们构造置信区间并进行假设检验。通过转换您的目标变量,我们可以(希望)规范化我们的错误(如果它们还不正常的话)。
此外,变换我们的变量可以提高我们的模型的预测能力,因为变换可以消除白噪声。
Box-Cox变换的核心是一个指数lambda(λ),从-5到5不等。将考虑λ的所有值,并为您的数据选择最佳值;“最优值”是正态分布曲线的最佳近似值。
单参数Box-Cox变换定义为:
双参数Box-Cox变换如下:
此外,单参数Box-Cox变换适用于y>0,即仅适用于正值,而双参数Box-Cox变换适用于y>-λ,即负值。
参数λ是利用轮廓似然函数和拟合优度检验来估计的。
如果我们谈到Box-cox变换的一些缺点,那么如果解释是你想做的,那么Box-cox是不推荐的。因为如果λ是非零数,那么转换后的目标变量可能比简单地应用日志转换更难解释。
第二个绊脚石是Box-Cox变换通常给出预测分布的中值,当我们将变换后的数据还原到其原始规模时。偶尔,我们想要的是平均数,而不是中位数。
SCIPY的stats包提供了一个名为boxcox的函数,用于执行box-cox幂变换,该变换接收原始非正态分布数据作为输入,并返回拟合数据以及用于将非正态分布拟合为正态分布的λ值。
#加载必要的包 导入numpy为np 从scipy.stats导入boxcox 导入海运作为sns #使此示例可复制 NP.Random.Seed(0) #生成数据集 数据=NP.random.exponential(size=1000) 图,ax=plt.子图(1,2) #绘制数据值的分布 distplot(data,hist=false,kde=true, kde_kws={'shade':True,'linewidth':2}, 标签=“非正常”,color=“红色”,ax=ax[0]) #执行box-对原始数据进行Cox转换 transformed_data,best_lambda=boxcox(数据) distplot(transformed_data,hist=False,kde=True, kde_kws={'shade':True,'linewidth':2}, label=“正常”,color=“红色”,ax=ax[1]) #向次要情节添加图例 PLT.LEGEND(loc=“右上部”) #重新缩放次要图 图set_figheight(5) fig.set_figwidth(10) #显示最佳λ值 打印(f“用于转换的lambda值:{best_lambda}”)
In probability theory and statistics, the 泊松分布 is a discrete probability distribution that expresses the probability of a given number of events occurring in a fixed interval of time or space if these events occur with a known constant mean rate and independently of the time since the last event.
用非常简单的术语来说,泊松分布可以用来估计某事发生“x”次的可能性有多大。
泊松过程的一些例子是客户打电话给帮助中心,原子的放射性衰变,网站的访问者,到达太空望远镜的光子,以及股票价格的波动。泊松过程通常与时间有关,但不一定与时间有关。
泊松分布的公式是:
其中:
可以将Lambda(λ)视为间隔中预期的事件数。当我们改变速率参数λ时,我们改变了在一个区间内看到不同数量事件的概率。下图是泊松分布的概率质量函数,显示了在不同速率参数的区间内发生若干事件的概率。
泊松分布也通常被用于金融统计数据的模型,其中理货量很小,通常为零。例如,在金融学中,它可以用来模拟一个典型的投资者在给定的一天内所做的交易的数量,可以是0(通常),或者是1,或者是2,等等。
作为另一个例子,这个模型可以用来预测在一个给定的时期内,比如说在十年里,对市场的“冲击”的数量。
from numpy import random import matplotlib.pyplot as plt import seaborn as sns lam_list = [1, 4, 9] #list of Lambda values plt.figure(figsize=(10,6)) samples = np.linspace(start=0, stop=5, num=1000) for lam in lam_list: sns.distplot(random.poisson(lam=lam, size=10), hist=False, label='lambda {0}'.format(lam)) plt.xlabel('Poisson Distribution', fontsize=15) plt.ylabel('Frequency', fontsize=15) plt.legend(loc='best') plt.show()
当λ变大时,图看起来更像是正态分布。
我希望你喜欢阅读这篇文章,如果你有任何问题或建议,请留下评论。
请在LinkedIn上与我联系以获得任何查询。
感谢阅读!!!
References
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30