在我以前的文章初学者数据科学统计指南和推断统计数据科学家应该知道中,我们讨论了几乎所有的统计基本知识(描述性和推断性),它们通常用于理解和处理任何数据科学案例研究。在这篇文章中,让我们稍微超越一下,讨论一些不在讨论范围内的高级概念。
在了解QQ剧情之前,先了解什么是分位数?
分位数定义了数据集的特定部分,即分位数决定了一个分布中有多少值高于或低于某个极限。特殊分位数是四分位数(四分之一)、五分位数(第五分)和百分位数(第一百分)。
示例:
如果我们把一个分布分成四个相等的部分,我们就说四个四分位数。第一个四分位数包括小于所有值四分之一的所有值。在图形表示中,它对应于分布总面积的25%。两个较低的四分位数占所有分布值的50%。第一个四分位数和第三个四分位数之间的四分位数范围等于围绕平均值分布的所有值的50%所在的范围。
在统计学中,q-q(分位数-分位数)图是通过将两组分位数相对于另一组绘制而形成的散点图。如果两组分位数来自相同的分布,我们应该看到这些点形成了一条大致直线(y=x)。
例如,中位数是一个分位数,其中50%的数据低于该点,50%位于该点之上。Q Q图的目的是找出两组数据是否来自相同的分布。在Q Q图上绘制45度角;如果两个数据集来自一个共同的分布,那么点将落在那个参考线上。
对于你来说,了解分布是否正常是非常重要的,以便对数据应用各种统计度量,并以更易于理解的可视化方式解释数据,它们的Q-Q图就出现在画面中。Q-Q图回答的最基本的问题是曲线是否正态分布。
正态分布,但为什么?
Q-Q图用于寻找随机变量的分布类型,无论是高斯分布,均匀分布,指数分布,甚至帕累托分布等。
你可以用Q-Q图的幂来判断分布的类型,只需看一下图就可以了。一般来说,我们谈论正态分布只是因为我们有一个非常漂亮的概念,即68-95-99.7规则,它完美地符合正态分布,所以我们知道有多少数据位于均值的第一标准差、第二标准差和第三标准差的范围内。因此,知道一个分布是否正态为我们打开了新的尝试之门
Q-Q图可以找到分布的偏度(不对称的度量)。
如果Q-Q图的底端偏离直线,但上端不偏离直线,则分布左偏斜(负偏斜)。
现在,如果Q-Q图的上端偏离星光线,而下端不偏离,那么分布右偏(正偏)。
Q-Q图可以找到分布的峰度(尾度的度量)。
带有胖尾的分布将使Q-Q图的两端偏离直线,其中心跟随直线,其中作为细尾分布,将在两端偏差很小或可忽略不计的Q-Q图项,从而使其完美地适合于正态分布。
假设我们有以下100个值的数据集:
array([ 1.76405235, 0.40015721, 0.97873798, 2.2408932 , 1.86755799, -0.97727788, 0.95008842, -0.15135721, -0.10321885, 0.4105985 ])
要为该数据集创建Q-Q图,我们可以使用statsmodels库中的qqplot()函数:
import statsmodels.api as sm import matplotlib.pyplot as plt #create Q-Q plot with 45-degree line added to plot fig = sm.qqplot(data, line='45') plt.show()
在Q-Q图中,X轴显示理论分位数。这意味着它不会显示您的实际数据,而是表示如果数据是正态分布的数据将在哪里。
y轴显示您的实际数据。这意味着,如果数据值沿45度角的大致直线下降,那么数据是正态分布的。
我们可以在上面的Q-Q图中看到,数据值倾向于密切遵循45度,这意味着数据很可能是正态分布的。这并不奇怪,因为我们使用numpy.random.normal()函数生成了100个数据值。
相反,如果我们生成了一个由100个均匀分布的值组成的数据集,并为该数据集创建了一个Q-Q图:
#create dataset of 100 uniformally distributed values data = np.random.uniform(0,1, 1000) #generate Q-Q plot for the dataset fig = sm.qqplot(data, line='45') plt.show()
In probability, Chebyshev’s Inequality, also known as “Bienayme-Chebyshev” Inequality guarantees that, for a wide class of probability distributions, only a definite fraction of values will be found within a specific distance from the mean of a distribution.
切比雪夫不等式类似于经验规则(68-95-99.7);但是,后一规则只适用于正态分布。切比雪夫的不等式范围更广;它可以应用于任何分布,只要分布包括一个定义的方差和均值。
因此,切比雪夫不等式说,样本中的数据至少(1-1/k^2)必须落在均值的k标准差内(或者等价地,分布的值不能超过均值的1/k^2标准差)。
其中k-->正实数
如果数据不是正态分布的,那么不同数量的数据可能在一个标准差中。Chebyshev不等式提供了一种方法,可以知道在任何数据分布的均值的k标准差内有多少数据。
切比雪夫不等式具有重要价值,因为它可以应用于任何有均值和方差的概率分布。
让我们考虑一个例子,假设1000名参赛者参加一个工作面试,但只有70个职位可用。为了从所有参赛者中选出最优秀的70名参赛者,东主进行测试,以判断他们的潜力。测试的平均分是60,标准差是6。如果申请人得了84分,他们能认为他们得到了这份工作吗?
结果显示,大约63人的分数在60分以上,所以有70个职位可供选择,一个得分84分的参赛者可以肯定他们得到了这份工作。
创建一个有1,000,000个值的总体,我使用形状=2和规模=2的gamma分布(也适用于其他分布)。
导入numpy为np 导入随机 导入matplotlib.pyplot为plt #用创建人口 形状,比例=2.,2。#mean=4,std=2*sqrt(2) mu=形状*尺度#均值和标准差 sigma=Scale*np.sqrt(形状) s=NP.Random.Gamma(形状,尺度,1000000)
现在从人口中取样10,000个值。
#sample 10000 values rs = random.choices(s, k=10000)
计数与期望值的距离大于k个标准差的样本,并使用计数来计算概率。我想描述当k增加时,概率的趋势,所以我使用k从0.1到3的范围。
#set k ks = [0.1,0.5,1.0,1.5,2.0,2.5,3.0] #probability list probs = [] #for each k for k in ks: #start count c = 0 for i in rs: # count if far from mean in k standard deviation if abs(i - mu) > k * sigma : c += 1 probs.append(c/10000)
绘制结果:
plot = plt.figure(figsize=(20,10)) #plot each probability plt.xlabel('K') plt.ylabel('probability') plt.plot(ks,probs, marker='o') plot.show() #print each probability print("Probability of a sample far from mean more than k standard deviation:") for i, prob in enumerate(probs): print("k:" + str(ks[i]) + ", probability: " + str(prob)[0:5] + " | in theory, probability should less than: " + str(1/ks[i]**2)[0:5])
从上面的图和结果可以看出,随着k的增大,概率在减小,每个k的概率遵循不等式。而且,只有k大于1的情况才有用。如果k小于1,则不等式的右侧大于1,这是没有用的,因为概率不能大于1。
In probability theory, a Log-normal distribution also known as Galton's distribution is a continuous probability distribution of a random variable whose logarithm is normally distributed.
因此,如果随机变量X是对数正态分布的,那么y=ln(X)是正态分布的。等价地,如果Y具有正态分布,则Y的指数函数即X=exp(Y),具有对数正态分布。
具有低均值和高方差且所有正值的偏态分布适合于这种类型的分布。对数正态分布的随机变量只取正实值。
对数正态分布的概率密度函数的一般公式是:
对数正态分布的形状由3个参数定义:
如果x=θ,则f(x)=0。θ=0和m=1的情况称为标准对数正态分布。θ等于零的情况称为2参数对数正态分布。
下图说明了位置(μ)和形状(σ)参数对对数正态分布概率密度函数的影响:
让我们考虑一个示例,使用scipy.stats.lognorm函数从μ=1和σ=0.5的对数正态分布生成随机数。
导入numpy作为np 导入matplotlib.pyplot为plt 从scipy.stats导入lognorm NP.Random.Seed(42) data=lognorm.rvs(S=0.5,loc=1,Scale=1000,size=1000) PLT.FIGH(图=(10,6)) ax=PLT.次图(111) plt.title('从对数正态分布生成wrandom数') AX.HIST(数据,bins=np.logspace(0,5,200),density=true) ax.set_xscale(“log”) shape,loc,scale=lognorm.fit(数据) x=NP.logspace(0,5,200) pdf=lognorm.pdf(x,shape,loc,scale) Ax.plot(x,pdf,'y') plt.show()
In statistics, a Power Law is a functional relationship between two quantities, where a relative change in one quantity results in a proportional relative change in the other quantity, independent of the initial size of those quantities: one quantity varies as a power of another.
例如,用边长来计算正方形的面积,如果边长是一倍,则面积乘以四倍。
幂律分布的形式为y=k×α,
其中:
幂律分布只是众多概率分布中的一种,但它被认为是评估正态分布在一定概率下无法处理的不确定性问题的有价值的工具。
许多过程已被发现在相当大的数值范围内遵循幂律。从收入分布、流星体大小、地震震级、深度神经网络中权重矩阵的谱密度、词的使用、各种网络中邻居的数量等(注:这里的幂律是连续分布。最后两个例子是离散的,但在大范围内可以建模为连续的)。
让我们画出帕累托分布,它是幂律概率分布的一种形式。帕累托分配有时被称为帕累托原则或'80-20'规则,因为该规则指出,80%的社会财富由20%的人口持有。帕累托分布不是自然规律,而是一种观察。它在许多现实世界的问题中是有用的。这是一个偏斜的重尾分布。
导入numpy作为np 导入matplotlib.pyplot为plt 从scipy.stats导入pareto x_m=1#刻度 alpha=[1,2,3]#形状参数值列表 PLT.FIGH(图=(10,6)) samples=np.linspace(start=0,stop=5,num=1000) 对于a in alpha: 输出=np.array([pareto.pdf(x=samples,b=a,loc=0,scale=x_m)]) plt.plot(samples,output.t,label='alpha{0}'.format(a)) plt.xlabel('samples',fontsize=15) plt.yLabel('pdf',fontsize=15) plt.title('概率密度函数',fontsize=15) PLT.LEGEND(loc='最佳') plt.show()
The Box-Cox transformation transforms our data so that it closely resembles a normal distribution.
单参数Box-Cox变换在许多统计技术中都有定义,我们假定误差是正态分布的。这个假设允许我们构造置信区间并进行假设检验。通过转换您的目标变量,我们可以(希望)规范化我们的错误(如果它们还不正常的话)。
此外,变换我们的变量可以提高我们的模型的预测能力,因为变换可以消除白噪声。
Box-Cox变换的核心是一个指数lambda(λ),从-5到5不等。将考虑λ的所有值,并为您的数据选择最佳值;“最优值”是正态分布曲线的最佳近似值。
单参数Box-Cox变换定义为:
双参数Box-Cox变换如下:
此外,单参数Box-Cox变换适用于y>0,即仅适用于正值,而双参数Box-Cox变换适用于y>-λ,即负值。
参数λ是利用轮廓似然函数和拟合优度检验来估计的。
如果我们谈到Box-cox变换的一些缺点,那么如果解释是你想做的,那么Box-cox是不推荐的。因为如果λ是非零数,那么转换后的目标变量可能比简单地应用日志转换更难解释。
第二个绊脚石是Box-Cox变换通常给出预测分布的中值,当我们将变换后的数据还原到其原始规模时。偶尔,我们想要的是平均数,而不是中位数。
SCIPY的stats包提供了一个名为boxcox的函数,用于执行box-cox幂变换,该变换接收原始非正态分布数据作为输入,并返回拟合数据以及用于将非正态分布拟合为正态分布的λ值。
#加载必要的包 导入numpy为np 从scipy.stats导入boxcox 导入海运作为sns #使此示例可复制 NP.Random.Seed(0) #生成数据集 数据=NP.random.exponential(size=1000) 图,ax=plt.子图(1,2) #绘制数据值的分布 distplot(data,hist=false,kde=true, kde_kws={'shade':True,'linewidth':2}, 标签=“非正常”,color=“红色”,ax=ax[0]) #执行box-对原始数据进行Cox转换 transformed_data,best_lambda=boxcox(数据) distplot(transformed_data,hist=False,kde=True, kde_kws={'shade':True,'linewidth':2}, label=“正常”,color=“红色”,ax=ax[1]) #向次要情节添加图例 PLT.LEGEND(loc=“右上部”) #重新缩放次要图 图set_figheight(5) fig.set_figwidth(10) #显示最佳λ值 打印(f“用于转换的lambda值:{best_lambda}”)
In probability theory and statistics, the 泊松分布 is a discrete probability distribution that expresses the probability of a given number of events occurring in a fixed interval of time or space if these events occur with a known constant mean rate and independently of the time since the last event.
用非常简单的术语来说,泊松分布可以用来估计某事发生“x”次的可能性有多大。
泊松过程的一些例子是客户打电话给帮助中心,原子的放射性衰变,网站的访问者,到达太空望远镜的光子,以及股票价格的波动。泊松过程通常与时间有关,但不一定与时间有关。
泊松分布的公式是:
其中:
可以将Lambda(λ)视为间隔中预期的事件数。当我们改变速率参数λ时,我们改变了在一个区间内看到不同数量事件的概率。下图是泊松分布的概率质量函数,显示了在不同速率参数的区间内发生若干事件的概率。
泊松分布也通常被用于金融统计数据的模型,其中理货量很小,通常为零。例如,在金融学中,它可以用来模拟一个典型的投资者在给定的一天内所做的交易的数量,可以是0(通常),或者是1,或者是2,等等。
作为另一个例子,这个模型可以用来预测在一个给定的时期内,比如说在十年里,对市场的“冲击”的数量。
from numpy import random import matplotlib.pyplot as plt import seaborn as sns lam_list = [1, 4, 9] #list of Lambda values plt.figure(figsize=(10,6)) samples = np.linspace(start=0, stop=5, num=1000) for lam in lam_list: sns.distplot(random.poisson(lam=lam, size=10), hist=False, label='lambda {0}'.format(lam)) plt.xlabel('Poisson Distribution', fontsize=15) plt.ylabel('Frequency', fontsize=15) plt.legend(loc='best') plt.show()
当λ变大时,图看起来更像是正态分布。
我希望你喜欢阅读这篇文章,如果你有任何问题或建议,请留下评论。
请在LinkedIn上与我联系以获得任何查询。
感谢阅读!!!
References
数据分析咨询请扫描二维码
CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16在现代企业中,数据分析师扮演着至关重要的角色。他们不仅负责处理和分析大量的数据,还需要将这些分析结果转化为切实可行的商业 ...
2024-12-16在当今的大数据时代,数据分析已经成为推动企业战略的重要组成部分。无论是金融、医疗、零售,还是制造业,各个行业对数据分析的 ...
2024-12-16在当今这个以数据为驱动力的时代,数据分析领域正在迅速扩展与发展。随着大数据、人工智能和机器学习技术的不断进步,数据分析已 ...
2024-12-16在信息爆炸和数据驱动的时代,数据分析专业是否值得一选成为许多人思考的议题。无论是刚刚迈入大学校门的新生,还是考虑职业转型 ...
2024-12-16适合数据分析专业学生的实习岗位有很多,以下是一些推荐: 阿里巴巴数据分析岗位实习:适合经济、统计学、数学及计算机专业的 ...
2024-12-16在数据科学领域,探索实习机会是一个理想的学习和成长方式。实习不仅可以提供宝贵的实践经验,还能帮助学生发展关键的数据分析技 ...
2024-12-16在当今信息驱动的时代,数据分析不仅成为了企业决策的重要一环,还催生了各种职业机会。从技术到业务,数据分析专业的就业岗位种 ...
2024-12-16在现代企业中,数据分析师被誉为“数据探险家”,他们通过揭示隐藏在数据背后的故事,帮助公司优化业务策略和做出明智的决策。然 ...
2024-12-16在大数据崛起的时代,数据分析师被誉为企业的“幕后英雄”。他们通过解读数据,揭示隐藏的真相,为企业战略提供重要的指导。这份 ...
2024-12-16在这个信息大爆炸的时代,数据分析师成为了企业中的“福尔摩斯”,他们能够从庞杂的数据中提取关键洞察,为业务发展提供坚实支持 ...
2024-12-16在这个数据为王的现代社会,数据分析师如同企业的导航员,洞悉数据背后所隐藏的商业机会和战略优势。然而,成为一名优秀的数据分 ...
2024-12-16