作者 | KHYATI MAHENDRU
概率是许多数据科学算法的核心 。实际上,解决这么多数据科学问题的方法本质上都是概率性的-因此,我始终建议在着手研究算法之前,着重学习一下统计数据和概率。
但我看到很多有能力的数据科学家都在回避统计这一方面的知识,尤其是贝叶斯统计。许多分析师和数据科学家仍然无法理解这一点。我相信你们很多人都对此点头赞同吧!
贝叶斯定理是贝叶斯统计的一个主要方面,是由生活在18世纪的僧侣托马斯·贝叶斯(Thomas Bayes)提出的。我们仍在学习贝叶斯统计的这一事实,表明他的作品在多个世纪以来都具有巨大的影响力!贝叶斯定理使我们能够解决复杂的数据科学问题,并且仍然领先在世界领先的大学教授。
在本文中,我们将详细探讨贝叶斯定理及其应用,包括朴素贝叶斯分类器和判别函数等。本文有很多要解压的内容,让我们开始吧!
在进入贝叶斯定理的世界之前,我们需要了解一些概念。这些概念本质上是理解贝叶斯定理的前提条件。
当您听到“实验”一词时,您想到的第一张图片是什么?包括我在内的大多数人都想象有一个充满试管和烧杯的化学实验室。概率论中的实验概念实际上非常相似:
实验是在受控条件下执行的有计划的操作。
实验的例子包括抛硬币,掷骰子和从洗好的牌中抽出一张。
实验的结果称为实验结果。事件的所有可能结果的集合称为样本空间。例如,如果我们的实验是掷骰子并记录其结果,则样本空间将为:
S1 = {1,2,3,4,5,6}
当我们扔硬币时,样本将是什么?在看到下面的答案之前,请仔细的想一想:
S2 = {H,T}
事件是实验结果的集合(即样本空间的子集)。
让我们回到掷骰子的实验中并将事件E和F定义为:
这些事件发生的可能性:
P(E)=有利结果数/可能结果总数= 3/6 = 0.5 P(F)= 3/6 = 0.5
集合论中的基本运算,也就是事件的并集和交集是可能的,因为一个事件就是一个集合。
E∪F= {2,4,5,6}和E∩F= {4,6}
现在考虑一个事件G =获得一个奇数:
那么E∩G=空集=Φ
这种事件称为不相交事件。这些也称为互斥事件,因为一次实验只能在两个事件中发生一个:
随机变量的确切含义就像它听起来的那样—一个具有随机值的变量,每个值都有一定的概率(可能为零)。它是在实验的样本空间上定义的实值函数:
让我们来看一个简单的示例(请参考上面的图片)。在抛硬币实验的样本空间上定义一个随机变量X。如果获得“ Heads”(正面),则值为+1;如果获得“ Tails”(反面),则值为-1。然后,X取值为+1和-1,概率为1/2。
假设Y是某一天某一地点的观察温度(摄氏温度)。因此,我们可以说Y是一个连续的随机变量,定义在相同的空间上,S =[0,100](摄氏温标定义在0摄氏度到100摄氏度之间)。
如果必须在任何时间发生至少一个事件,则认为一组事件是详尽的。因此,如果A∪B = S,即在样本空间内两个事件A和B被认为是穷举性的。
例如,假设A是从包装中抽出的纸牌是红色的事件,B是抽出的纸牌是黑的事件。这里,A和B是穷举性的,因为样本空间S = {red,black}。很简单的东西,对不对?
如果一个事件的发生对另一事件的发生没有任何影响,则可以说这两个事件是独立的。从数学上讲,如果满足以下条件,则两个事件A和B被认为是独立的:
例如,如果A在掷骰子时获得5,而B从一副洗的特别好的一堆纸牌中抽出了红桃K,那么A和B就其定义而言来说就是独立的。识别独立事件通常不那么容易,因此我们使用上面提到的公式。
假设我们从给定的牌堆中抽出一张牌。是黑牌的概率是多少?很简单- 1/2,对吧?然而,如果我们知道它是一张黑牌,那么它是一张国王牌的概率是多少?
解决这个问题的方法并不那么简单。
这就是条件概率概念起作用的地方。条件概率被定义为一个事件A发生的概率,前提是另一个事件B已经发生(即A条件B)。这由P(A | B)表示,我们可以将其定义为:
P(A | B)= P(A∩B)/ P(B)
让事件A代表选择国王,事件B代表黑牌。然后,使用上述公式找到P(A | B):
P(A∩B)= P(获得一张国王黑卡)= 2/52 P(B)= P(捡黑卡)= 1/2
因此,P(A | B)= 4/52。根据您选择的示例进行尝试。这将帮助您很好地掌握整个概念。
它是一个事件A发生的概率,独立于任何其他事件B,即边缘化事件B。
边际概率P(A)= P(A | B)* P(B)+ P(A |〜B)* P(〜B)
这只是一种奇特的说法:
P(A)= P(A∩B)+ P(A∩〜B)#根据我们对条件概率的了解
其中〜B表示未发生B的事件。
让我们来验证一下边际概率的概念是否成立。这里,我们需要计算抽到的随机纸牌是红色(事件a)的概率,答案显然是1/2。 。让我们通过事件B的边际概率计算得出国王的概率。
P(A∩B)= 2/52(因为有两个是红色的国王,一个是红心,另一个是方块)
并且P(A∩〜B)= 24/52(红色的剩余的牌) 因此,P(A)= 2/52 + 24/52 = 26/52 = 1/2
完美!因此,这足以涵盖我们贝叶斯定理的基础知识。现在让我们花一些时间来了解贝叶斯定理的确切含义以及其工作原理。
你看过热门电视剧《神探夏洛克》(或任何犯罪惊悚剧)吗?想想看,我们对罪魁祸首的看法在整集里都在改变。我们处理新的证据,并在每一步完善我们的假设。这就是现实生活中的贝叶斯定理!
现在,让我们从数学上理解它。这将是相当简单的,因为我们的基础是清楚的。
假设A和B是样本空间S中P(B)≠0的任意两个事件。利用我们对条件概率的理解,我们有:
P(A|B) = P(A∩B) / P(B) 类似地,P(B|A) = P(A∩B) / P(A) 由此可见,P (A∩) = P (A | B) * P (B) = P (B |) * P (A) 因此,P(A|B) = P(B|A)*P(A) / P(B)
这就是贝叶斯定理。
这里,P(A)和P(B)是独立观察A和B的概率。这就是为什么我们说它们是边际概率。P(B|A)和P(A|B)是条件概率。
P(A)称为先验概率,P(B)称为证据。
P(B)= P(B | A)* P(A)+ P(B |〜A)* P(〜A)
P(B | A)称为可能性,P(A | B)称为后验概率。
等价地,贝叶斯定理可以写成:
后验=可能性*先验/证据
这些词听起来可能很花哨,但它们背后的基本思想其实很简单。当你有任何疑问的时候,你可以回到这个部分进行查看。
我们用贝叶斯定理来解决一个问题。这将帮助你理解和想象你可以在哪里应用它。我们举一个例子,我相信几乎所有人都在学校里见过。
有3个分别标记为A,B和C的盒子:
这三个盒子是一样的,被选中的概率是一样的。假设选择了一个红色的球。那么这个红球从框A中取出的概率是多少?
设E表示一个红色球被选中的事件,A、B、C表示各自的盒子被选中。我们需要计算条件概率P(A|E)。
我们有先验概率P(A)= P(B)= P(C)= 1/3,因为所有盒子都有相同的被选取的概率。 P(E|A) =盒子A中红色球的数量/盒子A中红色球的总数= 2 / 5 同理,P(E|B) = 3 / 4, P(E|C) = 1 / 5
然后证据P (E) = P (E |) * P (A) + P (E | B) * P (B) + P (E | C) * P (C) = (2/5)* (1/3)+ (3/4)* (1/3)+ (1/5)* (1/3)= 0.45 因此,P (A | E) = P (E |) * P (A) / P (E) = (2/5) * (1/3) / 0.45 = 0.296
贝叶斯定理在现实世界中有很多应用。如果你不能马上理解所有涉及的数学,也不要担心。只要了解它是如何工作的就足够了。
贝叶斯决策理论是解决模式分类问题的一种统计方法。根据这一理论,假定类别的潜在概率分布是已知的。因此,我们得到了一个理想的贝叶斯分类器,所有其他分类器都根据它来判断性能。
我们将讨论贝叶斯定理的三个主要应用:
让我们详细查看每个应用。
这可能是贝叶斯定理最著名的应用,甚至可能是最强大的。在机器学习中你会经常遇到朴素贝叶斯算法。
朴素贝叶斯分类器是基于贝叶斯定理的一组概率分类器。这些分类器的基本假设是,用于分类的所有功能都彼此独立。那就是“朴素”这个名字的来历,因为很少有我们获得一套完全独立的功能。
这些分类器的工作方式与我们在插图中解决的方法完全相同,只是假设了更多相互独立的特性。
这里,我们需要找到概率P(Y|X)其中X是一个n维随机变量,其组成随机变量X1, X2,…, X_n相互独立:
类似的,因为条件独立
代入(1),得到
最后,P(Y | X)最大的Y是我们的预测类。
这个名字很不言自明。判别函数用于将其参数“区分”到其相关类中。想要一个例子吗?那就来一个!
如果你研究过机器学习中的分类问题,你可能会遇到支持向量机(SVM)。支持向量机算法通过寻找最佳分离训练样本的微分超平面来对向量进行分类。这个超平面可以是线性的,也可以是非线性的:
这些超平面是我们的决策平面,这个超平面的方程是我们的判别函数。
好了-现在让我们正式讨论这个话题。
w1,w2,…..,w_c表示我们的数据向量X可以分类的c个类。然后,决策规则变为:
对于所有j≠i,如果g_i(X)> g_j(X),则确定w_i
这些函数gi(X) i = 1,2,…,称为判别函数。这些函数将向量空间分割成c决策区域——R1, R2,…, Rc对应于每个c类。这些区域的边界称为决策面或边界。
如果gi(X) = gj(X)是c判别函数中最大的值,那么将向量X划分为wi类和wj类是不明确的。因此,X位于一个判定边界或曲面上。
查看下图:
这是个很酷的概念,对吧?将二维向量空间分成R1和R2两个决策区域,用两个双曲线将两个决策区域分隔开。
注意,如果f(.)是一个单调递增的函数,那么任何函数f(g_i(X))也可以用作判别函数。对数函数是f(.)的常用选择。
现在,考虑两个类别的情况下使用类w ^ _1和W_2。“ 最小错误率分类 ”决策规则变为:
如果P(w_1|X) > P(w_2|X),则判定w_1,否则判定w_2 P(error|X) = min{P(w_1|X),P(w_2|X)}
P(w_i|X)是一个条件概率,可以用贝叶斯定理来计算。因此,我们可以根据可能性和先验来重申决策规则:
如果P(X|w_1)*P(w_1) > P(X|w_2)*P(w_2),则判定w_1,否则判定w_2
请注意,分母上的“证据”只是用于缩放,因此我们可以从决策规则中消除它。
因此,判别函数的一个明显选择是:
g_i(X) = P(X|w_i)*P(w_i) 或 g_i(X) = ln(P(X|w_i)) + ln(P(w_i))
两类情况一般可用一个判别函数进行分类。
g(X) = g_1(X) - g_2(X) = ln(P(X|w_1) / P(X|w_2)) + ln(P(w_1) / P(w_2)) 判断w_1,如果g(X) >为0 判断w_2,如果g(X) < 0 如果g(X) = 0,则X位于决策面。
在上图中,g(X)是二维向量X中的一个线性函数。然而,更复杂的决策边界也是有可能的:
这是贝叶斯定理的第三个应用。我们将使用单变量高斯分布和一些数学知识来理解它。不要担心它看起来很复杂——我已经把它分解成容易理解的术语。
你一定听说过超级流行的IMDb Top 250。这是250部有史以来最受欢迎的电影。《肖申克的救赎》在榜单上排名第一,评分9.2/10。
你认为这些评级是如何计算的?IMDb使用的原始公式声称使用“真正的贝叶斯估计”。此后,这个公式发生了变化,没有公开披露。下面是之前的公式:
W=加权评级
R=从1到10的电影平均(平均值)=(评级)
v=电影的投票数=(投票)
m=进入前250名所需的最低票数(目前为25,000)
C= 整个报告的平均投票数(目前为7.0)
最终评级W是R和C的加权平均值,分别用权重v和m表示。m是先验估计。
我们通常没有关于分类问题的概率性质的完整信息。相反,我们对情况有一个模糊的概念,以及一些训练的例子。然后我们使用这些信息来设计一个分类器。
基本思想是潜在的概率分布具有一个已知形式。因此,我们可以使用参数向量Θ对其进行描述。例如,可以用Θ= [μ,σ²]描述高斯分布。
然后,我们需要估计这个向量。这通常通过两种方式实现:
p (D |θ)= p (x1 |θ)* p (x2 |θ)* ....* p (xn |θ)=相对于样本D集合的θ似然
我们可以将其非正式地写为:
P(Θ|数据)= P(数据|Θ)* P(Θ)/ P(数据),其中数据表示训练示例集
让我来演示一下贝叶斯参数估计是如何工作的。这将进一步明确我们刚才提到的理论。
首先,让p (X)是正态分布的均值μ和方差σ²,μ是唯一我们希望估计未知参数。然后:
p(X|Θ) = p(X|μ) ~ N(μ, σ²)
我们将在这里简化数学。因此, 让先验概率密度p(μ)也是正态分布与平均µ和方差σ²(这都是已知的)。
在此,将p(Θ| data)= p(μ| data)称为繁殖密度,将p(Θ)= p(μ)称为共轭先验。
a是归一化常数
由于样本是相互独立的,
带入(2)
现在,我们把概率密度替换成我们一开始描述的那样
由于exp()中的此参数是μ的二次方,因此它表示一个正常的密度。因此,如果我们有n个训练示例,我们可以说p(μ| data)正态分布为均值μn和方差σn²,其中
以下是我的观察:
数据分析咨询请扫描二维码
CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16在现代企业中,数据分析师扮演着至关重要的角色。他们不仅负责处理和分析大量的数据,还需要将这些分析结果转化为切实可行的商业 ...
2024-12-16在当今的大数据时代,数据分析已经成为推动企业战略的重要组成部分。无论是金融、医疗、零售,还是制造业,各个行业对数据分析的 ...
2024-12-16在当今这个以数据为驱动力的时代,数据分析领域正在迅速扩展与发展。随着大数据、人工智能和机器学习技术的不断进步,数据分析已 ...
2024-12-16在信息爆炸和数据驱动的时代,数据分析专业是否值得一选成为许多人思考的议题。无论是刚刚迈入大学校门的新生,还是考虑职业转型 ...
2024-12-16适合数据分析专业学生的实习岗位有很多,以下是一些推荐: 阿里巴巴数据分析岗位实习:适合经济、统计学、数学及计算机专业的 ...
2024-12-16在数据科学领域,探索实习机会是一个理想的学习和成长方式。实习不仅可以提供宝贵的实践经验,还能帮助学生发展关键的数据分析技 ...
2024-12-16在当今信息驱动的时代,数据分析不仅成为了企业决策的重要一环,还催生了各种职业机会。从技术到业务,数据分析专业的就业岗位种 ...
2024-12-16在现代企业中,数据分析师被誉为“数据探险家”,他们通过揭示隐藏在数据背后的故事,帮助公司优化业务策略和做出明智的决策。然 ...
2024-12-16在大数据崛起的时代,数据分析师被誉为企业的“幕后英雄”。他们通过解读数据,揭示隐藏的真相,为企业战略提供重要的指导。这份 ...
2024-12-16在这个信息大爆炸的时代,数据分析师成为了企业中的“福尔摩斯”,他们能够从庞杂的数据中提取关键洞察,为业务发展提供坚实支持 ...
2024-12-16在这个数据为王的现代社会,数据分析师如同企业的导航员,洞悉数据背后所隐藏的商业机会和战略优势。然而,成为一名优秀的数据分 ...
2024-12-16