线性回归和逻辑回归通常是人们在数据科学中学习的第一种算法。由于它们的受欢迎程度,许多分析师甚至认为它们是唯一的回归形式。哪儿些稍微有工作经验的人也会认为它们是所有回归分析形式的中最重要的。
事实是,有无数种形式的回归可以使用。每种形式的回归都有其自身的重要性和最适合应用的特定场景。在本文中,我会以简单的方式解释了数据科学中最常用的7种回归形式。通过这篇文章,我也希望人们能够对回归的广度有一个概念,而不是仅仅对他们遇到的每个问题应都用线性/逻辑回归,并希望他们能够使用这么多的回归技术!
如果您是数据科学的新手,并且正在寻找一个开始学习的地方,那么“ 数据科学 ”课程是一个很好的起点!它涵盖了Python,统计和预测建模的核心主题,它是你进入数据科学的第一步的完美方法。
回归分析是预测建模技术的一种技术,它研究依赖(目标)和自变量(预测变量)之间的关系。该技术用于预测,时间序列建模和查找变量之间的因果关系。例如,通过回归可以最好地研究鲁莽驾驶与驾驶员发生道路交通事故数量之间的关系。
回归分析是建模和分析数据的重要工具。在这里,我们将曲线/直线线拟合到数据点,使得数据点距曲线或直线的距离之间的差异最小化。我将在接下来的章节中详细解释这一点。
为什么我们使用回归分析?
如上所述,回归分析是估计两个或更多变量之间的关系。让我们通过一个简单的例子来理解这一点:
比方说,你想根据当前的经济状况估算公司的销售增长率。您有最近的公司数据表明销售增长约为经济增长的2.5倍。利用这种洞察力,我们可以根据当前和过去的信息预测公司的未来销售情况。
使用回归分析有许多好处。如下:
回归分析还允许我们比较不同尺度上测量的变量的影响,例如价格变化的影响和促销活动的数量。这些优势有助于市场研究人员/数据分析师/数据科学家消除和评估用于构建预测模型的最佳变量集。
我们有各种各样的回归技术可用用于预测。这些技术主要由三个指标(自变量的数量,因变量的类型和回归线的形状)驱动。我们将在以下部分详细讨论它们。
对于创造性的,如果您觉得需要使用上述参数的组合,您甚至可以制作新的回归,以前人们没有使用过。但在开始之前,让我们了解最常用的回归:
它是最广为人知的建模技术之一。线性回归通常是人们在学习预测建模时最先选择的几个方法之一。在该方法中,因变量是连续的,自变量可以是连续的或离散的,并且回归线的性质是线性的。
线性回归使用最佳拟合直线(也称为回归线)在因变量(Y)和一个或多个自变量(X)之间建立关系。
它由方程Y = a + b * X + e表示,其中a是截距,b是直线的斜率,e是误差项。该等式可以根据给定的预测变量预测目标变量的值。
简单线性回归和多元线性回归之间的区别在于,多元线性回归具有(> 1)个独立变量,而简单线性回归只有1个独立变量。现在的问题是“我们如何获得最佳拟合线?”。
如何获得最佳拟合线(a和b的值)?
这项任务可以通过最小二乘法轻松完成。它是用于拟合回归线的最常用方法。它通过最小化每个数据点到直线的垂直偏差的平方和来计算观测数据的最佳拟合线。因为偏差首先要平方,所以当相加时,正值和负值之间不会抵消。
我们可以使用度量的R平方来评估模型性能 。
逻辑回归方法用于查找事件成功的概率和失败的概率。当因变量本质上是二进制(0/1,真/假,是/否)时,我们应该使用逻辑回归。这里Y值的范围从0到1,它可以用下面的等式表示。
odds = p /(1-p)=事件发生概率/非事件发生概率 ln(赔率)= ln(p /(1-p)) logit(p)= ln(p /(1-p))= b0 + b1X1 + b2X2 + b3X3 .... + bkXk
以上,p是存在感兴趣特征的概率。这时候你应该要问一个问题就是“为什么我们要在等式中使用对数log?”。
由于我们在这里使用的是二项分布(因变量),我们需要选择最适合此分布的链接函数。而且,它是logit函数。在上面的等式中,选择此参数是为了以最大化观察样本值的可能性,而不是最小化平方误差的总和(如在普通回归中一样)。
如果自变量的幂大于1,则回归方程是多项式回归方程。下面的等式表示多项式方程:
Y = A + B * X ^ 2
在这种回归技术中,最佳拟合线不是直线。它是一条与数据点吻合的曲线。
当我们处理多个自变量时,会使用这种形式的回归。在这种技术中,自变量的选择是在自动过程的帮助下完成的,这个过程是不需要人为的去进行干预的。
通过观察R方、t检验和AIC指标等统计值来识别重要变量,可以实现这一壮举。逐步回归基本上适合回归模型,通过基于指定的标准一次一个地添加/删除协变量。下面列出了一些最常用的逐步回归方法:
该建模技术的目的是以最少的预测变量来最大化预测能力。它是处理数据集更高维度的方法之一。
岭回归是一种在数据存在多重共线性(自变量高度相关)时使用的技术。在多重共线性中,即使最小二乘估计(OLS)是无偏的,但它们的方差也很大,这使得观测值偏离真实值。通过在回归估计中增加一定程度的偏差,岭回归可以减少标准误差。
上面,我们看到了线性回归的方程。还记得嘛?它可以表示为:
y = a + b * x
这个方程也有一个误差项。完整的等式变为:
y = a + b * x + e(误差项),[误差项是校正观测值和预测值之间预测误差所需的值] 表示多个自变量,=> y = a + y = a + b1x1 + b2x2 + .... + e。
在线性方程中,预测误差可以分解为两个子分量。首先是由于偏差,第二是由于方差。由于这两个或两个组件中的任何一个,都可能发生预测错误。在这里,我们将讨论由于方差引起的错误。
岭回归通过收缩参数 λ(lambda)解决了多重共线性问题 。看下面的方程。
在这个方程中,我们有两个组成部分。第一个是最小二乘项,另一个是β2 (β平方)总和的λ,其中β是系数。这被添加到最小二乘项,以便缩小参数以具有非常低的方差。
类似于岭回归,Lasso(最小绝对收缩和选择算子)也会对回归系数的绝对大小进行限制。此外,它还能够降低线性回归模型的可变性并提高其准确性。请看下面的方程:
Lasso回归与岭回归的不同之处在于,它在惩罚函数中使用绝对值而不是平方。这导致惩罚(或等效地约束估计值的绝对值的总和)值,从而导致一些参数估计值恰好为零。应用的惩罚越大,估计值就会缩小到绝对零值。这导致从给定的n个变量中进行变量选择。
弹性网络回归是Lasso回归和岭回归技术的混合体。它使用L1和L2先验作为正则化器进行训练。当存在多个相关的特征时,弹性网络是很有用的。Lasso可能随机选择其中一种,而弹性网很可能同时选择两个。
在Lasso回归和岭回归之间进行权衡的一个实际优势是,它允许弹性网络在旋转下继承岭回归的一些稳定性。
当你只知道一两种技术时,生活通常是很简单的。我所知道的其中一个培训机构告诉他们的学生 - 如果结果是连续的 - 那就用线性回归。如果是二进制的 - 那就用逻辑回归!但是,我们可以使用的选项数量越多,选择正确的选项就越困难。回归模型也会发生类似的情况。
在多种类型的回归模型中,基于自变量和因变量的类型,数据中的维度以及数据的其他基本特征来选择最适合的回归方法是很重要的。以下是应该选择正确的回归模型的关键因素:
到现在为止,我希望你已经对回归有所了解。考虑数据条件来应用这些回归技术。找出使用哪种技术的最佳技巧之一就是检查变量族,即离散变量还是连续变量。
在本文中,我讨论了7种类型的回归以及与每种技术相关的一些关键事实。作为这个行业的新人,我建议你学习这些技术,然后在你的模型中实现它们。
-以上就是作者推荐的七种数据科学人必知必会的七种回归模型,如果大家对这七种模型感兴趣,那就自己动手去实验一下吧,只知道理论是不够的,要多动手实验,才能真正的掌握这些模型。
7 Types of Regression Techniques you should know!
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16