京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何使用线性回归分析来预测发电厂的发电量
在这篇文章中,我将会教大家如何通过拟合一个线性回归模型来预测联合循环发电厂(CCPP)的发电量。这个数据集则来自于UCI Machine Learning Repository。这个数据集包含5列,也就是说,它包含环境温度(AT)、环境压力(AP)、相对湿度(RH)、抽真空(EV)已经发电厂的电网每小时的发电量。前面4个变量作为属性,最后一个则作为因变量。
由于数据是xlsx格式,我们需要xlsx包。我们将提取数据文件中的第一个表格。
接下来,我们需要把数据集分成训练数据集和测试数据集。就像它们的名字所暗示的那样,训练数据集用于训练和建立模型,然后使用测试数据集对模型进行测试。现在,我们把75%的数据集作为训练数据集,和25%的数据作为测试数据集。我们可以按照下面的步骤操作:
现在,让我解释一下上面每一条指令所代表的含义。
第一,我们使用set.seed()函数使得数据具有可重复性。
然后,我们创建一个序列,使得它整个的长度等于数据集的行数。这些数字则作为这个数据集的索引。我们随机的从序列中选择75%的数据并把它存放到变量split中。
最后,我们把索引数组里所隐含的所有的行都复制到训练数据集中,把剩下的数据则放到测试数据集中。
现在,让我们预测一下这个模型。我们会使用lm()函数。
上面的这个函数将会尝试从AP、V、AP和RH来推测PE。由于我们使用了数据集里的所有变量,一个更简短的代码为(如果这个数据集的变量非常多,这样写效果会很不错):
我们现在用summary()来汇总一下这个模型:
这样帮助我们决定哪些变量在这个模型中具有相关性。一个线性模型的表达式可以写成 y_i = β_1 x_i1 + β_2 x_i2 + β_3 x_i3 + ⋯ + ε,其中y_i代表模型的预测输出,即因变量(PE)的预测值,而x_i则代表各个变量属性(AT、V、AP和RH),而β则代表系数,ε代表一个常数项。
summary的第一行,它列举了一些预测值。第一个值与ε有关,而剩下的则为各种属性变量的系数,如果这些系数为0或者接近0,说明这几个变量对预测几乎没有什么影响。因此, 我们需要把它们剔除掉。表示残差的那一列给出了一些估计值,表明了这些系数的变化幅度有多大。t值通过划分标准差列而计算出来的估计值。最后一列则预测这些系数(p(>|t|)的可能性,它与t值成反比。预测,一个属性计算出较高的t值或是较低的Pr(>|t|)的绝对值是可以接受的。
想要判断哪些变量具有较强的相关性,我们则可以通过观察它们的星星数进行判断。后面带三颗星的表明这种变量相关性最强。接下来是两颗星,最不想关的则为一颗星。变量的特征本身是否重要则通常没有被包含到预测模型的预测当中,如何这个变量与其它毫不相干,则这些变量都不重要了。
在我们的模型中,我们可以看到所有变量都重要。当你要处理一个数据集,这里含有多个不想关的变量的时候,建议在此同时先把无关变量删去。这时因为变量之间是高度相关的,其它则可能是显著的。这就归于它的多重共线性。你可以在这里找到更多关于多重共线性的内容。
想要知道模型的精度,最简单的方法就是查看它的判定系数。summary里提供了两个判定系数,即多重判定系数和调整判定系数。多重判定系数的计算过程如下:
多元判定系数=1-SSE/SST,其中:
SSE代表残差平方和。残差就是预测值与真实值之间的差,并可以由predictionModel$residuals来估算。
SST就是总平方和。它可以由真实值和均值之差的平方和计算出来。
比如说,我们有5、6、7和8这4个数,而模型的预测值分别为4.5,6.3,7.2和7.9。
然后,SSE可以这样计算:SSE = (5 – 4.5) ^ 2 + (6 – 6.3) ^ 2 + (7 – 7.2) ^ 2 + (8 – 7.9) ^ 2,而SST则要这样计算:mean = (5 + 6 + 7 + 8) / 4 = 6.5; SST = (5 – 6.5) ^ 2 + (6 – 6.5) ^ 2 + (7 – 6.5) ^ 2 + (8 – 6.5) ^ 2。
调整判定系数和多重判定系数很相似,但是它由变量的个数来决定。这意味着,在预测模型中,每增加一个变量,其调整判定系数也随之增加。但是,如果一个变量在预测模型中显示不相关,调整判定系数也会下降。关于更多判定系数的信息,请看这里。
调整判定系数为1的时候意味着,这是一个完美的预测模型;如果它为0,说明它没有在基准模型上有任何提高(基准模型就是预测它总与均值相等)。从summary来看,我们看到判定系数为0.9284,相当高了
现在,我们使用测试数据集来预测模型了。
现在,观察一下最初几个预测值,并与测试数据集上的PE的真实值作比较:
对于PE的真实值为444.37,我们的预测值为440.0433,而对于446.48,其预测值为450.5260,以此类推。
我们可以基于上面的利用测试数据集而模拟出的模型来计算其判定系数:
这里,我们来到了文章的末尾。我希望你能在此感到很享受,找到了它的价值。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04在数字化时代,数据挖掘不再是实验室里的技术探索,而是驱动商业决策的核心能力 —— 它能从海量数据中挖掘出 “降低成本、提升 ...
2025-11-04在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28