为了找出color、rarity、flower number、type of species对price的影响,由此,price为因变量,color、rarity、flower number、type 为自变量。
研究自变量对因变量的影响,可以选用的方法有两种,一种是传统的线性回归模型OLS,另一种是广义线性模型GLM(Generalized Linear Model)。传统模型(OLS)要求因变量服从正态分布,广义线性模型(GLM)则适用的范围更广,不要求因变量一定服从正态分布,并且方差也可以不稳定。
第一步:考察因变量price的分布类型。
基于以上的分析,为了判断应该适用OLS还是使用GLM。需要先对因变量price的分布状况进行分析。首先,检验因变量price是否服从正态分布,检验的结果如下:
Table 1 Tests of Normality
|
Kolmogorov-Smirnova |
Shapiro-Wilk |
||||
|
Statistic |
df |
Sig. |
Statistic |
df |
Sig. |
Price |
.149 |
156 |
.000 |
.818 |
156 |
.000 |
a. Lilliefors Significance Correction |
上表是正态性检验的结果,K-S检验和S-W检验的SIG.全部小于0.05.由此可以知道,因变量price不服从正态分布。因此,研究color、rarity、flower number、type of species对price的影响不能选用传统线性模型(OLS)分析,必须选用GLM模型。
通过price不服从正态分布这一结论,得出必须选用GLM模型之后,还需要进一步找出因变量price到底服从哪种分布。经过尝试,得出因变量price服从Gamma分布。
第二步:GLM分析
确定选用GLM模型和因变量price是服从Gamma分布的,进行GLM分析,结果如下:
Table 2
Case Processing Summary |
||
|
N |
Percent |
Included |
156 |
100.0% |
Excluded |
0 |
0.0% |
Total |
156 |
100.0% |
上表的结果陈述了,参与分析的案例个数为156。
Table 3
Categorical Variable Information |
||||
|
N |
Percent |
||
Factor |
Color |
Green |
30 |
19.2% |
Red |
30 |
19.2% |
||
White |
29 |
18.6% |
||
Black |
30 |
19.2% |
||
Yellow |
22 |
14.1% |
||
Blue |
15 |
9.6% |
||
Total |
156 |
100.0% |
||
Rarity |
Rare |
83 |
53.2% |
|
Commom |
73 |
46.8% |
||
Total |
156 |
100.0% |
||
FlowerNumber |
Single flower |
72 |
46.2% |
|
Multiple flowers |
84 |
53.8% |
||
Total |
156 |
100.0% |
||
TypeofSpecies |
Native species |
61 |
39.1% |
|
First generation hybrids |
42 |
26.9% |
||
Complex hybrids |
53 |
34.0% |
||
Total |
156 |
100.0% |
上表的结果展现了4个自变量中每个类别的选择的人数及其占比。
Table 4
Goodness of Fita |
|||
|
Value |
df |
Value/df |
Deviance |
68.838 |
146 |
.471 |
Scaled Deviance |
166.574 |
146 |
|
Pearson Chi-Square |
68.353 |
146 |
.468 |
Scaled Pearson Chi-Square |
165.400 |
146 |
|
Log Likelihoodb |
-767.832 |
|
|
Akaike's Information Criterion (AIC) |
1557.665 |
|
|
Finite Sample Corrected AIC (AICC) |
1559.498 |
|
|
Bayesian Information Criterion (BIC) |
1591.213 |
|
|
Consistent AIC (CAIC) |
1602.213 |
|
|
Dependent Variable: Price Model: (Intercept), Color, Rarity, FlowerNumber, TypeofSpecies |
|||
a. Information criteria are in small-is-better form. |
|||
b. The full log likelihood function is displayed and used in computing information criteria. |
上表是GLM模型的拟合优度分析结果,拟合优度分析是用于反映模型总体上对数据信息的表达是否充分。Deviance拟合优度检验法和Pearson Chi-Square拟合优度检验法计算出的显著性水平分别为0.471和0.468,均大于0.05,由此可以知道,模型的拟合情况良好,即模型能够比较真实可靠地反映出数据。
来CDA学业务数据分析师,SPSS理论结合实战进行项目数据分析,助你成为从事数据采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才,点击了解课程详情!
数据分析咨询请扫描二维码
CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13在现代银行业中,数字化用户行为分析已成为优化产品和服务、提升客户体验和提高业务效率的重要工具。通过全面的数据采集、深入的 ...
2024-11-13在这个数据飞速增长的时代,企业若想在竞争中占据优势,必须充分利用数据分析优化其营销策略。数据不仅有助于理解市场趋势,还可 ...
2024-11-13数据分析行业的就业趋势显示出多个积极的发展方向。随着大数据和人工智能技术的不断进步,数据分析在各行各业中的应用变得越来越 ...
2024-11-13市场数据分析是一门涉及多种技能和工具的学科,对企业在竞争激烈的市场中保持竞争力至关重要。通过数据分析,企业不仅可以了解当 ...
2024-11-13数据分析与数据挖掘是数据科学领域中两个关键的组成部分,它们各有独特的目标、方法和应用场景。尽管它们经常在实际应用中结合使 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13作为一名业务分析师,你肩负着将业务需求转化为技术解决方案的重任。面试这一角色时,涉及的问题多种多样,涵盖技术技能、分析能 ...
2024-11-13自学数据分析可能看似一项艰巨的任务,尤其在开始时。但是,通过一些策略和方法,你可以系统地学习和掌握数据分析的相关知识和技 ...
2024-11-10Excel是数据分析领域中的一款强大工具,它凭借其灵活的功能和易用的界面,成为了许多数据分析师和从业者的首选。无论是简单的数 ...
2024-11-10在快速发展的商业环境中,数据分析能力已经成为许多行业的核心竞争力。无论是初学者还是经验丰富的专家,搭建一个有效的数据分析 ...
2024-11-10