图书销售综合分析-CDA数据分析师官网

图书销售综合分析

2021-03-08

一、案例综述

案例编号：

101004

案例名称：

零售行业——图书销售综合分析

作者姓名（或单位、或来源）：

刘莎莎

案例所属行业：

h65 零售行业

案例所用软件：

Sas EG

案例包含知识点：

因子分析度量尺度变量转化为有序尺度变量、对应分析回归分析 OLS VIF 方差膨胀因子多重共线性个案选择 logistic回归分析二元选择模型离散因变量模型逐步回归多重贡献性样本外预测样本内预测模型预测随机选择样本过滤变量的生成

案例描述：

零售行业销售数据分析的行业背景。要想在如今的零售环境中获得成功，零售商必须提供卓越的客户体验，出色地运营业务，并创建一个需求驱动的行销和供应链。他们必须满足越来越两极化和专业化的客户需求，这些客户对于服务、选择、质量和价格都抱有很高的期望。而且，他们必须对超出他们控制范围的因素做出响应，这些因素包括竞争威胁、宏观经济趋势和新兴技术等。

建立在零售行业基础的有效数据分析可以更透彻地了解客户行为和购买模式，洞悉消费者的消费偏好，创造向上销售和交叉销售机遇；优化行销水平，尽可能减少脱销情况，并管理库存成本；深入了解关键店铺级指标，例如，销售额、劳动力、库存和客户满意度等；在关键收入和盈利能力目标方面协调公司和店铺运营，当市场条件变化时，快速调整计划和资源分配；通过比较和基准测试店铺、渠道、地区和部门间的绩效，提高成本节约；监控营业额和员工生产力。

本案例通过分析某书店图书销售情况，了解图书销售量的主要影响因素。

数据文件说明：数据文件名字为bookcustomer.xlsx。该数据集记录的是一个图书城的书籍购买记录。每一个订单的记录记为一行，包括客户编号、性别、邮编、距首次购买的月数、距最后一次购买的月数、在图书上的总消费、非书籍产品总消费、总消费、总购买（书籍本书）、购买书籍的分类本数。该数据集共有50000条观测值。

本案例共包含八个知识点。

第1个知识点是Saseg逻辑库的建立和数据的导入，将数据导入saseg。

然后第2个知识点用函数生成新的变量（地区变量和城市变量），从而方便进行后续的计算和分析；

第3个知识点是地区变量的频数统计和总消费量的分地区描述统计，从而对数据进行一个基本的描述统计分析；

第4个知识点是对消费者各类图书购买数量进行相关性分析从而知道哪些书籍具有相关性；

第5个知识点是用RFM模型进行客户画像，从而起到对客户进行分群的目的，以便采用不同的营销策略；

第6个知识点是客户总消费的影响因素分析，检验哪些变量对客户总消费额的影响是显著的。

第7个知识点是对书籍购买本数的分类求和，从而知道哪类书的销售量最高，哪类书的销售量最低，发现h类书籍的销售量（本数）最低。

第8个知识点是关于是否购买h类书的Logistic回归模型，从而知道哪些因素对购买h类书的决策产生影响，进而提高h类书的销售量。

案例执行形式：

单人上机

二、案例知识点

知识点1：

知识点名称：Saseg逻辑库的建立和数据的导入

知识点所属工作角色：

数据导入

知识点背景：

先要将外部数据导入到统计软件中才能进行后续的分析和建模。

知识点描述

将excel数据导入到saseg中，并且将数据保存为sas格式。

知识点关键词：

Excel导入saseg 数据导入

知识点所用软件：

Saseg

操作目的：

将excel数据导入到saseg中。

知识点素材（包括数据）：

bookcustomer.xlsx

操作步骤:

Ø 打开excel文件，查看数据是否符合SAS要求的格式；

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称，点击“下一步”按钮；

Ø 在电脑中选择一个文件夹，将其路径作为逻辑库的路径，单击“下一步”按钮；

Ø 点击“下一步”按钮，点击“完成”按钮，逻辑库就建立成功了，接下来开始导入数据；

Ø 执行“文件”，“导入数据”，选择数据所在文件夹，选中要打开的数据，点击“打开”按钮。在导入数据向导第一步，将输出SAS数据集的逻辑库改为上一步建立的永久逻辑库，点击“下一步”按钮；勾选使用工作表中特定范围内的单元格，选择单元格范围，左上方单元

填A2，右下方单元格选默认，勾选首行范围包含字段名称，点击“下一步”按钮；查看字段属性，若有不符合原数据特征的，进行修改，并为数据加上汉语标签，点击“下一步”按钮；点击“完成”按钮。

操作结果：

将上面生成的sas数据文件保存在文件夹中存为bookcustomer.sas7bdat，以备后续使用。

知识点小结：

想把excel格式数据导入到saseg中，先要将excel数据格式整理成比较标准的格式才不容易出错。

知识点2：

知识点名称：用函数生成新的变量（地区变量和城市变量）

知识点所属工作角色：

变量计算

知识点背景：

有些指标不能直接参与数据分析过程需要对其进行计算整理生成新的变量。

知识点描述

采用函数对变量进行计算生成新的变量。

知识点关键词：

变量计算函数变量名标签

知识点所用软件：

SasEG

操作目的：

对变量进行计算生成新的变量并且给变量添加中文标签。

知识点素材（包括数据）：

bookcustomer.sas7bdat

操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称（比如mylib），点击“下一步”按钮；

Ø 在电脑中选择一个文件夹，将其路径作为逻辑库的路径（保证该路径下面有bookcustomer.sas7bdat这个文件），单击“下一步”按钮；

Ø 点击“下一步”按钮，点击“完成”按钮，逻辑库就建立成功了。

Ø 在左侧的逻辑库里面中找到mylib,然后把该逻辑库下面的bookcustomer.sas7bdat数据集拖入右侧框里面。

Ø 切换到过程流窗口，可以看到数据已经导入进来了，双击数据图标就可以查看数据具体内容。

Ø 右键点击bookconsumer的图标，选择“查询生成器”（在数据表下打开“查询生成器”）。

Ø 将t1表中的数据全部拖入右侧，选择数据部分。

Ø 点击“计算列”，点击“新建”按钮；

Ø 在“选择类型”中点选“高级表达式”，点击“下一步”按钮；

Ø 在“生成高级表达式”中，“输入表达式”部分用“邮编”生成地区名，输入“ZIPNAMEL(t1.zip)”，也可以点选函数和变量名进行选择，其中，ZIPNAMEL函数返回对应于其五位邮政编码参数的州或美属领地的名称。这样就把计算公式写好了。然后点击“下一步”按钮；

Ø 在“修改其他选项”中将标识符和列名全部设为“state”，标签设为“地区”，点击“下一步”按钮；

Ø 点击“完成”按钮；

Ø 在“计算列”对话框中，点击“新建”按钮；

Ø 在“选择类型”中点选“高级表达式”，点击“下一步”按钮；

Ø 在“生成高级表达式”中用“邮编”生成城市名，输入“ZIPCITY(t1.zip) ”，也可以点选函数和变量名进行选择，其中，ZIPCITY函数返回城市名称和对应于邮政编码的双字符州代码。点击“下一步”按钮；

Ø 在“修改其他选项”中将标识符和列名全部设为“city”，标签设为“城市”，点击“下一步”按钮；

Ø 点击“完成”按钮；

Ø 关闭“计算列”对话框；

Ø 将“查询名称”改为“计算地区和城市”，“输出名称改为mylib.bookconsumer1”。

Ø 点击“选项”，将输出数据的标签改为bookconsumer1。

Ø 点击“运行”按钮。

Ø 回到过程流窗口

Ø 双击bookconsumer1的图标，可以查看该数据集里面的数据。

Ø 可以看到state和city两个变量已经生成。

Ø 将这个saseg文件保存为变量计算.egp

操作结果：

将上面整理的结果保存在文件夹中存为bookconsumer1.sas7dbat，以备后续使用。

知识点小结：

如果想生成新的变量需要通过查询生成器的方式来生成。可以对查询结果数据集的名称进行修改方便理解；在生成变量的过程中可以为新变量添加标签。

知识点3：

知识点名称：地区变量的频数统计和总消费量的分地区描述统计

知识点所属工作角色：

数据分析

知识点背景：

对数据进行建模之前通常对数据进行一个基本描述，比如分类变量看下频数分布。数值变量计算均值，标准差等

知识点描述

对变量进行描述性分析。

知识点关键词：

频数统计描述统计均值标准差中位数最小值最大值分类汇总

知识点所用软件：

SasEG

操作目的：

对分类变量进行频数统计；对数值变量进行分类描述统计。

知识点素材（包括数据）：

Bookcustomer1.sas7bdat

操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称（比如mylib），点击“下一步”按钮；

Ø 在电脑中选择一个文件夹，将其路径作为逻辑库的路径（保证该路径下面有bookcustomer1.sas7bdat这个文件），单击“下一步”按钮；

Ø 点击“下一步”按钮，点击“完成”按钮，逻辑库就建立成功了。

Ø 在左侧的逻辑库里面中找到mylib,然后把该逻辑库下面的bookcustomer1.sas7bdat数据集拖入右侧框里面。

Ø 切换到过程流窗口，可以看到数据已经导入进来了，双击数据图标就可以查看数据具体内容。

对一个分类变量进行单因子频数统计

Ø 在数据窗口下，执行“描述”，“单因子频数”命令。在“数据”项下，将“state”拖至“任务角色”框中的“分析变量”下；

Ø 在“统计量”选项下，选择“频数和百分比”，勾选“缺失值”选项框下的“显示频数”和“包含在计算中”两个选项；

Ø 在“结果”选项下，将“输出数据的排序依据”选为“降序频数”；

Ø 在“结果”选项下，勾选“创建带频数和百分比的数据集”。将输出的数据文件的名字存为MYLIB.ONEWAYFREQUENCYOFCITY。

Ø 点击“运行”按钮。

Ø 回到过程流窗口，可以看到数据集和报表都生成了。

Ø 双击“sas报表单因子频数”，可以看到纽约的频数是最多的。

一个数值变量total的分地区描述统计

Ø 回到过程流窗口，打开bookconsumer1数据集。

Ø 执行“描述”，“汇总统计量”命令。

Ø 在“数据”选项卡中，将total拉入分析变量，state拉入分类变量。

Ø 在“统计量”-“基本”选项卡中，保持默认勾选的基础上，勾选“总和”。

Ø 在“统计量”-“百分位数”选项卡中，勾选中位数。

Ø 点击“运行”

可以看到纽约的总消费金额最大，同时纽约的单数也是最多的。从最小值最大值看的话也没有明显的异常值问题。

操作结果：

通过前面的操作我们获得了数据集ONEWAYFREQUENCYOFCITY.sas7dbat，以备后续使用。

知识点小结：

如果想生成新的变量需要通过查询生成器的方式来生成；可以对查询结果数据集的名称进行修改方便理解；在生成变量的过程中可以为新变量添加标签；一般如果变量存在明显异常值得话通过描述统计就可以看出。

知识点4：

知识点名称：消费者各类图书购买数量的相关性分析

知识点所属工作角色：

数据分析

知识点背景：

对于可能存在关系的一些数值变量，通常需要查看其相关系数矩阵。

知识点描述

知识点关键词：

知识点所用软件：

SasEG

操作目的：

对变量进行相关系数分析。

知识点素材（包括数据）：

Bookcustomer1.sas7bdat

操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称（比如mylib），点击“下一步”按钮；

Ø 在电脑中选择一个文件夹，将其路径作为逻辑库的路径（保证该路径下面有bookcustomer1.sas7bdat这个文件），单击“下一步”按钮；

Ø 点击“下一步”按钮，点击“完成”按钮，逻辑库就建立成功了。

Ø 在左侧的逻辑库里面中找到mylib,然后把该逻辑库下面的bookcustomer1.sas7bdat数据集拖入右侧框里面。

Ø 切换到过程流窗口，可以看到数据已经导入进来了，双击数据图标就可以查看数据具体内容。

对一个分类变量进行单因子频数统计

Ø 在数据窗口下，执行“分析”，“多元“，“相关分析”命令。在打开的“相关分析”窗口中，“数据”项下，将“A类”、“B类”、“C类”、“D类”、“E类”、“F类”、“G类”、“H类”拖至“分析变量”；

Ø 在“选项”下，勾选“Pearson”相关系数；

Ø 在结果项下，选择默认设置；

Ø 点击“运行”按钮。

图9.8 Pearson相关系数

根据统计学理论，相关系数绝对值，则认为两个变量显著相关；，则认为两个变量高度相关；，对应的两变量中度相关；，对应的两个变量低度相关；，两个变量关系极弱，不相关。

由相关分析结果可以看出，消费者购买A类图书和购买C类图书低度相关，其他任何两类图书的购买几乎不存在相关关系。因此在图书销售时，可以把A类和C类一起销售，或者推出A类图书和C类图书一起购买的优惠活动。

操作结果：

该知识点的操作没有产生新的数据集，只有报表输出。

知识点小结：

相关系数大小的判别标准在不同行业中是不同的，这里计算的相关系数仅仅是两两相关系数，不考虑其他变量。

知识点5：

知识点名称：用RFM模型进行客户画像

知识点所属工作角色：

数据分析

知识点背景：

客户画像(UserProfile)即给用户打上标签，用一种朴素、简洁的方法来描述用户信息。客户画像可以完美地抽象出一个用户的信息全貌，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。

RFM模型是Bult and Wansbeek于1995年提出来的，认为客户行为三要素 Recency (R)、Frequency (F) 与 Monetary (M)构成了客户购买潜力价值的核心组成部分。该模型经常应用于 CRM 框架下的客户行为分析。

知识点描述

用聚类分析对客户进行画像。

知识点关键词：

聚类分析 FRM

知识点所用软件：

SasEG

操作目的：

对个案进行聚类分析。

知识点素材（包括数据）：

Bookcustomer1.sas7bdat

操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称（比如mylib），点击“下一步”按钮；

Ø 在电脑中选择一个文件夹，将其路径作为逻辑库的路径（保证该路径下面有bookcustomer1.sas7bdat这个文件），单击“下一步”按钮；

Ø 点击“下一步”按钮，点击“完成”按钮，逻辑库就建立成功了。

Ø 在左侧的逻辑库里面中找到mylib,然后把该逻辑库下面的bookcustomer1.sas7bdat数据集拖入右侧框里面。

Ø 切换到过程流窗口，可以看到数据已经导入进来了，双击数据图标就可以查看数据具体内容。

Ø 在要分析的数据表下执行“分析”，“多元”，“聚类分析”命令。在“数据”项下，将“距最后一次购买的月数”、“总够买”、“总消费”、“距首次购买的次数”拖至“任务角色”框中的“分析变量”下；

Ø 在“聚类”项下，选择“K均值算法”，最大聚类数填8；

Ø 在“结果”项下，勾选“显示输出”和“K均值聚类”；将k均值聚类的结果数据集存为Local:mylib.CLKMKMeansDataBOOKCONSUMER1。

Ø 点击“运行”按钮。

可以根据上述的 “聚类均值”输出结果表，参照RFM理论和实际业务情况进行分类，找出具有分析价值的一类或某几类进行更进一步的分析。

操作结果：

将聚类结果保存为数据集CLKMKMeansDataBOOKCONSUMER1.sas7dbat,以备后续使用。

知识点小结：

关于聚类过程中所设定的聚成几类，一般需要根据业务经验而定，不能聚类过多。

知识点6：

知识点名称：客户总消费的影响因素分析

知识点所属工作角色：

数据分析

知识点背景：

我们希望了解影响总消费的因素有哪些，哪些因素是显著的，以便能够提出相应的对策提高消费。

知识点描述

用回归分析研究其他变量对总消费金额的影响是否显著。

知识点关键词：

回归分析

知识点所用软件：

SasEG

操作目的：

估计回归模型。

知识点素材（包括数据）：

Bookcustomer1.sas7bdat

操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称（比如mylib），点击“下一步”按钮；

Ø 在电脑中选择一个文件夹，将其路径作为逻辑库的路径（保证该路径下面有bookcustomer1.sas7bdat这个文件），单击“下一步”按钮；

Ø 点击“下一步”按钮，点击“完成”按钮，逻辑库就建立成功了。

Ø 在左侧的逻辑库里面中找到mylib,然后把该逻辑库下面的bookcustomer1.sas7bdat数据集拖入右侧框里面。

Ø 切换到过程流窗口，可以看到数据已经导入进来了，双击数据图标就可以查看数据具体内容。

Ø 打开数据集，执行“分析”，“回归”，“线性回归”，弹出“线性回归”窗口。在“数据”项下，将“总消费”拖至“因变量”，将“距首次购买的月数”、“距最后一次购买的月数”、“A类”、“B类”、“C类”、“D类”、“E类”、“F类”、“G类”、“H类”拖至“说明变量”；

Ø 在“模型”项下，“模型选择方法”选择默认的“全模型拟合”，其他项均选择默认设置；

Ø 点击“运行”按钮。

由图9.12可知，距首次购买的月数和距最后一次购买的月数这两个变量在0.05的显著水平下是不显著的，因为其P值大于0.05，拒绝原假设，认为对因变量总消费的影响是不显著的。

操作结果：

该知识点的操作没有产生新的数据集。

知识点小结：

回归分析中，解释变量是否显著，需要在给定显著性水平的情况下才能确定。

知识点7：

知识点名称：书籍购买本数的分类求和

知识点所属工作角色：

数据分析

知识点背景：

我们想看各类书籍分别被卖了多少本，从而可以知道哪类书籍比较畅销。

知识点描述

多变量求和。

知识点关键词：

求和

知识点所用软件：

SasEG

操作目的：

多变量求和并画图。

知识点素材（包括数据）：

Bookcustomer1.sas7bdat

操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称（比如mylib），点击“下一步”按钮；

Ø 在电脑中选择一个文件夹，将其路径作为逻辑库的路径（保证该路径下面有bookcustomer1.sas7bdat这个文件），单击“下一步”按钮；

Ø 点击“下一步”按钮，点击“完成”按钮，逻辑库就建立成功了。

Ø 在左侧的逻辑库里面中找到mylib,然后把该逻辑库下面的bookcustomer1.sas7bdat数据集拖入右侧框里面。

Ø 切换到过程流窗口，可以看到数据已经导入进来了，双击数据图标就可以查看数据具体内容。

Ø 打开数据表，点击“查询生成器”，将“A类”、“B类”、“C类”、“D类”、“E类”、“F类”、“G类”、“H类”拖至“选择数据”框中，将“A类”、“B类”、“C类”、“D类”、“E类”、“F类”、“G类”、“H类”其后的汇总统计量选为SUM，汇总组为空，输出名称改为“mylib.sumofclass”。

Ø 点开选项。把标签改为“各类书销售本数”,点击确定。

Ø 点击“运行”按钮。

Ø 双击“各类书销售本数”图表。

Ø 在数据表中，执行“数据”，”转置”。弹出“转置”窗口后，将“A类”、“B类”、“C类”、“D类”、“E类”、“F类”、“G类”、“H类”拖至“转置变量”下，点击“运行”按钮。

Ø 点开“结果”选项卡。把输出数据集的名称改为MYLIB.sumofclass_1。

Ø 点击运行按钮

Ø 在转置所得的数据表中，双击数据单元格，将数据切换至更新模式，选中“列1”右键单击“属性”，将名称和标签改为“购买本数”；选中“源”，右键单击“属性”，将名称和标签改为“书目大类”。

可以看到c类书目销售最多，h类销售最少。

Ø 在上面的数据窗口点击“图形”，“条形图”。在“条形图”选项卡页面，选择“简单垂直条形图”；在“数据”选项卡页面，将“书目大类”拉入要绘图的列，把“购买本数”拉入“总和”，如下图所示。

Ø 点击“运行”

操作结果：

将过程中生成的数据集sumofclass.sas7dbat和sumofclass.sas7dbat_1进行保存,以备后续使用。

知识点小结：

在数据窗口可以对变量名字和标签进行修改，也可以对数据进行转置操作从而形成新的数据集。

知识点8：

知识点名称：是否购买h类书的Logistic回归模型

知识点所属工作角色：

数据分析

知识点背景：

我们想研究哪些变量对是否购买h类书的决策产生影响。

知识点描述

如果被解释变量只有0，1两个取值，这样的离散被解释变量不再适合普通的回归，需要采用logistic回归进行分析。

知识点关键词：

logistic回归分析二元选择模型离散因变量模型变量计算哑变量生成

知识点所用软件：

SasEG

操作目的：

构建logistic回归模型。

知识点素材（包括数据）：

Bookcustomer1.sas7bdat

操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称（比如mylib），点击“下一步”按钮；

Ø 在电脑中选择一个文件夹，将其路径作为逻辑库的路径（保证该路径下面有bookcustomer1.sas7bdat这个文件），单击“下一步”按钮；

Ø 点击“下一步”按钮，点击“完成”按钮，逻辑库就建立成功了。

Ø 在左侧的逻辑库里面中找到mylib,然后把该逻辑库下面的bookcustomer1.sas7bdat数据集拖入右侧框里面。

Ø 切换到过程流窗口，可以看到数据已经导入进来了，双击数据图标就可以查看数据具体内容。

Ø 在数据表bookconusmer1下打开“查询生成器”，将输出名称改为MYLIB.BOOKCONSUMER2。

Ø 点开“选项”，在“结果”选项卡中将“标签”改为“BOOKCONSUMER2”。

Ø “选择数据”部分选择全部数据，点击左上角的“计算列”，打开计算列窗口，点击“新建”新建“计算列”。在第一步选择类型中点选“重新码列”；

Ø 在“选择列”中选择H类（classH），点击“下一步”按钮；

Ø 在“指定替换”中“添加”替换。

Ø 选择“替换条件”选项卡中，classH大于0使用值1，勾选“该值的两侧应加等号”，点击“确定”按钮；

Ø 按照同样的方法添加classH等于0使用值0的条件。

Ø “列类型”设为“字符”，添加完成后，点击“下一步”按钮；

Ø 在“修改其他选项”中将“标识符和列名”全部设为H_as_Y，“标签”设置为“是否购买H类书籍”，格式设置为$CHAR12，点击“下一步”按钮；

Ø 点击“完成”按钮；

Ø 关闭计算列窗口，点击“运行”按钮。

Ø 在上步生成的数据中，执行“分析”，“回归”，“Logistic回归”。

Ø 在“Logistic回归”窗口中，“数据”选项卡下，将“是否购买H类书籍”拖至因变量，将“距首次购买的月数”、“距最后一次购买的月数”、“总购买”、“在图书上的总消费”、“在非书籍产品总消费”拖至“数量变量”，将“性别”和“地区”拖至“分类变量”，“性别”和“地区”的“编码样式”选择“引用”；

Ø 在“模型”—“响应”项下，“针对该水平拟合模型”选“1”，其他选默认；

Ø 在“模型”—“效应”项下，将全部变量设置为“主效应”，勾选“包含截距”；其他项选择默认。

Ø 在“图形”选项卡下，取消“为回归分析显示图形”的勾选。

Ø 点击“运行”按钮。

这部分给出的是虚拟变量定义方式。

这部分给出的是H类Logistic回归最大似然估计值结果。结合上面两个表格我们可以得出一些结论。在5%显著性水平下，first变量对是否购买h类书籍无显著影响。last和purch变量对是否购买h类书籍有显著正影响,即这两个变量越大，购买h类书的可能性越大。book和nonbook变量对是否购买h类书籍有显著负影响,即这两个变量越大，购买h类书的可能性越小。Gender中F变量前面的系数显著为正，说明男生和女生相比购买h类书的可能性要大。State中Connecticut、 Delaware、 District of Columbia、 Maine、 Maryland、 Massachusetts、 New Hampshire、 New Jersey、 New York、 Pennsylvania、 Rhode Island、 Vermont这几个区或者州系数显著为正，说明这几个州和virginia州相比，要比virginia州的人购买h类书籍的可能性要大。

Virgin islands州前面的系数不显著，说明这个州和virginia州相比对h类书籍购买的可能性没有显著区别。

操作结果：

将过程中生成的数据集bookconsumer2.sas7dbat进行保存,以备后续使用。

知识点小结：

无论是logistic回归还是普通回归，如果解释变量中包含分类变量的话，需要先将其变为虚拟变量再参与参数计算，注意虚拟变量前面系数的解释。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析条形图字段线性回归特征统计分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇上市公司财务指标综合分析

下一篇银行数据宽表构建和描述分析