一、案例综述
案例编号:
102002
案例名称:
零售行业——电商女装销量描述与分析
作者姓名(或单位、或来源):
朱江
案例所属行业:
F523 纺织、服装及日用品专门零售
案例所用软件:
Rstudio
案例包含知识点:
案例描述:
目前网络购物异常的火爆,发展迅猛,基于数据分析的
精准营销需求也随之增加。目前网络购物的几个特点是:私人消费增长中网络消费占的比重越来越大;移动端购物占网络购物的比例越来越大。
目前服装行业的最大类目是女装行业,不难理解相比于男装女装更新速度快、受众广以及品类多样,而女装行业中销售额占比最高的5个子类依次是:连衣裙、T恤、衬衫、休闲裤及毛针织衫。
于是我们针对连衣裙零售业,从某线上购物网站获得月销售量不低于99笔的连衣裙商品信息,共有5880个商品,每个商品包含自身的一些属性、交易信息、商品所属店铺的信息以及评价信息。
通过这些商品信息,我们可以进一步分析畅销连衣裙有什么共性,即有什么样性质的服装会更容易畅销,销量跟什么因素相关。借此我们可以把握整个市场的宏观
特征,发掘高销量服装共性,找到影响销量的显著因素,并且量化这些显著因素。从而指导卖家更合理有效的捕捉流行趋势、定位市场、合理管理库存以及更改营销策略。
数据文件说明:原始文件是从某线上购物网站获得的经过处理的99个csv文件,这些文件包含所有六千个左右商品的信息,包含16个
特征,可以分为三大类:
1.无用
特征:数据获取日期、获取时间、商品id、店铺名、平均价格、评论数、店铺半年内动态评分、累计评价汇总。
2.商品相关信息:商品名称、商品价格、产品描述、月销量。
3.店铺信息、店铺评分。
无用
特征中有些是基本不含有有价值信息的
特征如时间、id、店铺名、平均价格,有些是重复且难以抽取有用信息的
特征例如店铺动态评分,有些是预测后才能产品推行后才能获得的数据例如评论数、累计评价汇总。由于我们的目的是在产品推行前给出合理的建议提高产品销量,这些产品推行后的信息要么无法改善要么很难量化,故而归为无用
特征。
本案例包含如下知识点:
1.读取多个同格式的数据文件,并且合并
2.数据筛选,主要是字符变量的处理和关键信息提取
3.制作词云
4.根据关键词生成新数据
案例执行形式:
单人上机
二、案例知识点:
知识点1:
知识点名称:R读入多个数据文件并且合并
知识点所属工作角色:
数据导入
知识点背景:
使用R同时导入多个相同格式的csv文件,并且横向合并这些文件
知识点描述
与读入单个文件不同,读入多个文件需要先列出所有要读取的对象,然后采用apply函数族循环读取,再讲读取结果合并
知识点关键词:
知识点所用软件:
Rstudio
操作目的:
R读取多个csv文件并合并
知识点素材(包括数据):
tmall1.csv,tmall2.csv,tmall3.csv,……,tmall98.csv
操作步骤:
1.启动Rstudio
2.将数据文件夹Text3拷贝至工作目录下,设置当前工作目录到Text3文件夹
3.清空当前全局环境中存储的所有变量,释放内存空间
4.列出工作目录下包含的所有文件的文件名,注意这里要通过
正则表达式指定读取的文件名格式
5.通过apply函数族循环读取列出的所有文件名,并且放在一个列表中
6.将列表中所有的元素横向合并,注意这里使用到do.call函数
7.将读取的文件写入”total.csv”
操作结果:
存储在内存中的数据框如上图,并且得到包含所有数据的total.csv文件
将R代码文件保存为readdata.R以备后续使用。
知识点小结:
本案例巧妙的通过提取文件名并且运用apply函数族简单快读的读取了多个数据文件到一个列表中,并且在避免循环的前提下使用do.call合并了所有数据
知识点2:
知识点名称:数据筛选
知识点所属工作角色:
知识点背景:
1.对缺失值进行处理
2.从字符串中提取有用信息
3.根据之后描述性分析、探索性分析及建模需求,对数据进行合理的转化和处理,使得数据更具解释性
知识点描述
1.去除带缺失值的行
2.从字符串中提取有用信息
3.采用函数对变量进行计算生成新的变量。
知识点关键词:
知识点所用软件:
Rstudio
操作目的:
1.处理缺失值
2.从字符串中提取有用信息
3.因子变量标签转换,生成新的因子变量
知识点素材(包括数据):
total.csv
操作步骤:
1.启动Rstudio
2.读取数据total.csv
3.提取价格变量,提取销量变量中的数字,去除缺失值
4.去掉没有描述的商品,赋值给新的变量
5.分割产品描述,以回车和冒号分割
6.剔除非年龄信息
7.提取年龄
8.保存数据到csv文件
操作结果:
剔除了空元素在的行,通过字符变量处理生成了年龄变量
保存到新的数据文件
知识点小结:
一般从网站获取的数据都不够规整,如果获取大段的文字信息在一个观测中,字符处理就需要尽量全面的考虑所有情况,也要细致的核对结果。
包含大量字符的数据框写入csv文件时可能需要将所有数据统一转换为字符格式。
知识点3:
知识点名称:制作词云
知识点所属工作角色:
词云
知识点背景:
在处理一系列文本信息或者字符信息对应的词频分布时,词云这种描述方式显得非常直观易懂,能够清晰的分辨出前几个重要词以及次重要词
知识点描述
词云 描述性分析
知识点关键词:
词云 描述性分析
知识点所用软件:
Rstudio
操作目的:
删除非中文字符及关键词
制作词云
知识点素材(包括数据):
totalold.csv
操作步骤:
1.读取文件,提取商品名称所在的向量
2.删除非中文字符
3.结巴分词,查看词频
4.去除无意义关键词
5.选择色系,字体,绘制词云
操作结果:
绘制词云得到词云图,从中找到关键标签,每次词云显示的效果不同,最好多做几次取标签,结果如下
提取六个关键标签:新款、修身、韩版、中长款、显瘦、印花。选择若干进行后续分析。
知识点小结:
词云分析一般先要对字符型变量进行清洗,分词,根据停用词词典去词,找到词频分布,然后根据词分布做词云图
知识点4:
知识点名称:提取关键词生成新数据
知识点所属工作角色:
知识点背景:
提取关键词生成新变量
知识点描述
知识点关键词:
分词 生成新变量
知识点所用软件:
Rstudio
操作目的:
提取关键词生成新变量
知识点素材(包括数据):
totalold.csv
操作步骤:
1.读取数据
2.提取商品名称列,删去非中文字符,分词,使用分号隔开
3.在商品中提取关键词“韩版”,包含“韩版”的商品标记为1,其他为0,生成新变量“是否韩版”。对于其他关键词:“新款”、“显瘦”、“中长款”、“印花”、“修身”同理
4.提取销量中的数字,根据需要的变量生成新的数据框
5.将数据写入totalold.csv和keywords.csv
操作结果:
知识点小结:
通过
数据清洗,提取关键词生成新变量的过程,可以生成规整清洗的新的数据表格,方便之后的描述和推断。
知识点5:
知识点名称:描述性分析
知识点所属工作角色:
描述性分析
知识点背景:
描述性分析的目标主要在于描述数据集的大致变化趋势和相关关系
知识点描述
描述性分析
知识点关键词:
描述性分析 ggplot2
知识点所用软件:
Rstudio
操作目的:
通过描述性分析分析销量的分布情况以及各销量对票房的影响
知识点素材(包括数据):
totalold.csv
keywords.csv
total.csv
操作步骤:
1.读取数据
2.提取销量和价格,查看销量分布,去除不关心的小于100销量的产品,对销量重新分区,ggplot2绘图观察
可见月销量在100至150件之间的连衣裙占比34.8%,分布明显右偏,月销量高于250的商品数量分布相对比较平均
3.将价格这一连续变量离散化,使用ggplot2制图
4.绘制年龄和对数销售量的条件箱线图
其中:箱体宽度代表不同年龄层的商品数量比较;25-29周岁年龄群对应的商品数量居多(57.8%),高销量商品也较多;青少年及老年消费者对应的商品数量较少,但是平均销量高,值得关注;各个年龄层之间的销售量没有明显差异。
5.观察是否显瘦和销量分别在全年龄段和25-29年龄段上的关系,分别做两个条件箱线图,并且放在一张图上
可见:“显瘦”特质在整体上对销量有一定的促进作用;25-29周岁年龄群的女性“显瘦”特质的促进作用较为显著
6.观察是否新款和销量分别在全年龄段、25-29年龄段上以及35-39年龄段上的关系,分别做三个条件箱线图,并且放在一张图上
其中,“新款”特质在整体上对销量有一定的促进作用,25-29周岁年龄群的女性更加偏好该特质,35-39周岁年龄群的女性对该特质无感甚至有轻微的负面反应。
7.观察是否中长款和销量分别在全年龄段、18-24年龄段上以及40-49年龄段上的关系,分别做三个条件箱线图,并且放在一张图上
可见,“中长款”特质对销量的促进作用相较之前明显更好些,18-24周岁的青年人群中尤为受欢迎,40-49周岁年龄群的女性对该特质仍有一定的好感但是特质影响明显小些
8.观察是否韩版和销量分别在全年龄段、18-24年龄段上以及35-39年龄段上的关系,分别做三个条件箱线图,并且放在一张图上
可见,“韩版”特质对销量有明显的正向影响,35-39周岁年龄群的女性尤为畅销,18-24周岁年龄群的女性对该特质无感。
9.通过上面对商品属性的特定
特征描述性分析,可以得到如下几个小结:
i.月销量100-200笔的商品数量较多,且随着商品单价的上升有下降趋势
ii.各年龄层的平均销量差异并不明显,25-29周岁年龄层消费的商品数量较多
iii.从商品名称中提取关键标签,发现“显瘦”、“新款”、“中长款”、“韩版”特质整体对销量都有不同程度的积极作用。并且不同年龄层对销量的影响不同
10.读取原始数据total.csv,使用
正则表达式提取地点(市)的关键词,并且只保留商家较多的市
11.构建地点和销量数据集,并且通过中位数调整地点数据,排序
12.绘制地点销量图
其中,武汉的商品是最少的(0.88%),但是商品平均销量最高;杭州商品数量最多(24.4%)且平均销量较高,优势较明显;广州、深圳,尤其是上海商品数量较多但是平均销量却一般
13.观察开店时间对销量的影响,先提取数据,在生成新的年份向量,最后制图
14.观察物流、服务、描述评分与销量的箱线图,去除缺失值,将评分因子化,合并4.6以下的评分
可见,店铺各项评分均较大程度的集中在4.7或4.8;评分4.7的店铺平均销量最高;店铺评分低于4.7的商品数量较少且月销量较低
操作结果:
见操作步骤中每一部分的输出图形
小结:
1.武汉、东莞等少数城市虽然商品数量较少但是商品销量却居全国前列
2.杭州商品数量最多(24.4%)且平均销量较高,属于热点城市
3.店铺成立时间对销量不会产生明显的影响
4.高销量连衣裙所属的店铺评分集中在4.7和4.8,其中4.7的店铺平均销量最高,评分4.7以下的店铺商品销量较少(很难达到100以上),很难入选该数据集
知识点小结:
通过数据描述性分析过程可以很直观的得到一些基本的结论,这些结论能够很好的帮助我们发现数据之间的内在关系
知识点6:
知识点所属工作角色:
多元回归分析
知识点背景:
2.得到系数并且进行初步的观察和解释
3.加入交互项改善模型拟合度
知识点描述
知识点关键词:
知识点所用软件:
Rstudio
操作目的:
2.得到系数并且进行初步的观察和解释
3.加入交互项改善模型拟合度
知识点素材(包括数据):
totalold.csv
操作步骤:
1.读取数据,生成用于建模的新数据表格
用于分析的数据说明如下
2.回归分析
结果分析:
R-squared: 0.05463,Adjusted R-squared: 0.05353。可见预测性很差。参考价值仅在于相关性不在于预测性。
模型总结(显著性水平选择0.05):
1.价格对销量有负面影响,符合预期。由于价格和销量均经过取对数处理,则对应的回归系数体现了销量对价格的弹性,即价格增长1%,连衣裙月销量相应的减少约0.234%
2.“韩版”、“新款”、“显瘦”、“中长款”均对销量有正面影响,其中“中长款”、“显瘦”对销量影响较为明显,“中长款”特质能有效提高约销量月12.4%;“显瘦”特质提高11.6%。对应回归系数体现销量的增长率
3.年龄和“是否新款”对销量的影响并不是很显著
4.基于描述性分析的判断,考虑加入年龄和各项标签的交互项
5.加入交互项后,变量描述如下
进行回归分析如下
结果分析:
R-squared: 0.05791,Adjusted R-squared: 0.0560。可见拟合优度并没有增加多少。参考价值仅在于相关性不在于预测性。
模型总结(显著性水平选择0.05):
1.价格对月销量的影响与未交交互项时基本一致
2.年龄、“新款”对销量无影响
3.“显瘦”、“中长款”对销量的正面影响依旧显著,且相较之前系数变大即影响作用增强。“显瘦”会根据年龄层不同对销量产生不同影响,随着年龄的增加,“显瘦”对销量的影响作用减弱。
4.“中长款”随着年龄的变化对销量无影响
5.“韩版”在加入交互项后对销量产生负面影响,但是随着年龄的的增长对销量的影响作用增强
综上得到的结论
1.对商品标签进行词云分析能够提取对销量有显著影响的因素:显瘦、韩版、新款、中长款。回归分析近一步将其效应化
2.以上商品属性对销量的影响均会随适用年龄层的变化而变化,通常25-29周岁和35-39周岁年龄层对其最为敏感,具体量化指标由回归分析中的交互项系数体现
3.商品所在店铺信息对商品销量亦有预测作用:并非店铺评分越高商品销量越高,高销量易集中在中档评分;同时可观察到店铺所在地与商品销量的相关性,可进一步考察典型城市
操作结果:
见操作步骤中的总结部分
知识点小结:
多元回归分析只是众多
有监督预测方式的一种,由于存在线性假设,而线性假设在现实中并不常见,所以这里加入了交互项,而效果一遍,需要进一步通过残差分析,当拟合优度较差的时候预测性就会变得很差,只能说明相关性,不适于预测。
CDA数据分析师考试相关入口一览(建议收藏):
▷ 想报名CDA认证考试,点击>>>
“CDA报名”
了解CDA考试详情;
▷ 想加入CDA考试题库,点击>>> “CDA题库” 了解CDA考试详情;
▷ 想学习CDA考试教材,点击>>> “CDA教材” 了解CDA考试详情;
▷ 想查询CDA考试成绩,点击>>> “CDA成绩” 了解CDA考试详情;
▷ 想了解CDA考试含金量,点击>>> “CDA含金量” 了解CDA考试详情;
▷ 想获取CDA考试时间/费用/条件/大纲/通过率,点击 >>>“CDA考试官网” 了解CDA考试详情;