101002
电商行业——淘宝大规模网店综合分析
刘莎莎
H633纺织、服装及日用品
Sas EG Sas EM
CSV导入saseg 数据导入 表格合并 数据整理 数据筛选 变量`计算 频数统计
RFM模型 聚类分析 sas编程 关联规则
电子商务是指在各种形式的网络上,包括企业内网、局域网和互联网上以电子行式,进行交易活动和系列服务的行为,是依托于互联网技术的新型电子化商业活动。电子商务内容分为两部分,电子操作和商务贸易活动。利用电子技术,为买卖双方提供无距离限制的便捷贸易服务。电子商务紧密联系生产商和分销商,为客户提供更便捷的高性价比产品,推动了市场资源的全球合理化配置。
在大数据时代,电子商务得到了迅猛发展,电商企业如雨后春笋般出现。与传统的线下销售的企业相比较,电商企业具有的优势和经济价值的资源是爆炸性增长的数据。以天猫为例,根据互联网研究中心的数据显示,截至2014年第一季度,天猫的注册用户已经达到5 亿人次,在线商品的销售数量达到 9亿,天猫的活跃买家已经超过了2.5亿,平均每个购买活跃买家的购买数量达到了 50单以上,页面的浏览量已超过京东的3倍,拥有 22亿的超大规模,每天产品的讯息达到 5亿条。
面对如此海量的信息,数据分析、数据挖掘技术可以帮助电商企业在海量的数据中提取有价值的数据,这些数据有些用来分析消费者购买商品的规律和趋势,还可以帮助电商企业实现未来规划提出可行性报告。
此案例所用数据集来自于一个淘宝网店,属于电商行业,店主想通过数据分析提供一些管理或者销售思路,提高销售业绩。
该数据集记录的是该电商2013年一年的销售记录情况,共有四个csv文件,对应一年中的四个时间段。20130101-20130502.csv数据集中有26804条观测值,20130502-20130730.csv数据集中有32676条观测值,20130730-20131030.csv数据集中有30452条观测值,20131030-20131230.csv数据集中有30828条观测值。
第1个知识点将4个csv文件导入到sas软件中,并且保存为4个sas数据文件。
第2个知识点是对数据进行初步加工处理。将4个sas数据文件合并为一个大的数据文件,并且将合并后的数据文件保存为originaldata.sas7bdat;
第3个知识点将originaldata.sas7bdat数据集分成两部分,交易成功的数据和交易失败的数据,分别保存为success.sas7bdat和closedata.sas7bdat。
第4个知识点在success.sas7bdat基础上,删掉补邮费或差价的订单,将数据保存为shaixuan1.sas7bdat;
第5个知识点在shaixuan1.sas7bdat基础上,筛选出实际支付金额大于5的订单,将数据保存为shaixuan2.sas7bdat;
第6个知识点在shaixuan2.sas7bdat基础上,删掉退款类订单,将数据保存为shaixuan3.sas7bdat;
第7个知识点在shaixuan3.sas7bdat基础上,删除购买频率大于25的买家的订单,将最终的数据保存为finaldata.sas7bdat;
第8个知识点是在finaldata.sas7bdat数据集的基础之上进行的统计分析,各省交易的订单分布情况。
第9个知识点是对交易失败的订单进行分析。先是在originaldata.sas7bdat, success.sas7bdat, closedata.sas7bdat基础之上,分析了交易失败订单在总订单中占得比例。然后在closedata.sas7bdat基础之上,对交易失败的订单的失败原因进行了频数分析。
第10个知识点是在finaldata.sas7bdat数据集的基础之上进行进一步的计算,然后用RFM模型对客户进行画像分析,从而找到最有价值的客户。
第11个知识点在finaldata.sas7bdat数据集的基础之上进行进一步的加工,然后用SASEM模块对数据进行关联规则分析,从而可以发现一些推荐规则。
单人上机
数据导入
先要将外部数据导入到统计软件中才能进行后续的分析和建模。
将CSV数据导入到saseg中,并且将数据保存为sas格式。
CSV导入saseg 数据导入
Saseg
将CSV数据导入到saseg中。
20130101-20130502.csv数据集中有26804条观测值,20130502-20130730.csv数据集中有32676条观测值,20130730-20131030.csv数据集中有30452条观测值,20131030-20131230.csv数据集中有30828条观测值。
Ø 将本书所提供的淘宝数据文件夹中4个csv文件导入SAS。
Ø 操作步骤:
1) 新建逻辑库
Ø 执行“工具”,“分配项目逻辑库”输入8个字符以内的英文名称,如“MYLIB”,点击“下一步”;在电脑中选择一个文件夹,将其路径作为逻辑库的路径,如“E:***”单击“下一步”;
Ø 单击“下一步”,点击“完成”按钮。
图1分配项目逻辑库
2) 在逻辑库中依次导入四个csv文件
Ø 执行“文件”,“导入数据”,选择数据所在文件夹,选中要打开的数据,打开。
图2导入数据
Ø 在导入数据向导第一步,将输出SAS数据集的逻辑库改为上一步建立的永久逻辑库MYLIB,点击“下一步”按钮。
图3导入数据指定数据
Ø 勾选“重命名列以遵守SAS命名规则”,其他选默认,勾选首行范围包含字段名称,点击”下一步”按钮;
图4导入数据选择数据源
Ø 查看字段属性,若有不符合原数据特征的,进行修改,此处将订单编号类型改为字符串,点击“下一步”按钮;
Ø 点击“完成”按钮。
Ø 其他三个文件的数据导入同上。
Ø 除了前面需要注意的情况外,在导入第三张表格的时候,需要将第12列的类型改为数字。否则无法进行后面的表格合并。
将上面生成的sas数据文件保存在文件夹中存为_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat,以备后续使用。
想把csv格式数据导入到saseg中,先要将csv数据格式整理成比较标准的格式才不容易出错,如果csv文件是从数据库中导出的通常格式比较正常。
数据整理
我们需要将多个表格进行纵向合并,因为这些表格结构一样,只是时间不同,我们需要将其合并进行后续的分析和整理。
将多个sas数据文件合并为一个sas数据文件。
表格合并 数据整理
Saseg
将多个数据集合并为一个数据集。
_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat。
观察数据我们发现,四个数据为这家网店在2013年不同月份的订单情况,因此为方便以后分析,首先将四个表进行合并,此处进行追加表操作。
操作步骤:
Ø 查看四张表的列名是否一致。单击菜单栏最右侧的“属性”选项,在弹出的“属性”对话框中,点击“列”选项,可以看到列名。
图5查看数据属性
经查看四张表列名一致。
Ø 在工作区双击打开第一张表,在表上方的选项卡中,单击“数据”,选择 “追加表”;
图6追加表
Ø 在打开的“追加表”对话框中选择“添加表”,将其他三个表添加进去,最后单击“运行”按钮。合并后的数据文件存为数据集 originaldata.sas7bdat。
Ø 订单编号的表示方式为科学计数法,需要将其改为正常格式,只需右键单击“订单编号”变量,点击“属性”, 将“输出格式”改为“NLBESTw.d”。总宽度设定为17,小数位数为0。
Ø
将上面生成的sas数据文件保存在文件夹中存为originaldata.sas7bdat,以备后续使用。
将多个数据集合进行纵向合并要保证,多个数据文件结构一致。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
把交易成功的数据筛选出来。
数据筛选
SasEG
对数据进行筛选,将数据分为交易成功和交易失败的两部分。
originaldata.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的original数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中original数据集的图标 ,即可查看里面的数据。
Ø 在original窗口,点击查询生成器。把t1整个拉入右侧数据框,见下图。
图查询生成器窗口
Ø 单击“过滤数据“框,将“订单状态”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“等于”,选择“获取值”,单击“交易成功”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“选项”
Ø 输出名称改为mylib.success,标签改为success
Ø 点击“运行”按钮。
筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161。交易失败的查询过程和成功的查询过程相近,这里不再累述。
将去掉交易关闭数据之后的记录存为数据集success.sas7bdat(95596条观测)。将关闭交易的数据保存在closedata.sas7bdat(25161条观测)中。
将该知识点中产生的数据集success.sas7bdat,closedata.sas7bdat保存起来,以为后续使用。
筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
通过生成新变量的方式删掉补邮费或差价的订单。
数据筛选
SasEG
对数据进行筛选,删掉补邮费或差价的订单。
success.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的success数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中success数据集的图标 ,即可查看里面的数据。
通过观察我们发现宝贝标题里面没有出现商品编码(即没有出现符号“-”)的单子都属于纯粹的邮费/运费/差价,需要删掉。
Ø 在success数据集窗口中,点击查询生成器,将success数据集里面的变量全部拉入数据框。
Ø 点击过滤数据选项卡,点击新建过滤器,选择高级过滤器,在输入过滤器窗口中输入表达式:(find(t1.'宝贝标题'n,“- "))<>0,点击下一步,点击完成。
Ø 点击对数据排序选项卡,让数据按照实际支付金额进行升序排序。
Ø 点击运行。将输出名称改为mylib.shaixuan1,标签改为shaixuan1
Ø 输入结果见图
图9 查询器结果
将筛选后的观测值存为数据集shaixuan1.sas7bdat。筛选后的数据量为94665,原数据success量为95596,所以,邮费或者差价订单大概931单。
将该知识点中产生的数据集shaixuan1.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan1.sas7bdat。筛选后的数据量为94665,原数据success量为95596,所以,邮费或者差价订单大概931单。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
筛选出实际支付金额大于5的订单。
数据筛选
SasEG
对数据进行筛选,筛选出实际支付金额大于5的订单。
Shaixuan1.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan1数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan1数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan1数据集窗口中,点击查询生成器,将shaixuan1数据集里面的变量全部拉入数据框。
Ø 单击“过滤数据框”,将“买家实际支付金额”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“大于”,在“值:”选项框中填写“5”,点击“下一步”按钮;点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.shaixuan2,将标签改为shaixuan2。点击“确定”按钮。
将筛选后的观测值存为数据集shaixuan2.sas7bdat。筛选后的数据量为94590,原数据shaixuan1量为94665,所以,买家实际支付金额小于5的订单量为75。
将该知识点中产生的数据集shaixuan2.sas7bdat保存起来,以为后续使用。
筛选后的数据量为94590,原数据shaixuan1量为94665,所以,买家实际支付金额小于5的订单量为75。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
筛选非退款类订单。
数据筛选
SasEG
对数据进行筛选,筛选非退款类订单。
Shaixuan2.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan2数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan2数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan2数据集窗口中,点击查询生成器,将shaixuan2数据集里面的变量全部拉入数据框。
Ø 单击“过滤数据“框,将“买家实际支付金额”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“不等于”,在“值:”下拉菜单中选择“列”中的“买家应付邮费”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.shaixuan3,将标签改为shaixuan3。点击“确定”按钮。
Ø 点击“运行”按钮。
将筛选后的观测值存为数据集shaixuan3.sas7bdat,筛选后的数据量为92934,原数据shaixuan2量为94590,所以,退款类订单量为1656。
将该知识点中产生的数据集shaixuan3.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan3.sas7bdat,筛选后的数据量为92934,原数据shaixuan2量为94590,所以,退款类订单量为1656。。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
删除购买频率大于25的买家的订单。
变量`计算 数据筛选
SasEG
对数据进行筛选,删除购买频率大于25的买家的订单。
Shaixuan3.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan3数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan3数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan3数据集窗口中,点击查询生成器,将shaixuan3数据集里面的变量全部拉入数据框。
Ø 单击“添加新的计算列”,在步骤一中选择“汇总列”,点击“下一步”按钮;选择“买家会员名”变量,点击“下一步”按钮; “汇总”选项选择“COUNT”,将“标签”设置为“购买频率”,点击“下一步”按钮;
Ø 在“查询生成器”页面中不勾选“汇总组”中的“自动选择组”,点击“编辑组”,将“买家会员名”拉入“分组依据”中,点击“确定”按钮;
Ø 勾选复选框“仅选择非重复行”。这是为了过滤掉重复记录的单子
Ø 单击“过滤数据”选项框,在“过滤汇总数据”那里,点击“新建过滤器”,选择“基本过滤器”,“过滤条件”的第一个选项框选择“_Calculation”变量,第二个选项框选择“小于”,第三个选项框中直接输入“25”,取消“值的两侧应加引号”,点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.finaldata,将标签改为finaldata。点击“确定”按钮。
Ø 点击“运行”按钮。
将筛选后的观测值存为数据集shaixuan4.sas7bdat,筛选后的数据量为89662,原数据shaixuan3量为92934,所以,些订单中有3272条订单被判定为刷销量订单。
将该知识点中产生的数据集shaixuan4.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan4.sas7bdat,筛选后的数据量为89662,原数据shaixuan3量为92934,所以,些订单中有3272条订单被判定为刷销量订单。
数据分析
对数据进行建模之前通常对数据进行一个基本描述,比如分类变量看下频数分布,我们这里对性别进行频数分析。
对变量进行频数分布分析。
频数统计
SasEG
对分类变量进行频数统计。
member.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的finaldata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中finaldata数据集的图标 ,即可查看里面的数据。
Ø 在finaldata数据表下打开“查询生成器”,把左边的变量全部拖入右侧,点击“计算列”,在第一步选择类型中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用“收货地址”生成地区名,输入“SUBSTR(t1.col13, 1, (FIND(t1.col13," ")-1))”,可点选公式和变量名进行选择,点击“下一步”;
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“province”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“查询生成器”下,继续点击“计算列”,在第一步选择类型中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用“收货地址”生成城市名,输入“SUBSTR(t1.col13,FIND(t1.col13," ")+1)”,可点选公式和变量名进行选择,点击“下一步”按钮;
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“city”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 上述两个变量计算好后,点击“选项”,将输出名称改为mylib.address,把标签改为address。点击“运行”按钮。结果见图12。
图12 查询器生成结果
Ø 在address数据集窗口,执行“描述”“单因子频数”。在“数据”选项下,把“province”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见图12.7。
图12.7单因子频数结果
结果分析:可以看到北京的频数是最高的。
将该知识点过程中产生的address数据集进行保存,以方便后续的使用。
对于分类变量,可以通过单因子频数的方式对其进行描述,也可以通过饼形图对其进行描述。
数据分析
去掉交易关闭订单筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161,交易不成功的订单量占总订单量的20.8%。
2013年这家店交易不成功的订单比重在合理范围之内,但在之后需要进一步分析交易关闭的原因,下一年的销售中需注意减少交易关闭的情况。
分析交易关闭的情况,分析原因,以便客户回访
一般淘宝交易关闭有两种情况:
1) 买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易。
2) 买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
可以做汇总表对这两种情况分别占的比例进行分析,由于第一种情况,买家未付款,在表中体现为“订单付款时间”为空;第二种情况,欠款已退回,在表中体现为“订单付款时间”存在。基本步骤如下:
生成交易关闭原因变量。
变量计算
SasEG
对变量进行计算。
对交易失败的订单进行归类,买家未付款定义为0类。欠款已退回定义为1类。计算新列col16_code,重新编码订单付款时间。编码逻辑为:订单付款时间等于.时,返回0,订单付款时间不等于.时,返回1。
closedata.sas7dbat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
把左侧下方的逻辑库mylib下面的closedata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中closedata数据集的图标 ,即可查看里面的数据。
Ø 在数据表closedata下打开“查询生成器”,“选择数据”部分选择全部数据。
Ø 点击“选项”,将输出名称改为mylib.closedata1,把标签改为closedata1。
Ø 点击左上角的“计算列”,弹出“计算列”窗口,点击“新建”:新建计算列。
Ø 在第一步“选择类型”中点选“重新码列”;
Ø 在第二步“选择列”中选择“订单付款时间”,点击“下一步”按钮;
Ø 在第三步“指定替换”中“添加”替换,选择 “替换条件”窗口,订单付款时间等于.时,使用此值(W)输入0,勾选“该值的两侧应加引号(Q)”,点击“确定”按钮。按照同样的方法添加订单付款时间不等于.时,使用值1的条件,点击“确定”按钮。
Ø 列类型设为“字符”,添加完成后点击“下一步”;
Ø 在第四步“修改其他选项”中将“标识符和列名”全部设为“col16_code”,“输出格式”设置为“无”,点击“下一步”按钮;
Ø 点击“完成”按钮,关闭计算列窗口,点击“运行”按钮。
图15 创建辅助列col16_code
Ø 在closedata1数据集窗口,执行“描述”“单因子频数”。在“数据”选项下,把“col16_code”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见图12.7。
图12.7单因子频数结果
从表中可以看出,交易关闭的订单中有85.76%的买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易,而有14.24%的买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
结合上一部分的描述分析,可以得出,交易关闭订单占总订单的20.8%,这其中有85.76%的买家只是拍下商品,但是未付款,14.24%的买家申请退款。也就是说,总订单中有17.83%(20.8% * 85.76% = 17.83%)的客户想要购买,却最终没有付钱;2.96%(20.8% * 14.24% = 17.83%)的客户购买以后选择退货。参考同行业指标,退货率比较正常,后续销售过程中应重点关注有购买欲望却最终没有购买的订单,采取相应的销售策略。
把该知识点的操作产生新的数据集closedata1.sas7bdat保存到路径下,以备后续使用。
有的时候我们先要计算出分类变量来然后再进行频数分布分析。交易关闭的订单中有85.76%的买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易,而有14.24%的买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
结合上一部分的描述分析,可以得出,交易关闭订单占总订单的20.8%,这其中有85.76%的买家只是拍下商品,但是未付款,14.24%的买家申请退款。也就是说,总订单中有17.83%(20.8% * 85.76% = 17.83%)的客户想要购买,却最终没有付钱;2.96%(20.8% * 14.24% = 17.83%)的客户购买以后选择退货。参考同行业指标,退货率比较正常,后续销售过程中应重点关注有购买欲望却最终没有购买的订单,采取相应的销售策略。
数据分析
客户画像(UserProfile)即给用户打上标签,用一种朴素、简洁的方法来描述用户信息。客户画像可以完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。
RFM模型是Bult and Wansbeek于1995年提出来的,认为客户行为三要素 Recency (R)、Frequency (F) 与 Monetary (M)构成了客户购买潜力价值的核心组成部分。该模型经常应用于 CRM 框架下的客户行为分析。
用聚类分析对客户进行画像。
聚类分析 FRM sas编程
SasEG
对个案进行聚类分析。
finaldata.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
把左侧下方的逻辑库mylib下面的finaldata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中finaldata数据集的图标 ,即可查看里面的数据。
Ø 在数据表finaldata下打开“查询生成器”,“选择数据”部分选择全部数据。
Ø 点击“选项”,将输出名称改为mylib.rfmp,把标签改为rfmp。
在查询生成器中计算所有订单距离2013年最后一天的订单付款天数
操作步骤:
Ø 在findaldata数据表下打开“查询生成器”,点击“计算列”,在第一步“选择类型”中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用观测窗口结束时间减去入会时间,输入“max(DATEPART(t1.col16))-DATEPART(t1.col16)”,可点选公式和变量名进行选择,点击“下一步”按钮;(计算下载数据的日期(可以用数据中的订单最新日期,)和所有订单时间间隔,设置为变量recently)
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“Recently”, 修改格式数值为BESTX3.,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 汇总组部分取消“自动选择组”的勾选。见图18。
Ø 点击“运行”按钮。
图18 查询生成器设定窗口。
分别计算RFM
操作步骤:
Ø 在rfmp数据集窗口下,点击查询生成器,将该查询输出结果设定为mylib.rfm1。将clo3(买家支付宝账号)、Recently、col9(买家实际支付金额)、col1拖至“选择数据”中,在数据框第三列的汇总栏中,分别单击Recently、col1、col9(买家实际支付金额)三个变量的下拉菜单,选择“MIN”、 “COUNT”、“SUM”。取消“自动选择组”的勾选,点击“编辑组”,选择t1.col3。勾选“仅选择非重复行”如下图所示,
Ø 单击“运行”按钮。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16