101002
电商行业——淘宝大规模网店综合分析
刘莎莎
H633纺织、服装及日用品
Sas EG Sas EM
CSV导入saseg 数据导入 表格合并 数据整理 数据筛选 变量`计算 频数统计
RFM模型 聚类分析 sas编程 关联规则
电子商务是指在各种形式的网络上,包括企业内网、局域网和互联网上以电子行式,进行交易活动和系列服务的行为,是依托于互联网技术的新型电子化商业活动。电子商务内容分为两部分,电子操作和商务贸易活动。利用电子技术,为买卖双方提供无距离限制的便捷贸易服务。电子商务紧密联系生产商和分销商,为客户提供更便捷的高性价比产品,推动了市场资源的全球合理化配置。
在大数据时代,电子商务得到了迅猛发展,电商企业如雨后春笋般出现。与传统的线下销售的企业相比较,电商企业具有的优势和经济价值的资源是爆炸性增长的数据。以天猫为例,根据互联网研究中心的数据显示,截至2014年第一季度,天猫的注册用户已经达到5 亿人次,在线商品的销售数量达到 9亿,天猫的活跃买家已经超过了2.5亿,平均每个购买活跃买家的购买数量达到了 50单以上,页面的浏览量已超过京东的3倍,拥有 22亿的超大规模,每天产品的讯息达到 5亿条。
面对如此海量的信息,数据分析、数据挖掘技术可以帮助电商企业在海量的数据中提取有价值的数据,这些数据有些用来分析消费者购买商品的规律和趋势,还可以帮助电商企业实现未来规划提出可行性报告。
此案例所用数据集来自于一个淘宝网店,属于电商行业,店主想通过数据分析提供一些管理或者销售思路,提高销售业绩。
该数据集记录的是该电商2013年一年的销售记录情况,共有四个csv文件,对应一年中的四个时间段。20130101-20130502.csv数据集中有26804条观测值,20130502-20130730.csv数据集中有32676条观测值,20130730-20131030.csv数据集中有30452条观测值,20131030-20131230.csv数据集中有30828条观测值。
第1个知识点将4个csv文件导入到sas软件中,并且保存为4个sas数据文件。
第2个知识点是对数据进行初步加工处理。将4个sas数据文件合并为一个大的数据文件,并且将合并后的数据文件保存为originaldata.sas7bdat;
第3个知识点将originaldata.sas7bdat数据集分成两部分,交易成功的数据和交易失败的数据,分别保存为success.sas7bdat和closedata.sas7bdat。
第4个知识点在success.sas7bdat基础上,删掉补邮费或差价的订单,将数据保存为shaixuan1.sas7bdat;
第5个知识点在shaixuan1.sas7bdat基础上,筛选出实际支付金额大于5的订单,将数据保存为shaixuan2.sas7bdat;
第6个知识点在shaixuan2.sas7bdat基础上,删掉退款类订单,将数据保存为shaixuan3.sas7bdat;
第7个知识点在shaixuan3.sas7bdat基础上,删除购买频率大于25的买家的订单,将最终的数据保存为finaldata.sas7bdat;
第8个知识点是在finaldata.sas7bdat数据集的基础之上进行的统计分析,各省交易的订单分布情况。
第9个知识点是对交易失败的订单进行分析。先是在originaldata.sas7bdat, success.sas7bdat, closedata.sas7bdat基础之上,分析了交易失败订单在总订单中占得比例。然后在closedata.sas7bdat基础之上,对交易失败的订单的失败原因进行了频数分析。
第10个知识点是在finaldata.sas7bdat数据集的基础之上进行进一步的计算,然后用RFM模型对客户进行画像分析,从而找到最有价值的客户。
第11个知识点在finaldata.sas7bdat数据集的基础之上进行进一步的加工,然后用SASEM模块对数据进行关联规则分析,从而可以发现一些推荐规则。
单人上机
数据导入
先要将外部数据导入到统计软件中才能进行后续的分析和建模。
将CSV数据导入到saseg中,并且将数据保存为sas格式。
CSV导入saseg 数据导入
Saseg
将CSV数据导入到saseg中。
20130101-20130502.csv数据集中有26804条观测值,20130502-20130730.csv数据集中有32676条观测值,20130730-20131030.csv数据集中有30452条观测值,20131030-20131230.csv数据集中有30828条观测值。
Ø 将本书所提供的淘宝数据文件夹中4个csv文件导入SAS。
Ø 操作步骤:
1) 新建逻辑库
Ø 执行“工具”,“分配项目逻辑库”输入8个字符以内的英文名称,如“MYLIB”,点击“下一步”;在电脑中选择一个文件夹,将其路径作为逻辑库的路径,如“E:***”单击“下一步”;
Ø 单击“下一步”,点击“完成”按钮。
图1分配项目逻辑库
2) 在逻辑库中依次导入四个csv文件
Ø 执行“文件”,“导入数据”,选择数据所在文件夹,选中要打开的数据,打开。
图2导入数据
Ø 在导入数据向导第一步,将输出SAS数据集的逻辑库改为上一步建立的永久逻辑库MYLIB,点击“下一步”按钮。
图3导入数据指定数据
Ø 勾选“重命名列以遵守SAS命名规则”,其他选默认,勾选首行范围包含字段名称,点击”下一步”按钮;
图4导入数据选择数据源
Ø 查看字段属性,若有不符合原数据特征的,进行修改,此处将订单编号类型改为字符串,点击“下一步”按钮;
Ø 点击“完成”按钮。
Ø 其他三个文件的数据导入同上。
Ø 除了前面需要注意的情况外,在导入第三张表格的时候,需要将第12列的类型改为数字。否则无法进行后面的表格合并。
将上面生成的sas数据文件保存在文件夹中存为_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat,以备后续使用。
想把csv格式数据导入到saseg中,先要将csv数据格式整理成比较标准的格式才不容易出错,如果csv文件是从数据库中导出的通常格式比较正常。
数据整理
我们需要将多个表格进行纵向合并,因为这些表格结构一样,只是时间不同,我们需要将其合并进行后续的分析和整理。
将多个sas数据文件合并为一个sas数据文件。
表格合并 数据整理
Saseg
将多个数据集合并为一个数据集。
_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat。
观察数据我们发现,四个数据为这家网店在2013年不同月份的订单情况,因此为方便以后分析,首先将四个表进行合并,此处进行追加表操作。
操作步骤:
Ø 查看四张表的列名是否一致。单击菜单栏最右侧的“属性”选项,在弹出的“属性”对话框中,点击“列”选项,可以看到列名。
图5查看数据属性
经查看四张表列名一致。
Ø 在工作区双击打开第一张表,在表上方的选项卡中,单击“数据”,选择 “追加表”;
图6追加表
Ø 在打开的“追加表”对话框中选择“添加表”,将其他三个表添加进去,最后单击“运行”按钮。合并后的数据文件存为数据集 originaldata.sas7bdat。
Ø 订单编号的表示方式为科学计数法,需要将其改为正常格式,只需右键单击“订单编号”变量,点击“属性”, 将“输出格式”改为“NLBESTw.d”。总宽度设定为17,小数位数为0。
Ø
将上面生成的sas数据文件保存在文件夹中存为originaldata.sas7bdat,以备后续使用。
将多个数据集合进行纵向合并要保证,多个数据文件结构一致。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
把交易成功的数据筛选出来。
数据筛选
SasEG
对数据进行筛选,将数据分为交易成功和交易失败的两部分。
originaldata.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的original数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中original数据集的图标 ,即可查看里面的数据。
Ø 在original窗口,点击查询生成器。把t1整个拉入右侧数据框,见下图。
图查询生成器窗口
Ø 单击“过滤数据“框,将“订单状态”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“等于”,选择“获取值”,单击“交易成功”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“选项”
Ø 输出名称改为mylib.success,标签改为success
Ø 点击“运行”按钮。
筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161。交易失败的查询过程和成功的查询过程相近,这里不再累述。
将去掉交易关闭数据之后的记录存为数据集success.sas7bdat(95596条观测)。将关闭交易的数据保存在closedata.sas7bdat(25161条观测)中。
将该知识点中产生的数据集success.sas7bdat,closedata.sas7bdat保存起来,以为后续使用。
筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
通过生成新变量的方式删掉补邮费或差价的订单。
数据筛选
SasEG
对数据进行筛选,删掉补邮费或差价的订单。
success.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的success数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中success数据集的图标 ,即可查看里面的数据。
通过观察我们发现宝贝标题里面没有出现商品编码(即没有出现符号“-”)的单子都属于纯粹的邮费/运费/差价,需要删掉。
Ø 在success数据集窗口中,点击查询生成器,将success数据集里面的变量全部拉入数据框。
Ø 点击过滤数据选项卡,点击新建过滤器,选择高级过滤器,在输入过滤器窗口中输入表达式:(find(t1.'宝贝标题'n,“- "))<>0,点击下一步,点击完成。
Ø 点击对数据排序选项卡,让数据按照实际支付金额进行升序排序。
Ø 点击运行。将输出名称改为mylib.shaixuan1,标签改为shaixuan1
Ø 输入结果见图
图9 查询器结果
将筛选后的观测值存为数据集shaixuan1.sas7bdat。筛选后的数据量为94665,原数据success量为95596,所以,邮费或者差价订单大概931单。
将该知识点中产生的数据集shaixuan1.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan1.sas7bdat。筛选后的数据量为94665,原数据success量为95596,所以,邮费或者差价订单大概931单。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
筛选出实际支付金额大于5的订单。
数据筛选
SasEG
对数据进行筛选,筛选出实际支付金额大于5的订单。
Shaixuan1.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan1数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan1数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan1数据集窗口中,点击查询生成器,将shaixuan1数据集里面的变量全部拉入数据框。
Ø 单击“过滤数据框”,将“买家实际支付金额”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“大于”,在“值:”选项框中填写“5”,点击“下一步”按钮;点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.shaixuan2,将标签改为shaixuan2。点击“确定”按钮。
将筛选后的观测值存为数据集shaixuan2.sas7bdat。筛选后的数据量为94590,原数据shaixuan1量为94665,所以,买家实际支付金额小于5的订单量为75。
将该知识点中产生的数据集shaixuan2.sas7bdat保存起来,以为后续使用。
筛选后的数据量为94590,原数据shaixuan1量为94665,所以,买家实际支付金额小于5的订单量为75。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
筛选非退款类订单。
数据筛选
SasEG
对数据进行筛选,筛选非退款类订单。
Shaixuan2.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan2数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan2数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan2数据集窗口中,点击查询生成器,将shaixuan2数据集里面的变量全部拉入数据框。
Ø 单击“过滤数据“框,将“买家实际支付金额”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“不等于”,在“值:”下拉菜单中选择“列”中的“买家应付邮费”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.shaixuan3,将标签改为shaixuan3。点击“确定”按钮。
Ø 点击“运行”按钮。
将筛选后的观测值存为数据集shaixuan3.sas7bdat,筛选后的数据量为92934,原数据shaixuan2量为94590,所以,退款类订单量为1656。
将该知识点中产生的数据集shaixuan3.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan3.sas7bdat,筛选后的数据量为92934,原数据shaixuan2量为94590,所以,退款类订单量为1656。。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
删除购买频率大于25的买家的订单。
变量`计算 数据筛选
SasEG
对数据进行筛选,删除购买频率大于25的买家的订单。
Shaixuan3.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan3数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan3数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan3数据集窗口中,点击查询生成器,将shaixuan3数据集里面的变量全部拉入数据框。
Ø 单击“添加新的计算列”,在步骤一中选择“汇总列”,点击“下一步”按钮;选择“买家会员名”变量,点击“下一步”按钮; “汇总”选项选择“COUNT”,将“标签”设置为“购买频率”,点击“下一步”按钮;
Ø 在“查询生成器”页面中不勾选“汇总组”中的“自动选择组”,点击“编辑组”,将“买家会员名”拉入“分组依据”中,点击“确定”按钮;
Ø 勾选复选框“仅选择非重复行”。这是为了过滤掉重复记录的单子
Ø 单击“过滤数据”选项框,在“过滤汇总数据”那里,点击“新建过滤器”,选择“基本过滤器”,“过滤条件”的第一个选项框选择“_Calculation”变量,第二个选项框选择“小于”,第三个选项框中直接输入“25”,取消“值的两侧应加引号”,点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.finaldata,将标签改为finaldata。点击“确定”按钮。
Ø 点击“运行”按钮。
将筛选后的观测值存为数据集shaixuan4.sas7bdat,筛选后的数据量为89662,原数据shaixuan3量为92934,所以,些订单中有3272条订单被判定为刷销量订单。
将该知识点中产生的数据集shaixuan4.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan4.sas7bdat,筛选后的数据量为89662,原数据shaixuan3量为92934,所以,些订单中有3272条订单被判定为刷销量订单。
数据分析
对数据进行建模之前通常对数据进行一个基本描述,比如分类变量看下频数分布,我们这里对性别进行频数分析。
对变量进行频数分布分析。
频数统计
SasEG
对分类变量进行频数统计。
member.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的finaldata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中finaldata数据集的图标 ,即可查看里面的数据。
Ø 在finaldata数据表下打开“查询生成器”,把左边的变量全部拖入右侧,点击“计算列”,在第一步选择类型中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用“收货地址”生成地区名,输入“SUBSTR(t1.col13, 1, (FIND(t1.col13," ")-1))”,可点选公式和变量名进行选择,点击“下一步”;
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“province”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“查询生成器”下,继续点击“计算列”,在第一步选择类型中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用“收货地址”生成城市名,输入“SUBSTR(t1.col13,FIND(t1.col13," ")+1)”,可点选公式和变量名进行选择,点击“下一步”按钮;
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“city”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 上述两个变量计算好后,点击“选项”,将输出名称改为mylib.address,把标签改为address。点击“运行”按钮。结果见图12。
图12 查询器生成结果
Ø 在address数据集窗口,执行“描述”“单因子频数”。在“数据”选项下,把“province”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见图12.7。
图12.7单因子频数结果
结果分析:可以看到北京的频数是最高的。
将该知识点过程中产生的address数据集进行保存,以方便后续的使用。
对于分类变量,可以通过单因子频数的方式对其进行描述,也可以通过饼形图对其进行描述。
数据分析
去掉交易关闭订单筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161,交易不成功的订单量占总订单量的20.8%。
2013年这家店交易不成功的订单比重在合理范围之内,但在之后需要进一步分析交易关闭的原因,下一年的销售中需注意减少交易关闭的情况。
分析交易关闭的情况,分析原因,以便客户回访
一般淘宝交易关闭有两种情况:
1) 买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易。
2) 买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
可以做汇总表对这两种情况分别占的比例进行分析,由于第一种情况,买家未付款,在表中体现为“订单付款时间”为空;第二种情况,欠款已退回,在表中体现为“订单付款时间”存在。基本步骤如下:
生成交易关闭原因变量。
变量计算
SasEG
对变量进行计算。
对交易失败的订单进行归类,买家未付款定义为0类。欠款已退回定义为1类。计算新列col16_code,重新编码订单付款时间。编码逻辑为:订单付款时间等于.时,返回0,订单付款时间不等于.时,返回1。
closedata.sas7dbat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
把左侧下方的逻辑库mylib下面的closedata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中closedata数据集的图标 ,即可查看里面的数据。
Ø 在数据表closedata下打开“查询生成器”,“选择数据”部分选择全部数据。
Ø 点击“选项”,将输出名称改为mylib.closedata1,把标签改为closedata1。
Ø 点击左上角的“计算列”,弹出“计算列”窗口,点击“新建”:新建计算列。
Ø 在第一步“选择类型”中点选“重新码列”;
Ø 在第二步“选择列”中选择“订单付款时间”,点击“下一步”按钮;
Ø 在第三步“指定替换”中“添加”替换,选择 “替换条件”窗口,订单付款时间等于.时,使用此值(W)输入0,勾选“该值的两侧应加引号(Q)”,点击“确定”按钮。按照同样的方法添加订单付款时间不等于.时,使用值1的条件,点击“确定”按钮。
Ø 列类型设为“字符”,添加完成后点击“下一步”;
Ø 在第四步“修改其他选项”中将“标识符和列名”全部设为“col16_code”,“输出格式”设置为“无”,点击“下一步”按钮;
Ø 点击“完成”按钮,关闭计算列窗口,点击“运行”按钮。
图15 创建辅助列col16_code
Ø 在closedata1数据集窗口,执行“描述”“单因子频数”。在“数据”选项下,把“col16_code”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见图12.7。
图12.7单因子频数结果
从表中可以看出,交易关闭的订单中有85.76%的买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易,而有14.24%的买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
结合上一部分的描述分析,可以得出,交易关闭订单占总订单的20.8%,这其中有85.76%的买家只是拍下商品,但是未付款,14.24%的买家申请退款。也就是说,总订单中有17.83%(20.8% * 85.76% = 17.83%)的客户想要购买,却最终没有付钱;2.96%(20.8% * 14.24% = 17.83%)的客户购买以后选择退货。参考同行业指标,退货率比较正常,后续销售过程中应重点关注有购买欲望却最终没有购买的订单,采取相应的销售策略。
把该知识点的操作产生新的数据集closedata1.sas7bdat保存到路径下,以备后续使用。
有的时候我们先要计算出分类变量来然后再进行频数分布分析。交易关闭的订单中有85.76%的买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易,而有14.24%的买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
结合上一部分的描述分析,可以得出,交易关闭订单占总订单的20.8%,这其中有85.76%的买家只是拍下商品,但是未付款,14.24%的买家申请退款。也就是说,总订单中有17.83%(20.8% * 85.76% = 17.83%)的客户想要购买,却最终没有付钱;2.96%(20.8% * 14.24% = 17.83%)的客户购买以后选择退货。参考同行业指标,退货率比较正常,后续销售过程中应重点关注有购买欲望却最终没有购买的订单,采取相应的销售策略。
数据分析
客户画像(UserProfile)即给用户打上标签,用一种朴素、简洁的方法来描述用户信息。客户画像可以完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。
RFM模型是Bult and Wansbeek于1995年提出来的,认为客户行为三要素 Recency (R)、Frequency (F) 与 Monetary (M)构成了客户购买潜力价值的核心组成部分。该模型经常应用于 CRM 框架下的客户行为分析。
用聚类分析对客户进行画像。
聚类分析 FRM sas编程
SasEG
对个案进行聚类分析。
finaldata.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
把左侧下方的逻辑库mylib下面的finaldata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中finaldata数据集的图标 ,即可查看里面的数据。
Ø 在数据表finaldata下打开“查询生成器”,“选择数据”部分选择全部数据。
Ø 点击“选项”,将输出名称改为mylib.rfmp,把标签改为rfmp。
在查询生成器中计算所有订单距离2013年最后一天的订单付款天数
操作步骤:
Ø 在findaldata数据表下打开“查询生成器”,点击“计算列”,在第一步“选择类型”中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用观测窗口结束时间减去入会时间,输入“max(DATEPART(t1.col16))-DATEPART(t1.col16)”,可点选公式和变量名进行选择,点击“下一步”按钮;(计算下载数据的日期(可以用数据中的订单最新日期,)和所有订单时间间隔,设置为变量recently)
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“Recently”, 修改格式数值为BESTX3.,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 汇总组部分取消“自动选择组”的勾选。见图18。
Ø 点击“运行”按钮。
图18 查询生成器设定窗口。
分别计算RFM
操作步骤:
Ø 在rfmp数据集窗口下,点击查询生成器,将该查询输出结果设定为mylib.rfm1。将clo3(买家支付宝账号)、Recently、col9(买家实际支付金额)、col1拖至“选择数据”中,在数据框第三列的汇总栏中,分别单击Recently、col1、col9(买家实际支付金额)三个变量的下拉菜单,选择“MIN”、 “COUNT”、“SUM”。取消“自动选择组”的勾选,点击“编辑组”,选择t1.col3。勾选“仅选择非重复行”如下图所示,
Ø 单击“运行”按钮。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31