101002
电商行业——淘宝大规模网店综合分析
刘莎莎
H633纺织、服装及日用品
Sas EG Sas EM
CSV导入saseg 数据导入 表格合并 数据整理 数据筛选 变量`计算 频数统计
RFM模型 聚类分析 sas编程 关联规则
电子商务是指在各种形式的网络上,包括企业内网、局域网和互联网上以电子行式,进行交易活动和系列服务的行为,是依托于互联网技术的新型电子化商业活动。电子商务内容分为两部分,电子操作和商务贸易活动。利用电子技术,为买卖双方提供无距离限制的便捷贸易服务。电子商务紧密联系生产商和分销商,为客户提供更便捷的高性价比产品,推动了市场资源的全球合理化配置。
在大数据时代,电子商务得到了迅猛发展,电商企业如雨后春笋般出现。与传统的线下销售的企业相比较,电商企业具有的优势和经济价值的资源是爆炸性增长的数据。以天猫为例,根据互联网研究中心的数据显示,截至2014年第一季度,天猫的注册用户已经达到5 亿人次,在线商品的销售数量达到 9亿,天猫的活跃买家已经超过了2.5亿,平均每个购买活跃买家的购买数量达到了 50单以上,页面的浏览量已超过京东的3倍,拥有 22亿的超大规模,每天产品的讯息达到 5亿条。
面对如此海量的信息,数据分析、数据挖掘技术可以帮助电商企业在海量的数据中提取有价值的数据,这些数据有些用来分析消费者购买商品的规律和趋势,还可以帮助电商企业实现未来规划提出可行性报告。
此案例所用数据集来自于一个淘宝网店,属于电商行业,店主想通过数据分析提供一些管理或者销售思路,提高销售业绩。
该数据集记录的是该电商2013年一年的销售记录情况,共有四个csv文件,对应一年中的四个时间段。20130101-20130502.csv数据集中有26804条观测值,20130502-20130730.csv数据集中有32676条观测值,20130730-20131030.csv数据集中有30452条观测值,20131030-20131230.csv数据集中有30828条观测值。
第1个知识点将4个csv文件导入到sas软件中,并且保存为4个sas数据文件。
第2个知识点是对数据进行初步加工处理。将4个sas数据文件合并为一个大的数据文件,并且将合并后的数据文件保存为originaldata.sas7bdat;
第3个知识点将originaldata.sas7bdat数据集分成两部分,交易成功的数据和交易失败的数据,分别保存为success.sas7bdat和closedata.sas7bdat。
第4个知识点在success.sas7bdat基础上,删掉补邮费或差价的订单,将数据保存为shaixuan1.sas7bdat;
第5个知识点在shaixuan1.sas7bdat基础上,筛选出实际支付金额大于5的订单,将数据保存为shaixuan2.sas7bdat;
第6个知识点在shaixuan2.sas7bdat基础上,删掉退款类订单,将数据保存为shaixuan3.sas7bdat;
第7个知识点在shaixuan3.sas7bdat基础上,删除购买频率大于25的买家的订单,将最终的数据保存为finaldata.sas7bdat;
第8个知识点是在finaldata.sas7bdat数据集的基础之上进行的统计分析,各省交易的订单分布情况。
第9个知识点是对交易失败的订单进行分析。先是在originaldata.sas7bdat, success.sas7bdat, closedata.sas7bdat基础之上,分析了交易失败订单在总订单中占得比例。然后在closedata.sas7bdat基础之上,对交易失败的订单的失败原因进行了频数分析。
第10个知识点是在finaldata.sas7bdat数据集的基础之上进行进一步的计算,然后用RFM模型对客户进行画像分析,从而找到最有价值的客户。
第11个知识点在finaldata.sas7bdat数据集的基础之上进行进一步的加工,然后用SASEM模块对数据进行关联规则分析,从而可以发现一些推荐规则。
单人上机
数据导入
先要将外部数据导入到统计软件中才能进行后续的分析和建模。
将CSV数据导入到saseg中,并且将数据保存为sas格式。
CSV导入saseg 数据导入
Saseg
将CSV数据导入到saseg中。
20130101-20130502.csv数据集中有26804条观测值,20130502-20130730.csv数据集中有32676条观测值,20130730-20131030.csv数据集中有30452条观测值,20131030-20131230.csv数据集中有30828条观测值。
Ø 将本书所提供的淘宝数据文件夹中4个csv文件导入SAS。
Ø 操作步骤:
1) 新建逻辑库
Ø 执行“工具”,“分配项目逻辑库”输入8个字符以内的英文名称,如“MYLIB”,点击“下一步”;在电脑中选择一个文件夹,将其路径作为逻辑库的路径,如“E:***”单击“下一步”;
Ø 单击“下一步”,点击“完成”按钮。
图1分配项目逻辑库
2) 在逻辑库中依次导入四个csv文件
Ø 执行“文件”,“导入数据”,选择数据所在文件夹,选中要打开的数据,打开。
图2导入数据
Ø 在导入数据向导第一步,将输出SAS数据集的逻辑库改为上一步建立的永久逻辑库MYLIB,点击“下一步”按钮。
图3导入数据指定数据
Ø 勾选“重命名列以遵守SAS命名规则”,其他选默认,勾选首行范围包含字段名称,点击”下一步”按钮;
图4导入数据选择数据源
Ø 查看字段属性,若有不符合原数据特征的,进行修改,此处将订单编号类型改为字符串,点击“下一步”按钮;
Ø 点击“完成”按钮。
Ø 其他三个文件的数据导入同上。
Ø 除了前面需要注意的情况外,在导入第三张表格的时候,需要将第12列的类型改为数字。否则无法进行后面的表格合并。
将上面生成的sas数据文件保存在文件夹中存为_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat,以备后续使用。
想把csv格式数据导入到saseg中,先要将csv数据格式整理成比较标准的格式才不容易出错,如果csv文件是从数据库中导出的通常格式比较正常。
数据整理
我们需要将多个表格进行纵向合并,因为这些表格结构一样,只是时间不同,我们需要将其合并进行后续的分析和整理。
将多个sas数据文件合并为一个sas数据文件。
表格合并 数据整理
Saseg
将多个数据集合并为一个数据集。
_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat。
观察数据我们发现,四个数据为这家网店在2013年不同月份的订单情况,因此为方便以后分析,首先将四个表进行合并,此处进行追加表操作。
操作步骤:
Ø 查看四张表的列名是否一致。单击菜单栏最右侧的“属性”选项,在弹出的“属性”对话框中,点击“列”选项,可以看到列名。
图5查看数据属性
经查看四张表列名一致。
Ø 在工作区双击打开第一张表,在表上方的选项卡中,单击“数据”,选择 “追加表”;
图6追加表
Ø 在打开的“追加表”对话框中选择“添加表”,将其他三个表添加进去,最后单击“运行”按钮。合并后的数据文件存为数据集 originaldata.sas7bdat。
Ø 订单编号的表示方式为科学计数法,需要将其改为正常格式,只需右键单击“订单编号”变量,点击“属性”, 将“输出格式”改为“NLBESTw.d”。总宽度设定为17,小数位数为0。
Ø
将上面生成的sas数据文件保存在文件夹中存为originaldata.sas7bdat,以备后续使用。
将多个数据集合进行纵向合并要保证,多个数据文件结构一致。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
把交易成功的数据筛选出来。
数据筛选
SasEG
对数据进行筛选,将数据分为交易成功和交易失败的两部分。
originaldata.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的original数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中original数据集的图标 ,即可查看里面的数据。
Ø 在original窗口,点击查询生成器。把t1整个拉入右侧数据框,见下图。
图查询生成器窗口
Ø 单击“过滤数据“框,将“订单状态”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“等于”,选择“获取值”,单击“交易成功”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“选项”
Ø 输出名称改为mylib.success,标签改为success
Ø 点击“运行”按钮。
筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161。交易失败的查询过程和成功的查询过程相近,这里不再累述。
将去掉交易关闭数据之后的记录存为数据集success.sas7bdat(95596条观测)。将关闭交易的数据保存在closedata.sas7bdat(25161条观测)中。
将该知识点中产生的数据集success.sas7bdat,closedata.sas7bdat保存起来,以为后续使用。
筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
通过生成新变量的方式删掉补邮费或差价的订单。
数据筛选
SasEG
对数据进行筛选,删掉补邮费或差价的订单。
success.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的success数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中success数据集的图标 ,即可查看里面的数据。
通过观察我们发现宝贝标题里面没有出现商品编码(即没有出现符号“-”)的单子都属于纯粹的邮费/运费/差价,需要删掉。
Ø 在success数据集窗口中,点击查询生成器,将success数据集里面的变量全部拉入数据框。
Ø 点击过滤数据选项卡,点击新建过滤器,选择高级过滤器,在输入过滤器窗口中输入表达式:(find(t1.'宝贝标题'n,“- "))<>0,点击下一步,点击完成。
Ø 点击对数据排序选项卡,让数据按照实际支付金额进行升序排序。
Ø 点击运行。将输出名称改为mylib.shaixuan1,标签改为shaixuan1
Ø 输入结果见图
图9 查询器结果
将筛选后的观测值存为数据集shaixuan1.sas7bdat。筛选后的数据量为94665,原数据success量为95596,所以,邮费或者差价订单大概931单。
将该知识点中产生的数据集shaixuan1.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan1.sas7bdat。筛选后的数据量为94665,原数据success量为95596,所以,邮费或者差价订单大概931单。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
筛选出实际支付金额大于5的订单。
数据筛选
SasEG
对数据进行筛选,筛选出实际支付金额大于5的订单。
Shaixuan1.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan1数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan1数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan1数据集窗口中,点击查询生成器,将shaixuan1数据集里面的变量全部拉入数据框。
Ø 单击“过滤数据框”,将“买家实际支付金额”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“大于”,在“值:”选项框中填写“5”,点击“下一步”按钮;点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.shaixuan2,将标签改为shaixuan2。点击“确定”按钮。
将筛选后的观测值存为数据集shaixuan2.sas7bdat。筛选后的数据量为94590,原数据shaixuan1量为94665,所以,买家实际支付金额小于5的订单量为75。
将该知识点中产生的数据集shaixuan2.sas7bdat保存起来,以为后续使用。
筛选后的数据量为94590,原数据shaixuan1量为94665,所以,买家实际支付金额小于5的订单量为75。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
筛选非退款类订单。
数据筛选
SasEG
对数据进行筛选,筛选非退款类订单。
Shaixuan2.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan2数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan2数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan2数据集窗口中,点击查询生成器,将shaixuan2数据集里面的变量全部拉入数据框。
Ø 单击“过滤数据“框,将“买家实际支付金额”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“不等于”,在“值:”下拉菜单中选择“列”中的“买家应付邮费”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.shaixuan3,将标签改为shaixuan3。点击“确定”按钮。
Ø 点击“运行”按钮。
将筛选后的观测值存为数据集shaixuan3.sas7bdat,筛选后的数据量为92934,原数据shaixuan2量为94590,所以,退款类订单量为1656。
将该知识点中产生的数据集shaixuan3.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan3.sas7bdat,筛选后的数据量为92934,原数据shaixuan2量为94590,所以,退款类订单量为1656。。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
删除购买频率大于25的买家的订单。
变量`计算 数据筛选
SasEG
对数据进行筛选,删除购买频率大于25的买家的订单。
Shaixuan3.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan3数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan3数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan3数据集窗口中,点击查询生成器,将shaixuan3数据集里面的变量全部拉入数据框。
Ø 单击“添加新的计算列”,在步骤一中选择“汇总列”,点击“下一步”按钮;选择“买家会员名”变量,点击“下一步”按钮; “汇总”选项选择“COUNT”,将“标签”设置为“购买频率”,点击“下一步”按钮;
Ø 在“查询生成器”页面中不勾选“汇总组”中的“自动选择组”,点击“编辑组”,将“买家会员名”拉入“分组依据”中,点击“确定”按钮;
Ø 勾选复选框“仅选择非重复行”。这是为了过滤掉重复记录的单子
Ø 单击“过滤数据”选项框,在“过滤汇总数据”那里,点击“新建过滤器”,选择“基本过滤器”,“过滤条件”的第一个选项框选择“_Calculation”变量,第二个选项框选择“小于”,第三个选项框中直接输入“25”,取消“值的两侧应加引号”,点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.finaldata,将标签改为finaldata。点击“确定”按钮。
Ø 点击“运行”按钮。
将筛选后的观测值存为数据集shaixuan4.sas7bdat,筛选后的数据量为89662,原数据shaixuan3量为92934,所以,些订单中有3272条订单被判定为刷销量订单。
将该知识点中产生的数据集shaixuan4.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan4.sas7bdat,筛选后的数据量为89662,原数据shaixuan3量为92934,所以,些订单中有3272条订单被判定为刷销量订单。
数据分析
对数据进行建模之前通常对数据进行一个基本描述,比如分类变量看下频数分布,我们这里对性别进行频数分析。
对变量进行频数分布分析。
频数统计
SasEG
对分类变量进行频数统计。
member.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的finaldata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中finaldata数据集的图标 ,即可查看里面的数据。
Ø 在finaldata数据表下打开“查询生成器”,把左边的变量全部拖入右侧,点击“计算列”,在第一步选择类型中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用“收货地址”生成地区名,输入“SUBSTR(t1.col13, 1, (FIND(t1.col13," ")-1))”,可点选公式和变量名进行选择,点击“下一步”;
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“province”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“查询生成器”下,继续点击“计算列”,在第一步选择类型中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用“收货地址”生成城市名,输入“SUBSTR(t1.col13,FIND(t1.col13," ")+1)”,可点选公式和变量名进行选择,点击“下一步”按钮;
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“city”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 上述两个变量计算好后,点击“选项”,将输出名称改为mylib.address,把标签改为address。点击“运行”按钮。结果见图12。
图12 查询器生成结果
Ø 在address数据集窗口,执行“描述”“单因子频数”。在“数据”选项下,把“province”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见图12.7。
图12.7单因子频数结果
结果分析:可以看到北京的频数是最高的。
将该知识点过程中产生的address数据集进行保存,以方便后续的使用。
对于分类变量,可以通过单因子频数的方式对其进行描述,也可以通过饼形图对其进行描述。
数据分析
去掉交易关闭订单筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161,交易不成功的订单量占总订单量的20.8%。
2013年这家店交易不成功的订单比重在合理范围之内,但在之后需要进一步分析交易关闭的原因,下一年的销售中需注意减少交易关闭的情况。
分析交易关闭的情况,分析原因,以便客户回访
一般淘宝交易关闭有两种情况:
1) 买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易。
2) 买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
可以做汇总表对这两种情况分别占的比例进行分析,由于第一种情况,买家未付款,在表中体现为“订单付款时间”为空;第二种情况,欠款已退回,在表中体现为“订单付款时间”存在。基本步骤如下:
生成交易关闭原因变量。
变量计算
SasEG
对变量进行计算。
对交易失败的订单进行归类,买家未付款定义为0类。欠款已退回定义为1类。计算新列col16_code,重新编码订单付款时间。编码逻辑为:订单付款时间等于.时,返回0,订单付款时间不等于.时,返回1。
closedata.sas7dbat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
把左侧下方的逻辑库mylib下面的closedata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中closedata数据集的图标 ,即可查看里面的数据。
Ø 在数据表closedata下打开“查询生成器”,“选择数据”部分选择全部数据。
Ø 点击“选项”,将输出名称改为mylib.closedata1,把标签改为closedata1。
Ø 点击左上角的“计算列”,弹出“计算列”窗口,点击“新建”:新建计算列。
Ø 在第一步“选择类型”中点选“重新码列”;
Ø 在第二步“选择列”中选择“订单付款时间”,点击“下一步”按钮;
Ø 在第三步“指定替换”中“添加”替换,选择 “替换条件”窗口,订单付款时间等于.时,使用此值(W)输入0,勾选“该值的两侧应加引号(Q)”,点击“确定”按钮。按照同样的方法添加订单付款时间不等于.时,使用值1的条件,点击“确定”按钮。
Ø 列类型设为“字符”,添加完成后点击“下一步”;
Ø 在第四步“修改其他选项”中将“标识符和列名”全部设为“col16_code”,“输出格式”设置为“无”,点击“下一步”按钮;
Ø 点击“完成”按钮,关闭计算列窗口,点击“运行”按钮。
图15 创建辅助列col16_code
Ø 在closedata1数据集窗口,执行“描述”“单因子频数”。在“数据”选项下,把“col16_code”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见图12.7。
图12.7单因子频数结果
从表中可以看出,交易关闭的订单中有85.76%的买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易,而有14.24%的买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
结合上一部分的描述分析,可以得出,交易关闭订单占总订单的20.8%,这其中有85.76%的买家只是拍下商品,但是未付款,14.24%的买家申请退款。也就是说,总订单中有17.83%(20.8% * 85.76% = 17.83%)的客户想要购买,却最终没有付钱;2.96%(20.8% * 14.24% = 17.83%)的客户购买以后选择退货。参考同行业指标,退货率比较正常,后续销售过程中应重点关注有购买欲望却最终没有购买的订单,采取相应的销售策略。
把该知识点的操作产生新的数据集closedata1.sas7bdat保存到路径下,以备后续使用。
有的时候我们先要计算出分类变量来然后再进行频数分布分析。交易关闭的订单中有85.76%的买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易,而有14.24%的买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
结合上一部分的描述分析,可以得出,交易关闭订单占总订单的20.8%,这其中有85.76%的买家只是拍下商品,但是未付款,14.24%的买家申请退款。也就是说,总订单中有17.83%(20.8% * 85.76% = 17.83%)的客户想要购买,却最终没有付钱;2.96%(20.8% * 14.24% = 17.83%)的客户购买以后选择退货。参考同行业指标,退货率比较正常,后续销售过程中应重点关注有购买欲望却最终没有购买的订单,采取相应的销售策略。
数据分析
客户画像(UserProfile)即给用户打上标签,用一种朴素、简洁的方法来描述用户信息。客户画像可以完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。
RFM模型是Bult and Wansbeek于1995年提出来的,认为客户行为三要素 Recency (R)、Frequency (F) 与 Monetary (M)构成了客户购买潜力价值的核心组成部分。该模型经常应用于 CRM 框架下的客户行为分析。
用聚类分析对客户进行画像。
聚类分析 FRM sas编程
SasEG
对个案进行聚类分析。
finaldata.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
把左侧下方的逻辑库mylib下面的finaldata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中finaldata数据集的图标 ,即可查看里面的数据。
Ø 在数据表finaldata下打开“查询生成器”,“选择数据”部分选择全部数据。
Ø 点击“选项”,将输出名称改为mylib.rfmp,把标签改为rfmp。
在查询生成器中计算所有订单距离2013年最后一天的订单付款天数
操作步骤:
Ø 在findaldata数据表下打开“查询生成器”,点击“计算列”,在第一步“选择类型”中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用观测窗口结束时间减去入会时间,输入“max(DATEPART(t1.col16))-DATEPART(t1.col16)”,可点选公式和变量名进行选择,点击“下一步”按钮;(计算下载数据的日期(可以用数据中的订单最新日期,)和所有订单时间间隔,设置为变量recently)
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“Recently”, 修改格式数值为BESTX3.,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 汇总组部分取消“自动选择组”的勾选。见图18。
Ø 点击“运行”按钮。
图18 查询生成器设定窗口。
分别计算RFM
操作步骤:
Ø 在rfmp数据集窗口下,点击查询生成器,将该查询输出结果设定为mylib.rfm1。将clo3(买家支付宝账号)、Recently、col9(买家实际支付金额)、col1拖至“选择数据”中,在数据框第三列的汇总栏中,分别单击Recently、col1、col9(买家实际支付金额)三个变量的下拉菜单,选择“MIN”、 “COUNT”、“SUM”。取消“自动选择组”的勾选,点击“编辑组”,选择t1.col3。勾选“仅选择非重复行”如下图所示,
Ø 单击“运行”按钮。
数据分析咨询请扫描二维码
需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20