数据挖掘之用户价值分析
这里要介绍的是基于每个用户行为的综合性的分析和评定,主要包括用户的忠诚度和用户的价值。“以用户为中心”的理论要求网站不断优化改善用户的体验,进而提升用户的满意度,当用户的预期不断被满足时,用户就会喜欢上这个网站,进而发展成为网站的忠诚用户,同时不断地为网站输出价值。忠诚用户不但自身为网站创造价值,而且可以为网站带来许多隐性的收益,比如品牌和口碑的推广,带动其他用户的进入和成长。所以网站的忠诚用户是网站生存和持续发展的基石,我们需要掌握每个用户的忠诚度,同时也需要了解每个用户的价值体现。
这次的数据分析需求来自网站的营销部门,营销部门的同事需要跟进一些网站的已付费用户和潜在的付费用户,以便更好地推广网站的产品,为客户提供更好的服务,引导新用户的消费和老客户的持续性消费。营销部门因为资源有限,面对不断扩大的客户群体开始犯愁,他们没有精力对每位用户进行跟进和服务,于是他们请求数据分析师的帮助,帮他们寻找定位目标客户,以便提升工作效率。销售部门发来了数据分析的需求邮件。 看来这个问题确实困扰着营销部的同事,如果他们所做的营销工作大部分用户没有任何响应,这是一件让人非常沮丧的事情。他们的目的就是缩小目标群体,定位那么有意愿有潜力的价值客户,以便减少日常的无效工作,提升效率。他们需要的就是用户忠诚度的分析、用户价值的评定和用户价值的持续发展情况。我们用数据分析的方法来一一解决这些问题。
基于用户行为的忠诚度分析
用户忠诚度(Loyalty)是用户出于对企业或品牌的偏好而经常性重复购买的程度。对于网站来说,用户忠诚度则是用户出于对网站的功能或服务的偏好而经常访问该网站的行为。根据客户忠诚理论,传统销售行业的忠诚度可由以下4个指标来度量:
l 重复购买意向(Repurchase Intention):购买以前购买过的类型产品的意愿;
l 交叉购买意向(Cross-buying Intention):购买以前为购买的产品类型或扩展服务的意愿;
l 客户推荐意向(Customer Reference Intention):向其他潜在客户推荐,传递品牌口碑的意愿;
l 价格忍耐力(Price Tolerance):客户愿意支付的最高价格。
以上4个指标对于电子商务网站而言,可能还有适用性,但对于大多数网站是不合适的,所以为了让分析具有普遍的适用性,同时为了满足所有的指标都可以量化(上面的客户推荐意向比较难以量化),以便进行定量分析的要求,我们选择所有网站都具备的基于访问的用户行为指标:用户访问频率、最近访问间隔时间、平均停留时长和平均浏览页面数,这些也是Google Analytics原版本中用户忠诚度模块下的4个指标。
这4个指标在上文已经多次提到了,定义不再重复介绍。统计数据的时间区间也是根据网站的特征来定的,如果网站的信息更新较快,用户访问较为频繁,那么可以适当选取较短的时间段,这样数据变化上的灵敏度会高些;反之,则选择稍长的时间段,这样用户的数据更为丰富,指标的分析结果也会更加准确有效。在统计得到这4个指标的数值之后,单凭指标数值还是无法得到用户忠诚度的高低,需要对指标进行标准化处理得到相应的评分,通过评分就可以分辨用户的忠诚度在总体中处于什么样的程度。
这里使用min-max归一化的方法,将4个指标分别进行归一化后缩放到10分制(0~10分)的评分区间。这里需要注意的是,min-max归一化会受到异常值的影响,比如用户浏览页面数有一个50的异常大的数值,那么归一化后大部分的值都在集中在较小的分值区域,所以建议在归一化之前排查一下各指标是否存在异常值,如果存在,可以对异常值进行转换或过滤;同时这里的最近访问间隔时间同样适用“天”为单位,注意归一化的时候需要进行特殊处理,因为间隔天数越大,相应的评分应该越小,不同于其他3个指标,其他3个指标使用公式(x-min) / (max-min),最近访问间隔天数要使用(max-x) / (max-min)的方式进行处理。我们使用近一个月的用户访问数据,选择其中3个用户列举一下用户行为数据的处理情况,见表6-2。
表 6-1 用户忠诚度指标评
表6-2中,用户忠诚度的4个分析指标经过标准化处理后统一以十分制的形式输出,这样就能直接区分每个用户的每项指标的表现好坏。基于每个指标的评分,可以对用户进行筛选,比如营销部门重点跟进经常访问网站的用户,可以选择访问频率评分大于3分的用户,或者重点跟进用户访问参与度较高的用户,可以筛选平均停留时间和平均访问页面数都大于3分的用户,这样能够帮助营销部门迅速定位忠诚用户。
这里我们用4个用户行为指标来评价用户的忠诚度,这类基于多指标从多角度进行评价最常见的展现方式就是雷达图,或者叫蛛网图,在电脑游戏里面比较常见,比如一些足球游戏使用雷达图来表现球员的各方面的能力指数,如防守、进攻、技术、力量、精神等,所以这里也可以借用雷达图用4个指标来展现用户的忠诚度表现情况,如图6-18所示。
图 6-1 用户忠诚度雷达图
图6-18使用了表6-2中三位用户的评分数据绘制而成,能够非常形象地表现用户忠诚度在各指标上的表现情况,用户1的整体忠诚度较低,用户2在访问频率和访问间隔具有较好表现,而用户3的访问具有相对较高的参与度。使用雷达图分析用户的忠诚度主要有如下优势:
u 可以完整地显示所有评价指标;
u 显示用户在各指标评分中的偏向性,在哪些方面表现较好;
u 可以简单观察用户整体的忠诚情况,即图形围成的面积大小(假设4个指标的权重相等,若重要程度存在明显差异,则不能用面积来衡量);
u 可以用于用户间忠诚度的比较。
所以,基于雷达图展现用户的忠诚度之后,营销部门可以直接查看哪些用户具有较好的忠诚度,哪些用户值得他们重点跟进。
基于用户行为的综合评分
上面介绍的用户忠诚度分析使用用户的4个行为指标来进行评估,但我们只能看到各指标的表现,无法评定用户忠诚度的总体水平,所以需要对所有的相关指标做汇总处理,获取一个综合评分,就像足球游戏中球员的综合能力值(Overall)。上面忠诚度的相关指标经过标准化已经统一了度量区间,最简单的方法就是取所有相关指标评分的均值来计算得到忠诚度综合评分,这样的处理将所有指标以同等的重要性进行对待,但现实情况下不同指标对综合评分的影响是不一样的,有些指标比较关键,有些则相对次要,所以这里引入AHP的方法来设定不同指标的权重。
AHP(层次分析法)是美国运筹学家T. L. Saaty教授于20世纪70年代初期提出的,AHP是对定性问题进行定量分析的一种简便、灵活、实用的多准则决策方法。它的特点是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化,根据对一定客观现实的主观判断将每个层次元素两两比较的重要性进行定量描述。而后,利用数学方法计算反映每一层次元素的相对重要性次序的权值,通过所有层次之间的总排序计算所有元素的相对权重并进行排序。层次分析法适用于多目标决策,用于存在多个影响指标的情况下,评价各方案的优劣程度。当一个决策受到多个要素的影响,且各要素间存在层次关系,或者有明显的类别划分,同时各指标对最终评价的影响程度无法直接通过足够的数据进行量化计算的时候,就可以选择使用层次分析法。
了解了AHP之后,我们以上面的忠诚度评分为例,先简单介绍AHP的应用。首先根据忠诚度的影响指标构建层次模型,这里只需要两层,上层是忠诚度,下层是影响忠诚度的4个指标,如图6-19所示。
图 6-2 忠诚度评分层次模型
我们需要计算底层的4个指标对忠诚度的影响权重,需要构建对比矩阵,即运用9标度对需要赋权的同层各影响要素间进行两两比较,例如模型中的要素i相对于要素j对上层的重要程度,1表示i与j同等重要,3表示i比j略重要,5表示i比j重要,7表示i比j重要很多,9表示i比j极其重要,可以用Wi/Wj表示该重要程度,两两比较后可以得到以下矩阵:
两两比较的结果可以得到矩阵对角线上方的各个比值,而这个矩阵对角线两边的对称元素是相互的倒数,并且对角线的所有元素的值都为1,所以得到对角线一侧的数值就可以得到整个矩阵。因为矩阵的数值是两两比较的结果,所以可能存在A元素比B元素重要,B元素比C元素重要,但C元素却比A元素重要的情况,也就是矩阵的不一致性,所以首先需要验证该对比矩阵的一致性。可以通过计算矩阵的最大特征值的方法来衡量矩阵的一致性,相关的指标有一致性指标CI,随机一致性指标RI,一致性比率CR=CI/RI,一般当CR<0.1时,我们认为该对比矩阵的一致性是可以被接受的。如果矩阵的一致性满足要求,则可以根据矩阵的最大特征值进一步计算得到对应的特征向量,并通过对特征向量进行标准化(使特征向量中各分量的和为1)将其转化为权向量,也就是我们要求的结果,权向量中的各分量反映了各要素对其相应的上层要素的影响权重。
因为层次分析法AHP的计算过程设计一些高等数学相关方面的知识,需要详细了解可以参考一些统计学、运筹学和决策学方面的书籍和资料,也可以在网上直接搜索AHP的分析软件,一些工具支持在输入指标两两比较的结果后就可以直接输出一致性检验结果及各层次指标的权重系数。
表 6-2 用户忠诚度加权评分
表6-3中,通过加权的方式计算得到用户忠诚度评分之后,就可以直接比较忠诚度评分来评价哪个用户的忠诚度综合值较高、哪个较低,营销部门的同事就有了对用户更直接的取舍依据。
上面只是对用户的忠诚度做了评定,无法体现用户创造的价值,而营销部门的第二个需求点就是对用户的综合价值的评定,比如电子商务网站的用户可能具备一定的忠诚度,但如果只看不买,仍然无法为网站带来足够的价值,所以需要进一步评定用户的价值输出,电子商务类网站尤其可以关注这一点。为了体现用户的价值输出,我们在选择指标的时候需要考虑与用户购买消费相关的指标,这里罗列了5个指标供参考:
1. 最近购买间隔:可以取用户最近一次购买距当前的天数,反映用户是否继续保持在网站的消费;
2. 购买频率:用户在一段时间内购买的次数,重点反映用户的消费黏度;
3. 购买商品种类:用户在一段时间内购买的商品种类或商品大类,反映用户需求的广度,可以分析用户价值输出的多样性和扩展空间;
4. 平均每次消费额:用户在一段时间内的消费总额÷消费的次数,即客单价,反映用户的平均消费能力;
5. 单次最高消费额:用户在一段时间内购买的单次最高支付金额,反映用户的支付承受能力,同时也能体现用户对网站的信任度。
上面的5个指标从不同的角度反映了用户的价值输出能力,并且是可量化统计得到的,同样有时间区间的限制,需要注意选择合适的时间段长度。为了能够统一衡量价值,同样需要对上面的5个指标进行标准化,使用10分制的方式输出进行评定,还是使用雷达图,如图6-20所示。
图 6-3 用户价值雷达图
图6-20用雷达图展现了3个用户各指标的数据表现来反映用户的价值特征,根据每个指标的属性可以将用户的价值进一步分为两块,其中最近购买间隔、购买频率和购买商品种类用来表现用户的购买忠诚度,而平均每次消费额和单次最高消费额用于反映用户的消费能力,图6-20中框起来的两块区域,雷达图的上半部分用于表现用户的购买忠诚度,下半部分用于表现用户的消费能力,从图中3个用户的数据进行分析,用户3的整体价值较低,用户1和2的价值较高,而且用户1的价值集中体现在较高的消费能力,用户2的价值更多地体现在较高的购买忠诚度。
雷达图很好地展现了用户价值在不同指标中的体现,再结合层次分析法,就可以对用户的价值进行综合评分,基础的数据源于上面5个指标的评分结果,使用AHP不仅可以得到最终的用户价值评分,同时还可以得到上面的购买忠诚度和消费能力这两方面的评分。
图 6-4 用户价值评分层次模型
图6-21是使用AHP的方法构建的用户价值评分层次模型,底层是5个基础指标,中间层是用户价值的两个方面,分别对应各自的指标,最上层就是用户的综合价值。这里需要使用3次AHP来计算:
购买忠诚度和消费能力对用户价值的影响权重;
最近购买间隔、购买频率和购买产品种类对购买忠诚度的影响权重;
平均每次消费额和单次最高消费额对消费能力的影响权重。
经过3次两两比较计算后就可以得到图上的每一层指标对上次的影响权重,正如连接线上标注的数值,转化为公式的结果如下:
用户价值 = 购买忠诚度×0.67 + 消费能力×0.33
忠诚度 = 最近购买时间×0.12 + 购买频率×0.64 + 购买产品种类×0.24
消费能力 = 平均每次消费额×0.67 + 单词最高消费额×0.33
经过推导,我们可以用底层5个指标的评分直接计算得到用户的综合价值评分:
用户综合价值评分=(最近购买间隔评分×0.12+购买频率评分×0.64+购买产品种类评分×0.24)×0.67+(平均每次消费额评分×0.67+单次最高消费额评分×0.33)×0.33
用户综合价值评分=最近购买间隔评分×0.08+购买频率评分×0.43+购买产品种类评分×0.16+平均每次消费额评分×0.22+单次最高消费额评分×0.11
有了上面的计算公式,图6-21中所有层次的评分都可以计算得到了,我们根据雷达图中举例的3个用户的数据来计算一下他们的综合得分情况,见表 6-4。
表 6-3 用户价值加权评分
表中不仅计算得到了综合价值评分,同时得到了购买忠诚度和消费能力这两个中间层的得分,这样我们不仅能够通过直接比较用户的综合价值评分获取网站的重要用户,同时忠诚度和消费能力的评分也为针对用户的细分提供了一个有力的量化数值参考依据,如图6-22所示。
图 6-5 用户价值评价细分图
图中展示了100位用户的价值评分数据,根据购买忠诚度和消费能力的评分情况分成了4块,从中可以看出电子商务网站用户特征的分布情况:
从C区域可以看出用户较多地分布在忠诚度和消费能力评分为3附近的区域,也是网站最普遍的客户群;
B区域的用户是网站的最有价值客户(VIP),但是数量相当稀少,可能不到10%;
在A区域有一个点密集区间(忠诚度1~2、消费能力8~9),可以认为是网站的高级消费用户群,他们消费不多,但消费额很高,如果你的网站提供高价值消费品、批量购买等服务的话,那么他们就可能是那方面的客户群;
D区域的用户虽然消费能力也不强,但他们是网站的忠实粉丝,不要忽视这些用户,他们往往是网站线下营销和品牌口碑传播的有利拥护者。
通过类似上面的分析过程,可以发现电子商务网站用户的某些特征,为网站的运营方向和营销策略提供一定的决策支持。如果你要制订针对用户的营销策略,你会先从A、B、C、D这4类用户群体中的哪类先下手?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31