数据挖掘之用户价值分析
这里要介绍的是基于每个用户行为的综合性的分析和评定,主要包括用户的忠诚度和用户的价值。“以用户为中心”的理论要求网站不断优化改善用户的体验,进而提升用户的满意度,当用户的预期不断被满足时,用户就会喜欢上这个网站,进而发展成为网站的忠诚用户,同时不断地为网站输出价值。忠诚用户不但自身为网站创造价值,而且可以为网站带来许多隐性的收益,比如品牌和口碑的推广,带动其他用户的进入和成长。所以网站的忠诚用户是网站生存和持续发展的基石,我们需要掌握每个用户的忠诚度,同时也需要了解每个用户的价值体现。
这次的数据分析需求来自网站的营销部门,营销部门的同事需要跟进一些网站的已付费用户和潜在的付费用户,以便更好地推广网站的产品,为客户提供更好的服务,引导新用户的消费和老客户的持续性消费。营销部门因为资源有限,面对不断扩大的客户群体开始犯愁,他们没有精力对每位用户进行跟进和服务,于是他们请求数据分析师的帮助,帮他们寻找定位目标客户,以便提升工作效率。销售部门发来了数据分析的需求邮件。 看来这个问题确实困扰着营销部的同事,如果他们所做的营销工作大部分用户没有任何响应,这是一件让人非常沮丧的事情。他们的目的就是缩小目标群体,定位那么有意愿有潜力的价值客户,以便减少日常的无效工作,提升效率。他们需要的就是用户忠诚度的分析、用户价值的评定和用户价值的持续发展情况。我们用数据分析的方法来一一解决这些问题。
基于用户行为的忠诚度分析
用户忠诚度(Loyalty)是用户出于对企业或品牌的偏好而经常性重复购买的程度。对于网站来说,用户忠诚度则是用户出于对网站的功能或服务的偏好而经常访问该网站的行为。根据客户忠诚理论,传统销售行业的忠诚度可由以下4个指标来度量:
l 重复购买意向(Repurchase Intention):购买以前购买过的类型产品的意愿;
l 交叉购买意向(Cross-buying Intention):购买以前为购买的产品类型或扩展服务的意愿;
l 客户推荐意向(Customer Reference Intention):向其他潜在客户推荐,传递品牌口碑的意愿;
l 价格忍耐力(Price Tolerance):客户愿意支付的最高价格。
以上4个指标对于电子商务网站而言,可能还有适用性,但对于大多数网站是不合适的,所以为了让分析具有普遍的适用性,同时为了满足所有的指标都可以量化(上面的客户推荐意向比较难以量化),以便进行定量分析的要求,我们选择所有网站都具备的基于访问的用户行为指标:用户访问频率、最近访问间隔时间、平均停留时长和平均浏览页面数,这些也是Google Analytics原版本中用户忠诚度模块下的4个指标。
这4个指标在上文已经多次提到了,定义不再重复介绍。统计数据的时间区间也是根据网站的特征来定的,如果网站的信息更新较快,用户访问较为频繁,那么可以适当选取较短的时间段,这样数据变化上的灵敏度会高些;反之,则选择稍长的时间段,这样用户的数据更为丰富,指标的分析结果也会更加准确有效。在统计得到这4个指标的数值之后,单凭指标数值还是无法得到用户忠诚度的高低,需要对指标进行标准化处理得到相应的评分,通过评分就可以分辨用户的忠诚度在总体中处于什么样的程度。
这里使用min-max归一化的方法,将4个指标分别进行归一化后缩放到10分制(0~10分)的评分区间。这里需要注意的是,min-max归一化会受到异常值的影响,比如用户浏览页面数有一个50的异常大的数值,那么归一化后大部分的值都在集中在较小的分值区域,所以建议在归一化之前排查一下各指标是否存在异常值,如果存在,可以对异常值进行转换或过滤;同时这里的最近访问间隔时间同样适用“天”为单位,注意归一化的时候需要进行特殊处理,因为间隔天数越大,相应的评分应该越小,不同于其他3个指标,其他3个指标使用公式(x-min) / (max-min),最近访问间隔天数要使用(max-x) / (max-min)的方式进行处理。我们使用近一个月的用户访问数据,选择其中3个用户列举一下用户行为数据的处理情况,见表6-2。
表 6-1 用户忠诚度指标评
表6-2中,用户忠诚度的4个分析指标经过标准化处理后统一以十分制的形式输出,这样就能直接区分每个用户的每项指标的表现好坏。基于每个指标的评分,可以对用户进行筛选,比如营销部门重点跟进经常访问网站的用户,可以选择访问频率评分大于3分的用户,或者重点跟进用户访问参与度较高的用户,可以筛选平均停留时间和平均访问页面数都大于3分的用户,这样能够帮助营销部门迅速定位忠诚用户。
这里我们用4个用户行为指标来评价用户的忠诚度,这类基于多指标从多角度进行评价最常见的展现方式就是雷达图,或者叫蛛网图,在电脑游戏里面比较常见,比如一些足球游戏使用雷达图来表现球员的各方面的能力指数,如防守、进攻、技术、力量、精神等,所以这里也可以借用雷达图用4个指标来展现用户的忠诚度表现情况,如图6-18所示。
图 6-1 用户忠诚度雷达图
图6-18使用了表6-2中三位用户的评分数据绘制而成,能够非常形象地表现用户忠诚度在各指标上的表现情况,用户1的整体忠诚度较低,用户2在访问频率和访问间隔具有较好表现,而用户3的访问具有相对较高的参与度。使用雷达图分析用户的忠诚度主要有如下优势:
u 可以完整地显示所有评价指标;
u 显示用户在各指标评分中的偏向性,在哪些方面表现较好;
u 可以简单观察用户整体的忠诚情况,即图形围成的面积大小(假设4个指标的权重相等,若重要程度存在明显差异,则不能用面积来衡量);
u 可以用于用户间忠诚度的比较。
所以,基于雷达图展现用户的忠诚度之后,营销部门可以直接查看哪些用户具有较好的忠诚度,哪些用户值得他们重点跟进。
基于用户行为的综合评分
上面介绍的用户忠诚度分析使用用户的4个行为指标来进行评估,但我们只能看到各指标的表现,无法评定用户忠诚度的总体水平,所以需要对所有的相关指标做汇总处理,获取一个综合评分,就像足球游戏中球员的综合能力值(Overall)。上面忠诚度的相关指标经过标准化已经统一了度量区间,最简单的方法就是取所有相关指标评分的均值来计算得到忠诚度综合评分,这样的处理将所有指标以同等的重要性进行对待,但现实情况下不同指标对综合评分的影响是不一样的,有些指标比较关键,有些则相对次要,所以这里引入AHP的方法来设定不同指标的权重。
AHP(层次分析法)是美国运筹学家T. L. Saaty教授于20世纪70年代初期提出的,AHP是对定性问题进行定量分析的一种简便、灵活、实用的多准则决策方法。它的特点是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化,根据对一定客观现实的主观判断将每个层次元素两两比较的重要性进行定量描述。而后,利用数学方法计算反映每一层次元素的相对重要性次序的权值,通过所有层次之间的总排序计算所有元素的相对权重并进行排序。层次分析法适用于多目标决策,用于存在多个影响指标的情况下,评价各方案的优劣程度。当一个决策受到多个要素的影响,且各要素间存在层次关系,或者有明显的类别划分,同时各指标对最终评价的影响程度无法直接通过足够的数据进行量化计算的时候,就可以选择使用层次分析法。
了解了AHP之后,我们以上面的忠诚度评分为例,先简单介绍AHP的应用。首先根据忠诚度的影响指标构建层次模型,这里只需要两层,上层是忠诚度,下层是影响忠诚度的4个指标,如图6-19所示。
图 6-2 忠诚度评分层次模型
我们需要计算底层的4个指标对忠诚度的影响权重,需要构建对比矩阵,即运用9标度对需要赋权的同层各影响要素间进行两两比较,例如模型中的要素i相对于要素j对上层的重要程度,1表示i与j同等重要,3表示i比j略重要,5表示i比j重要,7表示i比j重要很多,9表示i比j极其重要,可以用Wi/Wj表示该重要程度,两两比较后可以得到以下矩阵:
两两比较的结果可以得到矩阵对角线上方的各个比值,而这个矩阵对角线两边的对称元素是相互的倒数,并且对角线的所有元素的值都为1,所以得到对角线一侧的数值就可以得到整个矩阵。因为矩阵的数值是两两比较的结果,所以可能存在A元素比B元素重要,B元素比C元素重要,但C元素却比A元素重要的情况,也就是矩阵的不一致性,所以首先需要验证该对比矩阵的一致性。可以通过计算矩阵的最大特征值的方法来衡量矩阵的一致性,相关的指标有一致性指标CI,随机一致性指标RI,一致性比率CR=CI/RI,一般当CR<0.1时,我们认为该对比矩阵的一致性是可以被接受的。如果矩阵的一致性满足要求,则可以根据矩阵的最大特征值进一步计算得到对应的特征向量,并通过对特征向量进行标准化(使特征向量中各分量的和为1)将其转化为权向量,也就是我们要求的结果,权向量中的各分量反映了各要素对其相应的上层要素的影响权重。
因为层次分析法AHP的计算过程设计一些高等数学相关方面的知识,需要详细了解可以参考一些统计学、运筹学和决策学方面的书籍和资料,也可以在网上直接搜索AHP的分析软件,一些工具支持在输入指标两两比较的结果后就可以直接输出一致性检验结果及各层次指标的权重系数。
表 6-2 用户忠诚度加权评分
表6-3中,通过加权的方式计算得到用户忠诚度评分之后,就可以直接比较忠诚度评分来评价哪个用户的忠诚度综合值较高、哪个较低,营销部门的同事就有了对用户更直接的取舍依据。
上面只是对用户的忠诚度做了评定,无法体现用户创造的价值,而营销部门的第二个需求点就是对用户的综合价值的评定,比如电子商务网站的用户可能具备一定的忠诚度,但如果只看不买,仍然无法为网站带来足够的价值,所以需要进一步评定用户的价值输出,电子商务类网站尤其可以关注这一点。为了体现用户的价值输出,我们在选择指标的时候需要考虑与用户购买消费相关的指标,这里罗列了5个指标供参考:
1. 最近购买间隔:可以取用户最近一次购买距当前的天数,反映用户是否继续保持在网站的消费;
2. 购买频率:用户在一段时间内购买的次数,重点反映用户的消费黏度;
3. 购买商品种类:用户在一段时间内购买的商品种类或商品大类,反映用户需求的广度,可以分析用户价值输出的多样性和扩展空间;
4. 平均每次消费额:用户在一段时间内的消费总额÷消费的次数,即客单价,反映用户的平均消费能力;
5. 单次最高消费额:用户在一段时间内购买的单次最高支付金额,反映用户的支付承受能力,同时也能体现用户对网站的信任度。
上面的5个指标从不同的角度反映了用户的价值输出能力,并且是可量化统计得到的,同样有时间区间的限制,需要注意选择合适的时间段长度。为了能够统一衡量价值,同样需要对上面的5个指标进行标准化,使用10分制的方式输出进行评定,还是使用雷达图,如图6-20所示。
图 6-3 用户价值雷达图
图6-20用雷达图展现了3个用户各指标的数据表现来反映用户的价值特征,根据每个指标的属性可以将用户的价值进一步分为两块,其中最近购买间隔、购买频率和购买商品种类用来表现用户的购买忠诚度,而平均每次消费额和单次最高消费额用于反映用户的消费能力,图6-20中框起来的两块区域,雷达图的上半部分用于表现用户的购买忠诚度,下半部分用于表现用户的消费能力,从图中3个用户的数据进行分析,用户3的整体价值较低,用户1和2的价值较高,而且用户1的价值集中体现在较高的消费能力,用户2的价值更多地体现在较高的购买忠诚度。
雷达图很好地展现了用户价值在不同指标中的体现,再结合层次分析法,就可以对用户的价值进行综合评分,基础的数据源于上面5个指标的评分结果,使用AHP不仅可以得到最终的用户价值评分,同时还可以得到上面的购买忠诚度和消费能力这两方面的评分。
图 6-4 用户价值评分层次模型
图6-21是使用AHP的方法构建的用户价值评分层次模型,底层是5个基础指标,中间层是用户价值的两个方面,分别对应各自的指标,最上层就是用户的综合价值。这里需要使用3次AHP来计算:
购买忠诚度和消费能力对用户价值的影响权重;
最近购买间隔、购买频率和购买产品种类对购买忠诚度的影响权重;
平均每次消费额和单次最高消费额对消费能力的影响权重。
经过3次两两比较计算后就可以得到图上的每一层指标对上次的影响权重,正如连接线上标注的数值,转化为公式的结果如下:
用户价值 = 购买忠诚度×0.67 + 消费能力×0.33
忠诚度 = 最近购买时间×0.12 + 购买频率×0.64 + 购买产品种类×0.24
消费能力 = 平均每次消费额×0.67 + 单词最高消费额×0.33
经过推导,我们可以用底层5个指标的评分直接计算得到用户的综合价值评分:
用户综合价值评分=(最近购买间隔评分×0.12+购买频率评分×0.64+购买产品种类评分×0.24)×0.67+(平均每次消费额评分×0.67+单次最高消费额评分×0.33)×0.33
用户综合价值评分=最近购买间隔评分×0.08+购买频率评分×0.43+购买产品种类评分×0.16+平均每次消费额评分×0.22+单次最高消费额评分×0.11
有了上面的计算公式,图6-21中所有层次的评分都可以计算得到了,我们根据雷达图中举例的3个用户的数据来计算一下他们的综合得分情况,见表 6-4。
表 6-3 用户价值加权评分
表中不仅计算得到了综合价值评分,同时得到了购买忠诚度和消费能力这两个中间层的得分,这样我们不仅能够通过直接比较用户的综合价值评分获取网站的重要用户,同时忠诚度和消费能力的评分也为针对用户的细分提供了一个有力的量化数值参考依据,如图6-22所示。
图 6-5 用户价值评价细分图
图中展示了100位用户的价值评分数据,根据购买忠诚度和消费能力的评分情况分成了4块,从中可以看出电子商务网站用户特征的分布情况:
从C区域可以看出用户较多地分布在忠诚度和消费能力评分为3附近的区域,也是网站最普遍的客户群;
B区域的用户是网站的最有价值客户(VIP),但是数量相当稀少,可能不到10%;
在A区域有一个点密集区间(忠诚度1~2、消费能力8~9),可以认为是网站的高级消费用户群,他们消费不多,但消费额很高,如果你的网站提供高价值消费品、批量购买等服务的话,那么他们就可能是那方面的客户群;
D区域的用户虽然消费能力也不强,但他们是网站的忠实粉丝,不要忽视这些用户,他们往往是网站线下营销和品牌口碑传播的有利拥护者。
通过类似上面的分析过程,可以发现电子商务网站用户的某些特征,为网站的运营方向和营销策略提供一定的决策支持。如果你要制订针对用户的营销策略,你会先从A、B、C、D这4类用户群体中的哪类先下手?
数据分析咨询请扫描二维码
在当今以数据为导向的商业环境中,数据分析师的角色变得越来越重要。无论是揭示消费者行为的趋势,还是优化企业运营的效率,数据 ...
2024-11-17金融数学是一门充满挑战和机遇的专业,它将数学、统计学和金融学的知识有机结合,旨在培养能够运用数学和统计方法解决复杂金融市 ...
2024-11-16在信息时代的浪潮中,大数据已成为推动创新的重要力量。无论是在商业、医疗、金融,还是在日常生活中,大数据扮演的角色都愈发举 ...
2024-11-16随着大数据技术的迅猛发展,数据已经成为现代商业、科技乃至生活各个方面的重要资产。大数据专业的毕业生在这一变革背景下,拥有 ...
2024-11-15随着大数据技术的迅猛发展,数据已经成为现代商业、科技乃至生活各个方面的重要资产。大数据专业的毕业生在这一变革背景下,拥有 ...
2024-11-15在快速演变的数字时代,数据分析已成为多个行业的核心驱动力。无论你是刚刚踏入数据分析领域,还是寻求进一步发展的专业人士,理 ...
2024-11-15Python作为一种通用编程语言,以其简单易学、功能强大等特点,成为众多领域的核心技术驱动者。无论是初学者还是有经验的编程人员 ...
2024-11-15在当今数据驱动的世界中,数据分析已成为许多行业的基础。无论是商业决策,产品开发,还是市场策略优化,数据分析都扮演着至关重 ...
2024-11-15数据分析作为现代商业和研究领域不可或缺的一部分,吸引了越来越多的初学者。然而,自学数据分析的过程中,初学者常常会遇到许多 ...
2024-11-15在当今的数据驱动世界中,机器学习方法在数据挖掘与分析中扮演着核心角色。这些方法通过从数据中学习模式和规律来构建模型,实现 ...
2024-11-15随着数据在各个行业的重要性日益增加,数据分析师在商业和技术领域的角色变得至关重要。其核心职责之一便是通过数据可视化,将复 ...
2024-11-15数据分析师的职责不仅仅局限于解析数据和得出结论,更在于将这些复杂的信息转换为清晰、易懂且具有影响力的沟通。良好的沟通能力 ...
2024-11-15数字化转型是企业提升竞争力和实现可持续发展的关键路径。面对快速变化的市场环境,以及技术的飞速发展,企业在数字化转型过程中 ...
2024-11-15CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13