关联分析在游戏行业中应用案例
背景:研究用户的历史付费行为,对付费用户购买的道具进行研究,发现道具之间的关联性,方便运营根据道具的关联性进行活动推广。
数据源:2016年3月28日——2016年4月4日一个自然周的付费数据。
数据字段:付费次数、付费人数、付费金额及占比、道具名称。
研究对象:2016年3月28日——2016年4月4日一个自然周的付费用户群。
一、数据探索
(1)购买次数
购买一次的用户比例在74%,购买二次的用户占比在16%,只有10%左右的用户付费次数在三次以上。
图中可以看出,付费1次用户的付费金额占比在47%左右,付费二次用户的付费金额占比在23%附近,付费2次以上的用户付费金额占比在30%左右(其中三次付费占比在12%)。
(2)道具分析(TOP15)
可以看出:60钻石、双倍杨桃、3000杨桃购买的次数在所有道具购买中占比最大,分别为:24.41%、17.63%、16.70%(合计:58.74%)。
可以看出:60钻石、双倍杨桃、3000杨桃购买的人数在所有道具购买人数中占比最大,分别为:29.72%、26.38%、22.55%(合计:78.65%)。
可以看出:双倍杨桃的付费金额在道具中的收入占比最大(28.75%),其次是60钻石(11.93%),3000杨桃、刀刃、VIP等的占比相近。
二、数据说话
从上面数据中看出,用户付费行为习惯有如下特点:
(1)购买一次数用户占比最大,购买二次的次之。
(2)购买一次的用户对收入贡献最大,也是产品收入的中间力量。
(3)从购买的道具角度来看: 60钻石、双倍杨桃、3000杨桃这三个道具是最受欢迎的道具,购买的人数、次数也是最多的。
(4)从购买的金额来看:双倍杨桃的购买金额最多,远远高出了其余的道具的金额,但60钻石、双倍杨桃、3000杨桃的购买数量是最多的,这样可以看出道具的价格差距比较明显。
总上:为了提高收入,可以想办法让购买一次的用户再次去消费,降低一次消费用户的比例,提高二次消费用户的比例。提供用户的付费次数,进一步可以提高付费用户对游戏的忠诚度,从而可以提供付费用户的活跃度,降低付费用户的流失率(流失成本偏大)。利用道具之间的关联性,我们可以给购买了道具A的用户推荐购买率最大的道具B,这是道具的角度的出发的,粒度比较细。
三、道具关联性分析
概述:
利用数据挖掘的关联分析方法,我们可以知道道具之间的关联性(每条规则都有相应的概率大小),但最后的规则并不一定有真正的意义和价值,对于规则的合理性需要业务侧进行甄别和判别,每条规则都有相应的概率来支撑,概率越大,规则的真实性越可靠。
原理(可以不看,举例作为了解):
关联分析是一种在大规模数据集中寻找有趣关系的任务。这种关系表现为两种形式:
1.频繁项集(frequency item sets):经常同时出现的一些元素的集合。
2.关联规则(association rules): 意味着两种(或者多个)元素之间存在很强的关系。
下面举例来说明上面的两个概念:
表1 一个来自Hole Foods天食品店的简单交易清单 | |
交易号码 | 商品 |
0 | 豆奶, 莴苣 |
1 | 莴苣,尿布,葡萄酒,甜菜 |
2 | 莴苣,尿布,葡萄酒,橙汁 |
3 | 莴苣,豆奶,尿布,葡萄酒 |
4 | 莴苣,豆奶,尿布,橙汁 |
频繁项集是指经常出现在一起的元素的集合,上表中的集合 {葡萄酒,尿布,豆奶} 就是频繁项集的一个例子。同样可以找到如 “尿布 –> 葡萄酒”的关联规则,意味着如果有人买了尿布,就很可能也会买葡萄酒。使用频繁项集和关联规则,商家可以更好地理解顾客的消费行为,所以大部分关联规则分析示例来自零售业。
要回答上面的问题,最重要的是理解两个概念:支持度和可信度。
支持度:一个项集的支持度(support)为包含该项集的记录占总记录的比例。从表1 可以看出 项集 {豆奶} 的支持度为 : 4/5; 而在 5 条交易记录中 3 条包含 {豆奶,尿布},因此 {豆奶,尿布} 的支持度为 :3/5.
可信度或置信度(confidence):是针对一条诸如{尿布}–>{葡萄酒}的关联规则来定义的,这条规则的可信度被定义为:“ 支持度({尿布,葡萄酒}) / 支持度({尿布})”。在表1 中可以发现 {尿布,葡萄酒} 的支持度是 :3/5, {尿布} 的支持度为 :4/5, 所以关联规则 “尿布 –> 葡萄酒”的可信度为 :3/4 = 0.75, 意思是对于所有包含 “尿布”的记录中,该关联规则对其中的 75% 记录都适用。
算法应用:
环境:linux+python。
参数:支持度(minSupport)、置信度(minConf)。
参数说明:minSupport、minConf参数的大小关系到最终关联规则的结果数目,参数值越大,规则越严格,由于上面用户购买的次数可知,购买一次的用户占比在70%以上,这就是会说,有70%以上的用户只购买了一个道具,这样的话:支持度(minSupport)的值不可能很大(低于10%),如果太大的话最后不会出现频繁项集,然后就不会出现最终的关联规则。从而:我们可以让支持度(minSupport)的值小些,让置信度(minConf)的值大些,来得到最后的关联规则。
(1)minSupport=0.05,minConf=0.2。
规则(购买了道具A会购买道具B) 概率(置信度)
VIP—–>双倍杨桃 0.510088377522
说明:这里支持度取的为5%,置信度为20%,最后得到了一条规则,即:用户购买了VIP还会购买双倍杨桃的可能性大小。然后我们调小minSupport的值得到下面结果。
(2)minSupport=0.01,minConf=0.2。
规则 概率(置信度)
125钻石—->60钻石 0.708544303797
VIP—–>双倍杨桃 0.510088377522
300钻石—–>60钻石 0.429424709211
节日礼包—->刀刃 0.334025758205
神秘礼包—->刀刃 0.334025758205
300钻石—–>125钻石 0.295504558315
125钻石—–>300钻石 0.29746835443
12000杨桃—>刀刃 0.290452499408
300钻石—->刀刃 0.230430682175
300钻石—–>125钻石、60钻石 0.246463376297
125钻石—–>300钻石、60钻石 0.248101265823
结果可以看到最终的关联规则数目比较多,概率的大小也不一样,但VIP—–>双倍杨桃这条规则是一直存在的。
总结:
根据数据挖掘的关联规则我们可以得到购买道具的一些关联规则,我们可以根据最终得到的规则来进行活动的推广,从而降低一次付费用户的比例,提升二次或者多次付费的比例,进一步提高收入。这里我们研究的是一个自然周的数据,我们也可以对自然月的数据进行研究。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31