市场细分如何帮助你构建更好的预测模型?
但是,这真的有必要吗?我们可不可以创建一个单独的模型和使它含有区融变量作为模型的输入。
这可能可以。特别是根据市场细分创建细分模型可能是一件吃力不讨好的事情,不值得。但是创建市场细分的相关模型可能能提供更精准的预测。
在本文,我不仅会针对上面的问题给出答案,而且会和大家分享有关模型的最佳市场细分指南。而且,本文也会探索利用复杂技术的市场细分模型方法,如在一个简单的逻辑或线性回归框架中使用随机梯度增加模型和随机森林模型(虽然使用起来非常有限)。
通过本文,让大家了解建模流程的相互作用的本质和重复利用上述提到的复杂技术的优势。
我可以从市场的深度给大家解释这个概念,但是,市场细分为什么能够令复杂的事情简单化呢?
因此,我将市场细分定义为:“在一些重要特性的基础上划分目标市场和客户,可以帮助企业用更少的市场成本销售更多的产品。”
企业的预算是有限的。而且企业希望市场团队可以在这样的情况下完成大量的销售,确保收入利益不断增加。在有限的预算中,如何实现利益增收?答案就是:使用市场细分。
让我们回到前面,了解企业是如何创造出人们愿意买的产品。
实际上,一个产品的创造有两种方式:
1、经过对目标市场的需求进行分析研究后创建产品。举例:电脑。像戴尔,IBM和微软都是在分析了大量市场并得出电脑市场值得发展的情况下,才进入这个市场。
2、创建一个产品,能够唤起目标市场的需求和渴望。举例:iphone。没有人知道他们需要触屏手机,知道乔布斯令他们意识到自己被剥夺了这个需求。
一旦产品被创建出来,市场团队离成功就更近了。上面提到的,他们利用了市场细分技术。这确保了产品定位在合适的客户细分群体,可以实现更多的销售。
这儿有两个广义的市场细分方法:目标(有人监视的)和无目标的(无人监视的)市场细分方法。正如名称所示,一个带有监视的方法要求目标可作为市场细分来描述。
下面是一些有目标和无目标的方法案例。
目标市场细分:
市场细分确认客户类型,哪些客户对特别提供的产品感兴趣。
市场细分确定客户群众中的高消费人群,谁可以使用电子商务进行刺激消费。
市场细分确定哪些客户违反了贷款或者信用卡的信贷责任。
无目标的市场细分
客户基础的市场细分了解特定画像,这些画像存在于客户基础之中,因此多样化的市场行为可以根据细分情况定制。
基于不同地域的人们的富裕程度和生活水平的地理市场细分,形成特定的销售和配送策略。
基于浏览行为的网络位置参观者的市场细分,了解品牌的兴起和受欢迎程度。
因此,创建基于目标市场细分的方法必须要从不同的方面入手 ,这是很关键的。(eg:响应要约)
但是,关于无目标的方法,根据各方面得出的市场细分和观察结果得到的“通用画像”不同,但是和 任何特定的追求目标没关系。
最常用的目标市场细分方法是CHIAD和CRT。这些技术尝试将已描述的目标的细分之间的差异最大化。(这些目标有时候是所谓市场细分的参考目标)。CHIAD使用X平方分布统计,而CRT使用不纯基尼度算法。
创建无目标市场细分的常用技术是聚类分析法和K最近邻技术(K nearest neighbor techniques)等。
这些技术使用了距离测试方法(如:欧式距离,曼哈顿距离,马氏距离等)这些测试能把两个细分之间差异最大化。这意味着市场细分之间的最大区别是和所有变量(或因素)的结合有关。
1、通常采用的方法
如果你一直在看这篇文章,那么我们已经准备好去深入研究这些创建市场细分的方法。当然,考虑为每个市场细分创建单独模型作为唯一目标。
让我们思考下面这个例子:
在这里,我们将创建一个逻辑回归模型来预测客户对供给的产品的可能(接受)性。当然也可以使用线性回归模型。我将在下一节进行讨论。
逻辑回归:
该模型在历史运动数据中使用1或0指示,指明客户对提供的产品是否做出反应。
通常,使用已经被确定了模型发展的目标(或者已知的“Y”作为独立变量)来进行市场细分。记住,每个细分将建立单独的模型。一个市场细分计划可实现和通常选择的目标有关的不同市场细分的最大差异。下面是该方法的举例:
图1:建立一个逻辑回归模型的市场细分案例—普遍采用的方法
此图译为:
以上市场细分方法是最好的可能用来发展目标市场细分的方法,因为这些细分演示了跟目标有关的最大区别。(如:反应率)。
在上面的这棵树中,每个分割模块应该代表一个统计学上跟目标有关的不同节点之间的显著差异。如果使用CHIAD算法开发市场细分这棵树,那么每个分割(单独)模块的X平方值应该是从0开始有显著差异。(通过分割法的“P”值测试)
另外,这是普遍的“商业直觉”(不是通常都可以拥有完整的统计理由),为了发展单独的模型,相邻节点之间的反应率应该相差至少30%(如:如果指定节点的反应率是0.7%,同样的,它相邻的节点是0.5%,那么它们反应率应相差30%)。
通常采用的方法建议应该为每个终端节点或者结束节点建立一个单独的模型,它已经显示为表中绿色部分。但是,这是从建模的角度得到的最好方法吗?为了回答这个问题,我们需要找到一个测试方法,可以从建模的角度评价一个市场细分。
为了建立单独的模型和评价一个市场细分计划的最有效的方法是提升预测能力,它可以通过建立市场细分模型实现。将用下面的案例进行描述。
让我们假设一个逻辑模型,是建立在总人口上的,用来预测反应的可能性。
我们设计这个为模型-1(主要分析描述它作为母模型),该模型的基尼度为0.57。市场细分开发方法的一部分,建立5个单独的模型,对应每个结束节点(主要作为子节点进行分析描述)。
逻辑模型2-1:市场细分“年龄小于30”的预测反应
逻辑模型2-2:市场细分“年龄介于30-48之间,且收入少于800K卢布”的预测反应
逻辑模型2-3:市场细分“年龄介于30-48之间,且收入大于等于800k卢布”的预测反应
逻辑模型2-4:市场细分“年龄大于48,收入少于100万卢布”的预测反应
逻辑模型2-5:市场细分“年龄大于48,收入大于等于100万”的预测反应
在建立5个单独模型之后,各自的观察结果(或记录)和5个数据集(针对每个结束节点)计算得分或者预测可能性是附加的操作。
结合数据集的基尼度将与模型-1的基尼度做对比。然后,两个系数将被设计去提升预测力量。举例:如果结合数据集的基尼度为0.6,那么提升后将是1.05。这可以通过图表看出,虽然市场细分是最佳的可能目标市场细分,但是它仅提供了5%的额外的预测能力的提升。
让我们寻找为什么该案例会是这个样子。它应该被提到,当发展线性模型的时候,应该考虑调整判定系数的提升而不是 基尼系数的提升。
当建立整体模型(模型1),可以使用合适的虚变量法来表示市场细分。比如,可以使用下面的虚系数(它应该根据自由约束度被标记,将有一个小于所有虚拟系数的数)
虚拟-1:年龄小于30,1或0
虚拟-2:年龄介于30-48,1或0
虚拟-3:收入800k卢布
虚拟-4:收入介于800k至100万卢布
如果使用虚拟数据去重复市场细分树,那么模型的预测能力将会更好。
虚拟-1:年龄小于30
虚拟-2:年龄介于30和48之间,和收入少于800k卢布
虚拟-3:年龄介于30和48之间,收入超过800K卢布
虚拟-4:年龄超过48且收入少于100万卢布
这些虚拟变量可以提供反应率相同的差异化,作为5个独立的细分 。因此,可以通过市场细分看到反应率的差异化,可以通过整个回归模型的一系列虚拟变量轻易的重复。
但是,这不是预测能力的微提升背后的完整解释。表二提供了子模型的变量列表。
这些模型的变量是根据它们的预测优势能力排序(通过卡方统计量和标准化测试版本进行测试)。这些相同的颜色用来描述整个细分的特定变量,为了更加容易的进行对比。
表2:贯穿5个子模型的变量
上图对应译为:
可以观察发现5个子模型的变量相当相似,虽然变量的相关序列有些许不一样。这意味着在整个细分里促使反应的因素是相似的。另外,如果考虑整个市场细分的特定变量的预测模式,可以观察一些更有趣的。
表3描述了变量“过去12个月的购买数目”的预测模型。对于描述这样的模式,证据权重正在发挥作用。
证据权重是普遍的测试方法,这是对于一个变量来说,用来了解值的特定范围是否有集中度较高或者较低的预期目标。证据权重的正面值意味着有较高的集中度,反之亦然。
在这种情况下,对于购买次数相对高的值,将观察到一个更高的证据权重。意味着受访者有着相对更高的集中度。当创建一个线性模型时,在每个变量里,目标的平均值应该用来了解预测模式。
表格的外在检查揭示了虽然在市场细分里,证据权重是不同的,但是趋势是非常相似的。这意味着变量的预测模式在市场细分里是相似的。因此,变量在整个模型的影响不是有那么大差异的,对比市场细分带来的明智的影响。
换句话而言,这意味着市场细分变量(年龄和收入)和预测变量“过去12个月的购买次数”。因此,市场细分不能令人们的获得任何利益,即使提升了预测能力。
同样注意到,在这个案例里,市场细分的变量信息值是相似的。就线性模型而言,部分判定系数可以使用而不是使用信息值。如果这是高度预测变量的情况,那么市场细分应该添加极限值去提高整个预测能力。
表3:在5个市场细分中,变量“过去12个月的购买次数”的预测模式
蓝色:逻辑模型2-1:市场细分“年龄小于30”
红色:逻辑模型2-2:市场细分“年龄介于30-48之间,且收入少于800K卢布”
绿色:逻辑模型2-3:市场细分“年龄介于30-48之间,且收入大于等于800k卢布”
紫色:逻辑模型2-4:市场细分“年龄大于48,收入少于100万卢布”
蓝色:逻辑模型2-5:市场细分“年龄大于48,收入大于等于100万”
2、合适的方法
为了利用市场细分变量和预测变量之间的相互作用,设计市场细分的方案很重要,预测者和变量的预测模式在市场细分是不同的。
这将帮助人们创建方案,可以使市场细分的模型的预测能力高于整体模型的预测力量。
表4提高了一个可选的市场细分方案,来解决之前提到的问题。
表4:为创建逻辑模型进行市场细分模型-可选的方法
这种情况下,应该开发下面这些市场细分模型(子模型)
逻辑模型3-1:预测“过去12个月没有购物”的市场细分反应
逻辑模型3-2:预测“过去12个月至少购物两次”的市场细分反应
逻辑模型3-3:预测“过去12个月购物2次以上和没有提交过产品评价”的市场细分反应
逻辑模型3-4:预测“过去12个月购物至少2次以上以及提交产品评价至少一次以上”的市场细分反应
子模型的变量已经在表5描述。作为之前提到的情况,常用变量已经用相同的颜色突出表示。可以观察到在这样的情况下,市场细分之间的变量重叠的范围是非常有限的。因此,每个市场变量代表一个相同组的客户,他们的反应驱动因素几乎完全不同。
因此,在这样情况下,模型的市场细分系统的基尼系数是明显高于整体模型的基尼系数的。这个市场细分提供了具备明显优势的预测力量,因为市场细分变量和预测变量的相互作为而产生。
表5:4个子模型的变量
表6:在5个市场细分里,变量“过去24个月购买次数”的预测模式
蓝色:模型3-1过去12个月没有购买记录
红色:模型3-2过去12个月至少两次购买记录
绿色:模型3-3过去12个月多于2次购买记录,没有提交产品评价
紫色:模型3-4过去12个月多于2次购买记录,至少一次提交产品评价
在这样的情况下,观察到在市场细分中,特定变量的预测模式是具有明显的不同的。表5的线更加分散,与表3相比看起来差别更加明显,这意味着变量的预测模式在市场细分里是不同的。
因此,变量的影响在整个模型中,对比市场细分的明智的影响是相当不一样的。换句话来说,这意味着,在市场细分变量和预测变量“过去18个月没有不同的购买项目”之间有着显著的相互作用。
因此,市场细分期望在预测能力中产生最佳提升。在这种情况下,它应该被标记,变量的信息值在市场变量中是不同的。
这又是另外一个有趣的方面。对于市场细分,考虑基于多棵树的机器学习算法是好的。多重累计回归树,自由森林树和增加随机梯度这些技术可以使用众多的树和相同的整体进行预测。
如:如果考虑增加随机梯度,在一个非常简单的情况下(可能业余水平的情况下),包括建立一棵完整的树,令第一棵树的残差作为第二棵树的目标,依此计算下去直到发现预测能力得到进一步的提高。
在这样的情况下,树组成一些节点,确保它不会过度拟合数据。现实中,这些树希望能捕捉到相互之间的作用而不是和手头的目标靠的太近。可以联想到为了发展模型而进行的市场细分创建背后的哲理,其中市场细分的目标不是去实现更加接近目标的拟合,而是去确认相互作用的效果。
事实上,为了发展单独的模型,确认市场细分的可能性方法包括考虑在树的随机梯度增加完整的情况下得到第一批树的节点,考虑它们是否适合创建市场细分方法。
通过本文,我们学习了几个方面:
1、当为了模型发展而执行市场细分时,应该努力实现预测能力的提升,而不仅仅是为了追求目标的差异性。
2、市场细分捕捉相互作用的效果,因此预测者和预测模式是有一定的重要性的,他们在市场细分中发生改变。
3、创建市场细分的过程,包括发展每个市场细分的模型 ,以及投资已经从各子模型中选出来的变量。
4、在市场细分中,高度的预测变量的图形化测试可以获得有价值的洞察来。因此,这个过程要求对子模型进行迭代和详细分析。只依赖CHAID或者CRT算法可能无法获得合适的结果。必须记住,最初的目标是提高市场细分系统的预测能力。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16