如何利用市场细分方法构建更好的预测模型-CDA数据分析师官网

如何利用市场细分方法构建更好的预测模型

2017-10-13

如何利用市场细分方法构建更好的预测模型

我们使用线性或者逻辑回归模型来开发精确模型，为了预测相关的输出结果。我们经常为分割的部分分别创建模型。为了判断它们的有效性，我们可以利用细分方法：如CHIAD或者CRT。

但是，这真的有必要吗？我们可不可以创建一个单独的模型和使它含有区融变量作为模型的输入。

这可能可以。特别是根据市场细分创建细分模型可能是一件吃力不讨好的事情，不值得。但是创建市场细分的相关模型可能能提供更精准的预测。

在本文，我不仅会针对上面的问题给出答案，而且会和大家分享有关模型的最佳市场细分指南。而且，本文也会探索利用复杂技术的市场细分模型方法，如在一个简单的逻辑或线性回归框架中使用随机梯度增加模型和随机森林模型（虽然使用起来非常有限）。

通过本文，让大家了解建模流程的相互作用的本质和重复利用上述提到的复杂技术的优势。

大数据

什么是市场细分？

我可以从市场的深度给大家解释这个概念，但是，市场细分为什么能够令复杂的事情简单化呢？

因此，我将市场细分定义为：“在一些重要特性的基础上划分目标市场和客户，可以帮助企业用更少的市场成本销售更多的产品。”

企业的预算是有限的。而且企业希望市场团队可以在这样的情况下完成大量的销售，确保收入利益不断增加。在有限的预算中，如何实现利益增收？答案就是：使用市场细分。

让我们回到前面，了解企业是如何创造出人们愿意买的产品。

实际上，一个产品的创造有两种方式：

1、经过对目标市场的需求进行分析研究后创建产品。举例：电脑。像戴尔，IBM和微软都是在分析了大量市场并得出电脑市场值得发展的情况下，才进入这个市场。

2、创建一个产品，能够唤起目标市场的需求和渴望。举例：iphone。没有人知道他们需要触屏手机，知道乔布斯令他们意识到自己被剥夺了这个需求。

一旦产品被创建出来，市场团队离成功就更近了。上面提到的，他们利用了市场细分技术。这确保了产品定位在合适的客户细分群体，可以实现更多的销售。

市场细分技术

这儿有两个广义的市场细分方法：目标（有人监视的）和无目标的（无人监视的）市场细分方法。正如名称所示，一个带有监视的方法要求目标可作为市场细分来描述。

下面是一些有目标和无目标的方法案例。

目标市场细分：

市场细分确认客户类型，哪些客户对特别提供的产品感兴趣。

市场细分确定客户群众中的高消费人群，谁可以使用电子商务进行刺激消费。

市场细分确定哪些客户违反了贷款或者信用卡的信贷责任。

无目标的市场细分

客户基础的市场细分了解特定画像，这些画像存在于客户基础之中，因此多样化的市场行为可以根据细分情况定制。

基于不同地域的人们的富裕程度和生活水平的地理市场细分，形成特定的销售和配送策略。

基于浏览行为的网络位置参观者的市场细分，了解品牌的兴起和受欢迎程度。

因此，创建基于目标市场细分的方法必须要从不同的方面入手，这是很关键的。（eg：响应要约）

但是，关于无目标的方法，根据各方面得出的市场细分和观察结果得到的“通用画像”不同，但是和任何特定的追求目标没关系。

最常用的目标市场细分方法是CHIAD和CRT。这些技术尝试将已描述的目标的细分之间的差异最大化。（这些目标有时候是所谓市场细分的参考目标）。CHIAD使用X平方分布统计，而CRT使用不纯基尼度算法。

创建无目标市场细分的常用技术是聚类分析法和K最近邻技术（K nearest neighbor techniques）等。

这些技术使用了距离测试方法（如：欧式距离，曼哈顿距离，马氏距离等）这些测试能把两个细分之间差异最大化。这意味着市场细分之间的最大区别是和所有变量（或因素）的结合有关。

如何创建发展中模型的市场细分

1、通常采用的方法

如果你一直在看这篇文章，那么我们已经准备好去深入研究这些创建市场细分的方法。当然，考虑为每个市场细分创建单独模型作为唯一目标。

让我们思考下面这个例子：

在这里，我们将创建一个逻辑回归模型来预测客户对供给的产品的可能（接受）性。当然也可以使用线性回归模型。我将在下一节进行讨论。

逻辑回归：

该模型在历史运动数据中使用1或0指示，指明客户对提供的产品是否做出反应。

通常，使用已经被确定了模型发展的目标（或者已知的“Y”作为独立变量）来进行市场细分。记住，每个细分将建立单独的模型。一个市场细分计划可实现和通常选择的目标有关的不同市场细分的最大差异。下面是该方法的举例：

图1：建立一个逻辑回归模型的市场细分案例—普遍采用的方法

大数据

此图译为：

36大数据

以上市场细分方法是最好的可能用来发展目标市场细分的方法，因为这些细分演示了跟目标有关的最大区别。（如：反应率）。

在上面的这棵树中，每个分割模块应该代表一个统计学上跟目标有关的不同节点之间的显著差异。如果使用CHIAD算法开发市场细分这棵树，那么每个分割（单独）模块的X平方值应该是从0开始有显著差异。（通过分割法的“P”值测试）

另外，这是普遍的“商业直觉”（不是通常都可以拥有完整的统计理由），为了发展单独的模型，相邻节点之间的反应率应该相差至少30%（如：如果指定节点的反应率是0.7%，同样的，它相邻的节点是0.5%，那么它们反应率应相差30%）。

通常采用的方法建议应该为每个终端节点或者结束节点建立一个单独的模型，它已经显示为表中绿色部分。但是，这是从建模的角度得到的最好方法吗？为了回答这个问题，我们需要找到一个测试方法，可以从建模的角度评价一个市场细分。

为了建立单独的模型和评价一个市场细分计划的最有效的方法是提升预测能力，它可以通过建立市场细分模型实现。将用下面的案例进行描述。

让我们假设一个逻辑模型，是建立在总人口上的，用来预测反应的可能性。

我们设计这个为模型-1（主要分析描述它作为母模型），该模型的基尼度为0.57。市场细分开发方法的一部分，建立5个单独的模型，对应每个结束节点（主要作为子节点进行分析描述）。

逻辑模型2-1：市场细分“年龄小于30”的预测反应

逻辑模型2-2：市场细分“年龄介于30-48之间，且收入少于800K卢布”的预测反应

逻辑模型2-3：市场细分“年龄介于30-48之间，且收入大于等于800k卢布”的预测反应

逻辑模型2-4：市场细分“年龄大于48，收入少于100万卢布”的预测反应

逻辑模型2-5：市场细分“年龄大于48，收入大于等于100万”的预测反应

在建立5个单独模型之后，各自的观察结果（或记录）和5个数据集（针对每个结束节点）计算得分或者预测可能性是附加的操作。

结合数据集的基尼度将与模型-1的基尼度做对比。然后，两个系数将被设计去提升预测力量。举例：如果结合数据集的基尼度为0.6，那么提升后将是1.05。这可以通过图表看出，虽然市场细分是最佳的可能目标市场细分，但是它仅提供了5%的额外的预测能力的提升。

让我们寻找为什么该案例会是这个样子。它应该被提到，当发展线性模型的时候，应该考虑调整判定系数的提升而不是基尼系数的提升。

当建立整体模型（模型1），可以使用合适的虚变量法来表示市场细分。比如，可以使用下面的虚系数（它应该根据自由约束度被标记，将有一个小于所有虚拟系数的数）

虚拟-1：年龄小于30，1或0

虚拟-2：年龄介于30-48，1或0

虚拟-3：收入800k卢布

虚拟-4：收入介于800k至100万卢布

如果使用虚拟数据去重复市场细分树，那么模型的预测能力将会更好。

虚拟-1：年龄小于30

虚拟-2:年龄介于30和48之间，和收入少于800k卢布

虚拟-3:年龄介于30和48之间，收入超过800K卢布

虚拟-4：年龄超过48且收入少于100万卢布

这些虚拟变量可以提供反应率相同的差异化，作为5个独立的细分。因此，可以通过市场细分看到反应率的差异化，可以通过整个回归模型的一系列虚拟变量轻易的重复。

但是，这不是预测能力的微提升背后的完整解释。表二提供了子模型的变量列表。

这些模型的变量是根据它们的预测优势能力排序（通过卡方统计量和标准化测试版本进行测试）。这些相同的颜色用来描述整个细分的特定变量，为了更加容易的进行对比。

表2：贯穿5个子模型的变量

36大数据

上图对应译为：

36大数据

可以观察发现5个子模型的变量相当相似，虽然变量的相关序列有些许不一样。这意味着在整个细分里促使反应的因素是相似的。另外，如果考虑整个市场细分的特定变量的预测模式，可以观察一些更有趣的。

表3描述了变量“过去12个月的购买数目”的预测模型。对于描述这样的模式，证据权重正在发挥作用。

证据权重是普遍的测试方法，这是对于一个变量来说，用来了解值的特定范围是否有集中度较高或者较低的预期目标。证据权重的正面值意味着有较高的集中度，反之亦然。

在这种情况下，对于购买次数相对高的值，将观察到一个更高的证据权重。意味着受访者有着相对更高的集中度。当创建一个线性模型时，在每个变量里，目标的平均值应该用来了解预测模式。

表格的外在检查揭示了虽然在市场细分里，证据权重是不同的，但是趋势是非常相似的。这意味着变量的预测模式在市场细分里是相似的。因此，变量在整个模型的影响不是有那么大差异的，对比市场细分带来的明智的影响。

换句话而言，这意味着市场细分变量（年龄和收入）和预测变量“过去12个月的购买次数”。因此，市场细分不能令人们的获得任何利益，即使提升了预测能力。

同样注意到，在这个案例里，市场细分的变量信息值是相似的。就线性模型而言，部分判定系数可以使用而不是使用信息值。如果这是高度预测变量的情况，那么市场细分应该添加极限值去提高整个预测能力。

表3：在5个市场细分中，变量“过去12个月的购买次数”的预测模式

36大数据

蓝色：逻辑模型2-1：市场细分“年龄小于30”

红色：逻辑模型2-2：市场细分“年龄介于30-48之间，且收入少于800K卢布”

绿色：逻辑模型2-3：市场细分“年龄介于30-48之间，且收入大于等于800k卢布”

紫色：逻辑模型2-4：市场细分“年龄大于48，收入少于100万卢布”

蓝色：逻辑模型2-5：市场细分“年龄大于48，收入大于等于100万”

2、合适的方法

为了利用市场细分变量和预测变量之间的相互作用，设计市场细分的方案很重要，预测者和变量的预测模式在市场细分是不同的。

这将帮助人们创建方案，可以使市场细分的模型的预测能力高于整体模型的预测力量。

表4提高了一个可选的市场细分方案，来解决之前提到的问题。

表4：为创建逻辑模型进行市场细分模型-可选的方法

大数据

36大数据

这种情况下，应该开发下面这些市场细分模型（子模型）

逻辑模型3-1：预测“过去12个月没有购物”的市场细分反应

逻辑模型3-2：预测“过去12个月至少购物两次”的市场细分反应

逻辑模型3-3：预测“过去12个月购物2次以上和没有提交过产品评价”的市场细分反应

逻辑模型3-4：预测“过去12个月购物至少2次以上以及提交产品评价至少一次以上”的市场细分反应

子模型的变量已经在表5描述。作为之前提到的情况，常用变量已经用相同的颜色突出表示。可以观察到在这样的情况下，市场细分之间的变量重叠的范围是非常有限的。因此，每个市场变量代表一个相同组的客户，他们的反应驱动因素几乎完全不同。

因此，在这样情况下，模型的市场细分系统的基尼系数是明显高于整体模型的基尼系数的。这个市场细分提供了具备明显优势的预测力量，因为市场细分变量和预测变量的相互作为而产生。

表5:4个子模型的变量

大数据

表6：在5个市场细分里，变量“过去24个月购买次数”的预测模式

大数据

蓝色：模型3-1过去12个月没有购买记录
红色：模型3-2过去12个月至少两次购买记录
绿色：模型3-3过去12个月多于2次购买记录，没有提交产品评价
紫色：模型3-4过去12个月多于2次购买记录，至少一次提交产品评价

在这样的情况下，观察到在市场细分中，特定变量的预测模式是具有明显的不同的。表5的线更加分散，与表3相比看起来差别更加明显，这意味着变量的预测模式在市场细分里是不同的。

因此，变量的影响在整个模型中，对比市场细分的明智的影响是相当不一样的。换句话来说，这意味着，在市场细分变量和预测变量“过去18个月没有不同的购买项目”之间有着显著的相互作用。

因此，市场细分期望在预测能力中产生最佳提升。在这种情况下，它应该被标记，变量的信息值在市场变量中是不同的。

使用机器学习进行市场细分

这又是另外一个有趣的方面。对于市场细分，考虑基于多棵树的机器学习算法是好的。多重累计回归树，自由森林树和增加随机梯度这些技术可以使用众多的树和相同的整体进行预测。

如：如果考虑增加随机梯度，在一个非常简单的情况下（可能业余水平的情况下），包括建立一棵完整的树，令第一棵树的残差作为第二棵树的目标，依此计算下去直到发现预测能力得到进一步的提高。

在这样的情况下，树组成一些节点，确保它不会过度拟合数据。现实中，这些树希望能捕捉到相互之间的作用而不是和手头的目标靠的太近。可以联想到为了发展模型而进行的市场细分创建背后的哲理，其中市场细分的目标不是去实现更加接近目标的拟合，而是去确认相互作用的效果。

事实上，为了发展单独的模型，确认市场细分的可能性方法包括考虑在树的随机梯度增加完整的情况下得到第一批树的节点，考虑它们是否适合创建市场细分方法。

结束语

通过本文，我们学习了几个方面：

1、当为了模型发展而执行市场细分时，应该努力实现预测能力的提升，而不仅仅是为了追求目标的差异性。

2、市场细分捕捉相互作用的效果，因此预测者和预测模式是有一定的重要性的，他们在市场细分中发生改变。

3、创建市场细分的过程，包括发展每个市场细分的模型，以及投资已经从各子模型中选出来的变量。

4、在市场细分中，高度的预测变量的图形化测试可以获得有价值的洞察来。因此，这个过程要求对子模型进行迭代和详细分析。只依赖CHAID或者CRT算法可能无法获得合适的结果。必须记住，最初的目标是提高市场细分系统的预测能力。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据逻辑回归线性回归机器学习数据去重聚类分析随机森林客户细分

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

如何利用市场细分方法构建更好的预测模型

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...