电商数据挖掘之关联算法(2)数据分析师-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读电商数据挖掘之关联算法(2)数据分析师

电商数据挖掘之关联算法(2)数据分析师

2015-01-07

电商数据挖掘之关联算法(2)数据分析师

在数据挖掘过程中，由于数据存在分散性和偶然性，因而在底层的数据关联上很难准确挖掘出强关联规则，进而也很难为我们决策提供参考。通常的解决的方案通常是引入概念层次，在较高的层次上，我们就可以通过“支持度和置信度”的框架来挖掘多层关联规则。

　　在《电商数据挖掘之关联算法(一)：“啤酒＋尿布”的关联规则是怎么来的》，我们介绍了关联规则的基本概念，这一期则以数据实例来看最著名的Apriori关联算法的演算过程。

　　从一家公司的销售记录中我们找到以下8条消费记录，并以3作为最小支持度，也就是说出现频率在3次以下的记录是被我们所忽略的。

　　所有满足最小支持度3的1项频集如下，其中的支持度是指该产品在整个数据集中出现的次数。比如牛奶出现了5次，而冰淇淋出现了3次。

　　递归执行，所有满足最小支持度3的2项频集如下，这其中出现最多的频集是｛牛奶，面包｝和｛面包，果酱｝，各自出现了4次。

　　再次递归执行，所有满足最小支持度3的3项频集只剩下一条：

　　那么｛牛奶，果酱，面包｝就是我们要的满足最小支持度3的3项频集，也就是说牛奶、果酱和面包这三个商品是最经常被一起购买的。

　　概念层次的数据挖掘

　　在研究挖掘关联规则的过程中，许多学者发现在实际应用中，对于很多应用来说，由于数据分布的分散性，数据比较少，所以很难在数据最细节的层次上发现一些强关联规则。要想在原始的概念层次上发现强的(strong)和有意义的(interesting)关联规则是比较困难的，因为好多项集往往没有足够的支持数。

　　当我们引入概念层次后，就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息，但是对于一个用户来说是普通的信息，对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。

　　概念层次在要挖掘的数据库中经常是存在的，比如在一个超市中会存在这样的概念层次：蒙牛牌牛奶是牛奶，伊利牌牛奶是牛奶，王子牌饼干是饼干，康师傅牌饼干是饼干等。

　　如果我们只是在数据基本层发掘关系，｛蒙牛牌牛奶，王子牌饼干｝，｛蒙牛牌牛奶，康师傅牌饼干｝，｛伊利牌牛奶，王子牌饼干｝，｛伊利牌牛奶，康师傅牌饼干｝都不符合最小支持度。不过如果我们上升一个层级，会发现｛牛奶，饼干｝的关联规则是有一定支持度的。

　　我们称高层次的项是低层次项的父亲层次(parent)，这种概念层次关系通常用一个DAG(directed acyclic graph，有向无环图)来表示。所谓有向无环图是指，任意一条边有方向，且不存在环路的图。这样我们就可以在较高的概念层次上发现关联规则。

　　支持度的设置策略

　　根据规则中涉及的层次和多层关联的规则，我们可以把关联规则分为同层关联规则和层间关联规则。多层关联规则的挖掘基本上可以沿用“支持度—置信度”的框架。不过，在支持度设置的问题上有一些要考虑的东西。

同层关联规则可以采用两种支持度策略：

　　统一的最小支持度。对于不同的层次，都使用同一个最小支持度。这样对于用户和算法实现来说都比较容易，但是弊端也是显而易见的。

　　递减的最小支持度。每个层次都有不同的最小支持度，较低层次的最小支持度相对较小。同时还可以利用上层挖掘得到的信息进行一些过滤的工作。层间关联规则考虑最小支持度的时候，应该根据较低层次的最小支持度来定。

　　以上我们讨论的基本上都是同一个字段的值之间的关系，比如用户购买的物品。换句话说就是在单维或者叫维内的关联规则，这些规则很多都是在交易数据库中挖掘的。

　　但是对于实际应用来说，多维的关联规则可能是更加有价值的。

　　同时，在挖掘维间关联规则和混合维关联规则的时候，还要考虑不同的字段种类，是分类型数据还是数值型数据等等。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

关联规则数据挖掘字段 Apriori 数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

电商数据挖掘之关联算法(2)数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA数据分析师：数据读取实操指南，打通数据价值转 ...

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA数据分析师实操指南：指标体系搭建的方法与完整 ...

【CDA干货】销售额预测实战：基于时间序列与回归分 ...

【CDA干货】金融数据分析：为什么异常值处理是必做 ...

CDA数据分析师必备：指标与指标体系管理基础指南 ...

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载