机器学习中的许多数据挖掘"数据分析师" 方法主要是针对数值型数据的,算法也很偏向数理方法(例如支持向量机)。而分类数据(非数值型数据),其本质不过是简单的计数,针对这类数据的一个简单实 用的方法就是关联规则挖掘法,谷歌的MapReduce也为这类算法提供了很好的软件构架。下面我们就来讨论一下应用关联规则法的有趣实例。
关 联规则法的核心在于研究一些经常相伴发生的事件之间的关系,特别是当他们同时发生的频率远远超出预期时。它最早被用于超市销售,因此又被称为市场购物篮分 析法。举一个数据挖掘教科书中的关于啤酒和尿布关联性的经典案例-去超市买啤酒的男人同时也经常买尿布。假如超市销售量有如下数据:
总销售量:600000
尿布销售量:7500(1.25%)
啤酒销售量:60000(10%)
尿布和啤酒共同销售量:6000(1%)
如 果啤酒和尿布之间没有关联的话(即他们之间是统计上独立的),那么按照啤酒在总销售量中的比例来计算,我们预计只有10%的尿布购买者也会买啤酒。但实际 情况却是80%(=6000/7500)的尿布购买者都购买了啤酒,是我们预计的8倍。这个值在关联规则法中被称作电梯值(Lift),即事件X和Y实际 同时发生的频率和预期同时发生的频率之间的比例(Lift=P(x,y)/[P(x)P(y)])。如果事件X和Y相互独立,那么 P(x,y)=P(x)P(y),相应的电梯值即为1。而如果X和Y是互斥事件,则会产生小于1 的电梯值。在这个案例中,关联规则的结论就是尿布购买者也会购买啤酒的电梯值是8。
以 上是一个假设的案例,如此高的电梯值在实际生活中非常罕见,但也绝非不可能。2004年佛罗里达州经历了一系列飓风。第一场飓风之后,沃尔玛利用了他们大 量的销售数据来研究顾客在飓风来临之前会买什么。他们发现一个商品的销售量是平时的7倍,这个电梯值在现实生活中非常高的。这个商品既不是瓶装水,也不是 电池,啤酒,手电筒,发电机等等,而是草莓果酱吐司饼干!吐司饼干之所以在飓风来临之前销量大增也许是因为它不需要冰箱保存,不需要烹饪,而且独立包装, 保质期很长,同时本来大家也都很喜欢它。
尽管这个发现有些出乎意料,但是沃尔玛利用关联规则的分析补货了大量的草莓吐司饼干,创造了一个双赢的结果-沃尔玛大大增加了销量,顾客买到了满意的商品。 还有一个大型电子商品零售店也成功地利用关联规则法增加了商品销量。商家"数据分析师"根据零售数据,发现许多购买播放器和录影机的顾客会在3-4个月后购买摄影机。于是利用这个关系,商家会给所有购买播放器或者录影机的顾客几个月后邮寄摄影机折扣券,由此来吸引更多顾客购买摄影机。
除 了商业营销,关联规则法在科学研究上也有很多应用。乔治梅森大学的一位地质信息教授利用关联规则研究了飓风的内部风速,风眼气压,风切变,降雨量,方向和 速度等等因素和飓风最终等级之间的关系,最后成功建立了新的模型可以更精确地预测飓风的等级。还有一位在美国国家航天中心实习的高中生利用关联规则法研究 了太阳风暴之后太阳高能粒子到达地球的时间关系。他利用卫星收集到的太阳风暴之后太阳和地球磁场的一些特征因素数据,探究了两者之间关系随时间的变化,即 在太阳风暴一小时,两小时,三小时,四小时后,地球磁场的活跃度变化。结果发现在太阳风暴后2-3小时左右地球磁场最活跃,即太阳高能粒子到达地球的时 间。
以 上这些例子向我们展示了在做大数据挖掘时两个重要方法: 研究非数值型数据时,我们在挖掘因果关系之前,可关注事件之间的关联性; 如果数据在随时间变化,注意事件之间的关联是否会在某个时间点达到最强。现今越来越多的数据被大量收集,科技平台也越来越发达,许多事物之间意想不到的关 联正等待我们发现。那么就让我们从计数开始吧!数据分析师培训
数据分析咨询请扫描二维码
在当今数据驱动的商业环境中,数据分析师扮演着至关重要的角色。他们帮助企业从大量数据中提取有用的洞察,从而推动决策制定和战 ...
2024-11-07在现代商业环境中,商务数据分析师扮演着至关重要的角色。作为联系业务需求与数据洞察之间的桥梁,数据分析师需要具备一系列技能 ...
2024-11-07在现代商业环境中,商务数据分析师扮演着至关重要的角色。作为联系业务需求与数据洞察之间的桥梁,数据分析师需要具备一系列技能 ...
2024-11-07在现代商业环境中,数据挖掘发挥着至关重要的作用。它不仅帮助企业从庞大的数据集中提取有价值的信息,还为企业的决策和业务运营 ...
2024-11-07数据分析可视化是一种通过图形化方式展现数据的技术,它使复杂的数据变得直观易懂,从而帮助我们更好地做出决策。在这个快速发展 ...
2024-11-07数据分析是一项至关重要的技能,尤其在当今数据驱动的世界中。Python以其强大的库和简单的语法成为了数据分析领域的佼佼者。本文 ...
2024-11-07在现代数据驱动的环境中,数据分析师扮演着至关重要的角色。他们需要掌握多种工具,以满足数据分析、处理和可视化的需求。无论是 ...
2024-11-07作为一名业务分析师,你将发现自己处于企业决策和数据驱动战略之间的桥梁位置。这个角色要求掌握一系列技能,以便有效地将数据转 ...
2024-11-07CDA中科院城市环境研究所(厦门)内训圆满成功 2017年9月12日-15日,CDA数据分析师在中科院城市环境研究所(厦门)进行了 ...
2024-11-07数据分析是现代商业和研究领域不可或缺的重要工具。无论是为了提高业务决策的准确性,还是为了发掘隐藏在数据中的潜在价值,了解 ...
2024-11-06数据分析是一个精细且有序的过程,旨在从海量数据中提取有用的信息,为决策提供有力支持。无论你是新手还是有经验的分析师,理解 ...
2024-11-06在当今竞争激烈的商业环境中,业务分析师(Business Analyst, BA)的角色变得愈加重要。随着企业对数据驱动决策的依赖加深,业务 ...
2024-11-06在现代信息技术的广阔世界中,大数据架构师扮演着至关重要的角色。他们不仅引领着企业的数据战略,还通过技术创新推动业务的不断 ...
2024-11-04在当今数字化时代,数据分析师已成为企业关键角色,帮助决策者通过数据驱动的洞察实现业务目标。成为一名成功的数据分析师,需要 ...
2024-11-03在当今数字化的世界中,数据分析已经成为推动商业决策的关键因素。随着公司和组织越来越依赖数据来驱动业务战略,对数据分析专 ...
2024-11-03《Python数据分析极简入门》 第2节 2 Pandas数据类型 Pandas 有两种自己独有的基本数据结构。需要注意的是,它固然有着两种数据 ...
2024-11-01《Python数据分析极简入门》 第2节 1 Pandas简介 说好开始学Python,怎么到了Pandas? 前面说过,既然定义为极简入门,我们只抓 ...
2024-10-31在当今数据驱动的世界中,数据科学与工程专业的重要性愈发凸显。无论是推动技术进步,还是在商业决策中提供精准分析,这一专业都 ...
2024-10-30在当今信息爆炸的时代,数据已成为企业决策和战略制定的核心资源。爬虫工程师因此成为数据获取和挖掘的关键角色。本文将详细介绍 ...
2024-10-30在当今数据驱动的世界中,数据分析是揭示商业洞察和推动决策的核心力量。选择合适的数据分析工具对于数据专业人士而言至关重要。 ...
2024-10-30