数据挖掘又译为数据采矿,它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。如今,“数据挖掘”被到处乱用,从业务人员用一个现代的模式识别方法到数据库分析员用SQL做查询。
最近,我看到不少关于挖掘九律的帖子和讨论,但他们并没有提到其创始人,那个将数据挖掘简洁地描述出来并在整个社区流传开来的人。这令人遗憾,因为我们可以从挖掘九律中受益良多,并且Khabaza本身就是个你该知道的创造者。他是最早的数据挖掘专家,任职于克莱门汀数据挖掘工作组的开发者之一。当你听说数据挖掘已广泛应用于电信和执法之中时,你该知道其奠基人就是是Khabaza。
下面是Tom Khabaza的“挖掘九律”介绍
挖掘九律之一,“业务目标律”:业务目标是所有数据挖掘解决方案的本源
我们探索数据,发掘信息,来帮助我们更好的处理业务。 这难道不是所有业务分析的圣歌吗?很明确,这就该是第一律。每个人都该理解数据挖掘是一个有目标的流程。真的挖掘人员不会在泥沼里打滚,他们有条不紊的按照流程来将有价值的东西暴露出来。数据挖掘人员也是要有条不紊地寻找对他们有价值的信息。
引用Tom Khabaza的话:“数据挖掘,首先它不是技术,而是流程,其中有着一个或多个业务目标。没有业务目标的话……就没有数据挖掘。”
挖掘九律之二,“业务知识律”:业务知识是数据挖掘每一步的核心
我们周围有着一个普遍且严重的误解——数据挖掘不需要 研究人员了解任何事。这是对真正的数据挖掘理论的误读,即从数据中发掘有用的模式,能够也应该交由没有经过正规统计学训练的业务人员。数据挖掘是要让人 ——应用业务知识、经验和洞察力,并依靠数据挖掘方法的业务人员——变得强大,来找到隐含于数据中的意义。
挖掘九律之三,“数据准备律”:数据准备能让数据挖掘流程事半功倍
这一点对于那些和数据打过交道的人来说毫无意外,无论你是数据挖掘专家,分析人员或者其他职位。然而,还有其他的神话围绕着数据挖掘,说数据挖掘会克服数据质量和完整性的问题。这一神话被那些长期被遗忘的数据挖掘产品供应商所传播,但数据挖掘社区依然努力让数据记录更加正常,数据挖掘需要良好的数据。
当然,仅仅有良好的数据是不够的。对数据的操作是挖掘过程的重要环节,Tom Khabaza解释道:
“原理要比数据的状态更深入:随着数据的准备,数据挖掘人员要定义问题空间。有两个关于“问题空间”的观点。第一个是数据挖掘人员将数据转换成适合于算法应用的形式就够了——对于绝大多数算法来说,这意味着一个样本一行记录。第二个是数据挖掘人员要通过利用有用的信息来优化数据或者将信息转化为更有效的形式,从而易于让算法找到解决方案。如样本包含了计算项,分级,和计算日期时间差。”
挖掘 九律之四,“天下没有免费的午餐”:只有通过实验才能发现给定应用的正确模型
(NFL-DM = “There is No Free Lunch for the Data Miner”)
现在我们可以开始些有趣的讨论。在本文的最后,我将指导你到那些可以读到、参与到的相关讨论中。现在,最重要的是,你要认识到实验是数据挖掘理论和实践的核心。
挖掘九律之五,“沃特金斯定律”:总会有模式存在
数据挖掘人员的实践经验就是,当探索数据的时候,总能发现有用的模式。
(沃特金斯,Watkins,即David Watkins,也是克莱门汀的知名数据挖掘开发者。)
挖掘九律之六: 数据挖掘将业务领域的感知放大
这一条的意思是,得益于数据挖掘算法和流程——是它们照亮了数据中的那些可能会被埋没的模式。
挖掘九律之七,“预测定律”:预测将信息从局部扩散到整体
这是我最难在脑海中理清的一条,但它意味着:
数据挖掘提供给我们一种途径,来看到那些未知的结果,并找到那些已知的相似情况(原文:Data mining offers us ways to look at a case whose outcome is unknown, and find similarities to past cases where the outcome is known)。通过理解这些相似性,我们获得了推测未来的信息。
挖掘九律之八,“价值定律”:数据挖掘的结果的价值并不取决于预测模型的精度和稳定性
流程的真正价值在于满足了业务需要,当然,模型的精度和稳定是好的,但较之于业务预测的价值,有意义的洞察力之价值,或者应用预测于实际的价值来讲要小得多。
挖掘九律之九,“变化律” :所有的模式都会受到变化
今天还能带来业务价值的模型,可能明天就过时了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13