热线电话:13121318867

登录
首页精彩阅读数据质量的好坏决定数据挖掘项目的成败
数据质量的好坏决定数据挖掘项目的成败
2017-07-31
收藏

数据质量的好坏决定数据挖掘项目的成败

David Nettleton是《商业数据挖掘:为预测分析项目处理,分析和建模》一书的作者,他还是一位在数据分析处理方面有丰富经验的顾问和学术研究者。

Q:您认为,实现一个数据分析项目最具挑战的方面有哪些呢?
David Nettleton:这要视情况而定。随着项目的推进,有些我们原本预计很容易的事情会变得异常困难,而其他我们本以为很困难的东西则会变得容易。项目的首要步骤就是要定义一个或多个业务目标。这样项目就会进行的很快很顺利,否则则会事倍功半。
然后,有必要通过集体讨论选出最可行的目标。接下来需要评估可行性,它与数据的可用性相关联。获取,过滤并准备正确的数据通常是一个关键步骤。项目成员可能会发现直接进行数据分析要比例行的准备和验证数据工作来的更加有趣。
准备数据是决定后期分析和挖掘阶段成功与否的关键环节。我们可能会发现所需的数据变量并不存在,但我们必须要获得这些变量。有时虽然有一些关键变量,但是数据是错误的或是以不正确的格式存在的。另外一个有问题的步骤就是部署。我们需要确定如何在业务流程中应用我们的分析结果。
Q:项目人员如何做才能实现项目的成功?什么样的技能才是有用的?
Nettleton: 现在需要既了解IT又了解业务的复合型人才。项目还需要熟悉数据工作的人。另外,之前在此类项目上的经验很显然是一项优势。至于项目流程,最初一个营销或业务经理可能会提出一个或多个业务目标。接下来,IT经理会列出一张所需数据的初始清单来满足每个业务目标,然后会审查公司数据库来判断当前状态数据是否可用。有了正确的数据之后,我们还需要与一个熟练使用选择数据分析和挖掘工具的分析师协同工作。
Q:有没有能够分析大量数据的工具?
Nettleton: 这要取决于业务目标。一项关于离群值的研究显示,比如在欺诈检查上,可能会需要对所有可用数据进行详尽处理以捕捉异常。如果我们想要将客户进行细分,我们为了做到这点需要所有的客户么?答案是否定的,只要我们能够从完整数据集中提取出具有代表性的抽样即可。
大数据也意味着专业软件,例如Hadoop,还有专业硬件,例如服务器集群。同样,数据量可以用长(记录数量)宽(描述性变量的数量)加以衡量。我们可以有上十亿的记录和四个变量,也可以有百万的记录和一百个变量。
对于每个变量,我们必须要问的是我们为什么需要它,而对于记录的数量,我们必须要问的是它们的覆盖范围。如果当前业务的周期是两年,那我们就没必要处理十年前的数据。如果我们是一个处理能力有限的中小型企业,那么我们就必须在处理数据的成本和从挖掘数据中所获利益之间加以权衡。
Q:人们在数据挖掘项目上最常犯的错误有哪些,又该如何避免呢?
Nettleton: 造成数据分析项目出错的原因大概有三个,分别是数据偏差数据处理中的错误和错误的解释造成的。
第一种错误类型可能与不正确的抽样或扭曲的数据有关。例如,我们想要研究年龄在18至35岁之间的女性对反吸烟的健康公益广告的反应,但我们集中的所有数据记录对应的都是有过吸烟历史的人。如果真是这样,我们可以根据兴趣变量,检查正确分布的动态数据,稍作修正。
第二种错误类型可能是由于选择错误数据或是在格式化非法数据值,标志等过程中的错误造成的。要解决这一问题,需要熟悉数据提取和迁移的人员在处理阶段,花费更多的时间和精力,提高可用性。
第三种错误类型,误解,可能是因为在数据分析上缺乏经验或是做了过度总结造成的。另外一个相关问题是覆盖率不足,例如,数据是否是仅仅用一个地区代替了整个国家。
其他的数据分析问题包括:
任务缺乏正确数据。此问题可能与在一开始就选择了一个不可行的目标有关。
分析师只依赖一项技术来进行数据分析,此项技术可能是分析师偏爱或是最熟悉的。而花费时间和精力学习如何使用不同的方法是非常值得的。
把输出变量,也就是未来的分析结果,作为输入变量来使用,不断地提升预测精度


数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询