大数据分析的四类陷阱-CDA数据分析师官网

大数据分析的四类陷阱

2015-11-06

大数据分析的四类陷阱

科技领域的人们正摩拳擦掌以迎接大数据（Big Data）时代的到来。大数据技术的本质是能够对数十亿的信息进行分析，从中获得有价值的洞见。例如惠普的研究人员就能根据Twitter来预测好莱坞的票房。由此看来，其它行业只要具备合适的工具，就能对社会网络进行数据分析。但是事情并非如此简单。首先，分析大数据集并不是什么新鲜事。有些公司已经做了几十年的数据分析。当前技术的不同之处在于，它提升了分析的速度，扩展了数据规模，使小型企业也能使用这种技术。而另一方面，大数据也会造成更严重的错误。针对上例，普林斯顿大学就得出了不同的研究结论：Twitter并不能真的预测票房成绩。

对同一个问题，研究者怎么会得出相反的结论呢？我们来看一下数据分析中最常见的四类陷阱。

1、样本缺乏代表性

大数据的背景仍是统计分析和推断。而统计系学生应该学到的一件事就是：统计结论依赖于样本的代表性。Twitter用户可能受到更高教育且收入更高，其年龄也会偏大一些。如果用这种有偏的样本来预测目标观众是年轻人的电影票房，其统计结论可能就不会合理了。

提示：确保你得到的样本数据代表了研究总体。否则，你的分析结论就缺乏坚实的基础。

2、事物是变化的

对研究对象的科学理解需要耐心。可能你的实验获得了预期的效果，但这还不够。你应该进行后续实验看能否得到相同的结果，还要看其他研究人员能否重现你的实验结果。特别是在处理人类个体或团队行为的时候，这一点尤其重要。这是因为事物在是不断变化的。惠普和普林斯顿大学的研究项目有两年的时间间隔，在这段时间中Twitter用户有可能发生了改变。同样的道理，如果观察到公司的增长速度发生变化，这有可能是客户群的情绪变化，也可能是使用了错误的数据收集或分析方法。

提示：不要只进行一次分析。要定期验证你之前的结论。

3、理解数据方式不同

惠普和普林斯顿的两组研究人员所看到的数据不仅仅是推文。惠普的研究人员建立了一个模型，来研究电影首映时的发推率和上映影院数量。但上映影院的数量与票房成功之间有很强相关性。而普林斯顿的研究人员使用机器学习技术，来研究在三个不同时间段（影片上映之前、期间或观影后）用户的推文情绪特征（正面或负面）。也就是说，这两个研究团队都表示，他们在研究Twitter的预测能力。但实际上，他们除了使用twitter数据之外还利用了其它数据资源，例如上映影院数量和IMDB评分等等。这样Twitter的预测效果与其它因素混合在一起，它或许是预测票房成功的一种影响因素，这要取决于研究人员如何理解和使用它。

提示：一组数据可以提供多种类型的信息。你需要找到不同的解释方式，并加以分析

4、错误和偏差

人会犯各种错误。有可能是某个研究小组出现了某个错误。例如试图将所有的推文都归为正面或负面的情绪，这种方法也许有些粗糙。又或许研究人员不自觉地选择数据，以支持他们的论点。例如普林斯顿大学研究人员假设，是推文本身而非推文的数量，蕴含着消费者的情绪表达。

提示：不要只使用一种方法。用事实来检验你的假设是否奏效。

大数据技术能很好的改善企业产品和服务，并更好地满足市场。但是，信息需要人来解释，而人的错误有时是致命的。所以大数据是一柄双刃剑，成功与否还得看持剑人的功力。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据数据分析特征偏差统计分析机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

大数据分析的四类陷阱

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...