为什么有的大数据分析背离事实？-CDA数据分析师官网

为什么有的大数据分析背离事实？

2016-01-16

为什么有的大数据分析背离事实？

大数据凭借着庞大的数据信息库，可以更好地(数据分析师)分析人类行为和人与人之间大规模的互动。然而，由于大数据的搜集做不到像“小数据”那样精确，因此(数据分析师认证后)分析解读大数据是一件十分复杂的事。

研究人员以“谷歌流感趋势”（Google Flu Trends，GFT）作为范例，解释了大数据分析为何会背离事实，并提出了大数据时代背景下一些值得思考的事。

谷歌发现某些搜索关键词可以很好地标示流感疫情的现状。GFT的工作原理就是使用经过汇总的谷歌搜索数据来估测流感疫情，其预测结果将与美国疾病预防控制中心（CDC）的监测报告相比对。但是2013年2月，《自然》杂志发文指出，GFT预测的流感样病例门诊数超过了CDC根据全美各实验室监测报告得出的预测结果的两倍。

研究人员认为造成这种结果的两个重要原因分别是“大数据傲慢”和算法变化。“大数据傲慢”指的是这样一种观点：即认为大数据可以完全取代传统的数据收集方法，而非作为后者的补充。这种观点的最大问题在于，绝大多数大数据与经过严谨科学试验得到的数据之间存在很大的不同。

编写一个将5000万搜索关键词与1152个数据点相匹配的算法是非常困难的，很有可能会出现过度拟合的情况：很多关键词只是看似与流感相关，但实际上却并无关联。事实上，在2013年的报道之前，GFT就多次在很长一段时间内过高地估计了流感的流行情况。 2010年的一项研究发现，使用CDC的滞后预测报告来预测当前的流感疫情，其准确性甚至都高于GFT的预测结果。

谷歌搜索引擎的算法并非一成不变的，谷歌对算法会进行不断地调整和改进。而搜索引擎算法的改变和用户的搜索行为会影响GFT的预测结果，比如媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数，进而影响GFT的预测。

另外，相关搜索的算法也会对GFT造成影响。例如搜索“发烧”，相关搜索中会给出关键词“流感”，而搜索“咳嗽”则会给出“普通感冒”。除此以外，搜索建议也会进一步增加某些热门词汇的搜索频率。

因为GFT会在它的模型中使用相对流行的关键词，所以搜索引擎算法对GFT的预测结果会产生不利影响。奇怪的是，GFT在构建时是基于这样一种假设：特定关键词的相对搜索量和特定事件之间存在相关性，问题是用户的搜索行为并不仅仅受外部事件影响，它还受服务提供商影响。

如果谷歌可以公开衍生数据和汇总数据，那么研究者就可以更好地了解GFT背后的算法。此外，谷歌还需要解决可重复性的问题：利用谷歌的Correlate服务得到的与流感高度相关的关键词与GFT选取的关键词无法匹配。

另外，GFT的优势在于能够提供细化程度非常高的数据。因此与CDC相比，GFT的价值在于提供地区水平上的流感疫情预测。而且，GFT非常适合建立流感传播的生成式模型，并且对于预测几个月后的流感疫情具有较高的准确性。

数以百万的工程师和用户在不断改变着搜索引擎算法，而作为研究者则需要更好地理解这些变化，因为正是搜索引擎算法决定了我们最终得到的信息。

在论文的最后作者指出，数据的价值并不仅仅体现在“大小”上。真正核心的改变在于利用创新的数据分析(数据分析师培训)方法去分析数据，这样才能帮助我们更好的理解这个世界。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

为什么有的大数据分析背离事实？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...