大数据：无意义的显著性_数据分析师-CDA数据分析师官网

大数据：无意义的显著性_数据分析师

2014-11-07

大数据：无意义的显著性_数据分析师

　　IT从来是寂寞的，它没有鲜亮的外表和跌宕的故事供人消费。但借着大数据的东风，IT变得火热起来。各行各业都开始用大数据告诉你来造句。顺着所有公司都是IT公司的逻辑，那么，说什么都是在说大数据。

　　大数据在受到热捧的同时，受到的批评也不少。近日，一篇《大数据、大安利》的文章总结了几点国外对大数据滥用的批评，原文附录如下：

　　1，无意义的显著性：没有理论的大数据是皮毛，只看到显著相关性，但不经检验，没有理论，这样的相关是没有意义的，或许是虚假。关键是：大数据的data point太多，在计算上找到两个矢量的显著关系极其容易，但正是因为数据量大，控制虚假关系反而更难，这是一个两难。我有一篇文章投出去，匿名评审说：样本很大，当然能找到显著相关，但是看不出意义。

　　2，采样方法问题：统计学家方凯撒总结了一个现象，谷歌、facebook等网络收集的数据，往往不具有同质性，是在不同的时间用不同的资源收集，随后把整个数据合并起来，结果大数据内部许多部分的数据根本不是用同样的方法收集的，统计抽样的基本假设都被推翻了。而且网络数据和线下数据的内容不一致，比如华尔街邮报的电子版和纸版就不一样，而且用户可以自定义内容。

　　3，机器语言不稳定：谷歌最开始用关键字预测感冒流行地区，开始说比疾控中心预测的还准，但后来越来越不准。有人认为这是谷歌的搜索算法在不停地改进，所以自动收集数据不稳定了。另外机器语言一旦被误导会越错越离谱，比如谷歌翻译是根据真实的文章总结的，但是有些网络的真实翻译其实是谷歌翻的，于是谷歌会把自己的翻译基于这些真实文章上。

　　当企业提到大数据的时候，往往希望把全部数据收集起来，加以分析，这也是理想场景下的大数据分析应用。但很多时候，企业会受到技术和成本的掣肘，仍然采用抽样分析。实际抽样中往往需要分层，分层抽样的情况下，后期统计运算都必须一个权重，权重是和该层被选择的概率成反比的。一个分层的权重高，在分析中就不可忽视。大数据的问题是它只能收集到权重低的数据。

　　现实生活中也是这样，最容易研究的对象往往最无聊，心理学经常上课找大学生做实验，所以现在以大学生为样本的文章很难发表了。因此，有时大数据虽然大，却往往不重要。

　　无独有偶，《黑天鹅》一书也说到，决定社会变革的大部分是帕累托分布，并不是钟形分布，这表面上看来暗合了数据越大越不重要的观点。但实际上是对大数据的使用者有了更高的要求，怎样在海量的数据里挑选出看似风马牛不相及的变量联系在一起得出结论。

　　大数据因为概念松散，理论欠缺，被填充进了太多的假象。如何结合具体的应用场景，满足业务需求才是企业内大数据技术落地的正确方向。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇如果你是数盲不要紧，补课大数据管理指南

下一篇如何定位并真正发挥大数据的价值？_数据分析师

大数据：无意义的显著性_数据分析师

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...