对大数据分析有哪些流行误解?-CDA数据分析师官网

对大数据分析有哪些流行误解?

2016-03-14

对大数据分析有哪些流行误解?

大数据是一个新概念，大数据产生的背景是整个社会走向数字化，特别是社交网络和各种传感设备的发展。大数据分析拥有自身的特点，与计量经济学既有区别又有联系。当前对大数据的分析存在许多流行观点，但其中很多核心观点都值得商榷。

大数据产生的背景是整个社会走向数字化，特别是社交网络和各种传感设备的发展。云计算和搜索引擎的发展，使得对大数据的高效分析成为可能，核心问题是如何在种类繁多、数量庞大的数据中快速获取有价值信息。大数据在社会分析、科学发现和商业决策中的作用越来越大，金融只是其中的一个应用领域。

什么是大数据

大数据是一个新概念，英文中至少有三个名称：大数据（big data）、大尺度数据（big scale data）和大规模数据（massive data），至今未形成统一定义。但一般认为大数据具有四个基本特征（即所谓4V特征）：数据体量庞大（volume）、价值密度低（value, 也有人理解成应用价值巨大）、来源广泛和特征多样（variety）、增长速度快（velocity, 也有人理解成需要高速分析能力）。

从学术角度，对大数据的讨论基本属于数据科学（Data Science）和数据挖掘（Data Mining）的范畴。

大数据的主要类型：第一类是记录数据，即记录的汇集，其中每个记录包含固定的数据字段（或属性）。比如，计量经济学中的横截面数据，文档数据，事务数据或购物篮数据；第二类是基于图形的数据，包括带有数据对象之间联系的数据和具有图形对象的数据，比如网页链接、化合物结构；第三类是有序数据，包括时序数据、序列数据、空间数据。比如，宏观经济指标序列，金融价格序列，基因组序列，词或字母的序列，同一时点上从不同的地理位置收集的气象数据（温度、湿度、气压等）。

大数据分析的主要任务：第一类是预测任务，目标是根据某些属性的值，预测另外一些特定属性的值。被预测的属性一般称为目标变量或因变量，被用来做预测的属性称为解释变量和自变量；第二类是描述任务，目标是导出概括数据中潜在联系的模式，包括相关、趋势、聚类、轨迹和异常等。描述性任务通常是探查性的，常常需要后处理技术来验证和解释结果。具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。

大数据分析与计量经济学的差异与联系

大数据分析与计量经济学既有差异又有联系。

两者的差异表现为：第一，两者处理的数据类型不同。计量经济学处理结构型数据，主要包括横截面数据、时间序列数据和面板数据，一般能以excel表格的形式呈现，而且表格的行列都有清晰的经济学含义，有一致统计口径。大数据分析能处理很多非结构型数据，包括文档、视频、图像，一般难以用excel表格的形式呈现。但这些非结构型数据需要量化后才能分析，在量化中一般伴随着信息损失。

第二，两者分析重点不同。计量经济学分析的重点是假设检验，核心理念与波普的证伪主义非常接近。计量经济学就是通过假设检验，来证伪或支持（注意不是证实）某个经济理论。相比之下，大数据分析更具实用主义色彩。预测在大数据分析中占有很大比重。对预测效果的后评估也是大数据分析的重要内容。

大数据分析与计量经济学的内在联系也不容忽视。在对随机问题的处理上，它们没有本质差别，基础理论都是概率论和数理统计。

对大数据分析的主流误解

舍恩伯格与合作者的《大数据时代》非常流行，但里面的很多核心观点都值得商榷。

第一，他们认为，大数据分析不是针对随机样本，而是全体数据。尽管数据收集和分析手段足够发达后，对全部数据的收集和分析成为可能，但从成本收益上衡量，这样做不是总有必要。根据中心极限定理，统计分析质量与样本数量之间存在平方根关系。比如，样本数量提高100倍，分析质量提高10倍。而统计分析工作量与样本数量之间存在线性关系。比如，样本数量提高100倍，存储和计算量一般增加100倍。这样，样本数量增长到一定程度后，新增工作量对应的成本就会超过质量提高产生的好处。因此，通过科学设计的抽样调查获得有代表性的样本，在大数据分析中仍有价值。

第二，他们还认为，大数据分析不是因果关系，而是相关关系。这个说法在统计学中是老生常谈，不是什么新观点。统计学基于相关关系，只能被用来证伪因果关系，而不能被用来证实因果关系。大数据分析的基础理论也是概率论和数理统计，从根本上就属于相关关系的范畴。

第三，大数据分析也不是万能的。基于大数据的预测可以抽象表述为：用表示已知信息，用表示未知信息，寻找关于的函数作为的预测。预测误差是，用（类似于均方误差）来衡量预测效果。概率论有一个基本结论：

对任意，总有，其中等号仅当时才成立，所以也被称为最佳预测（best predictor）。

可以看出两点结论：首先，大数据分析中，各种算法的核心任务是使尽可能接近理论上的最优预测；其次，即使在最优预测上，代表的预测误差仍不能被消除，是内生于信息结构的。比如，即使信息技术非常发达，如果现实世界中仍有部分信息不能被数字化（从而不能用在大数据分析中），这部分被“尘封”的信息就决定了大数据分析的有效边界。

第四，大数据能降低信息不对称的程度，但不能消除随机性（不确定性）；有助于评估风险（未来遭受损失的可能性，其中损失分布可计量），但不能消除奈特式不确定性（其中损失分布不可计量）。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据数据分析特征假设检验统计分析云计算推荐系统字段

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

对大数据分析有哪些流行误解?

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...