当大数据真的变得更好时_数据分析师-CDA数据分析师官网

当大数据真的变得更好时_数据分析师

2015-01-31

当大数据真的变得更好时_数据分析师

以往的经验告诉我们，充分发挥扩展优势会带来更大的分析价值。但是大数据[注]并不是一把万能的锤子，而每一个问题也不是一个靠锤子就可以解决的钉子。

许多人认为大数据意味着越大越好。人们也常常从各种哲学视角来诠释“越大越好”这一问题。对此我将这些角度归纳为：

信仰：是指容量更大、速度更快和种类更丰富的数据总会带来更多洞察力，而这正是大数据分析的核心价值。如果我们无法发现这些洞察力，那是由于我们没有充分认真地尝试，或是我们的灵活程度还不够，或者是我们没有使用正确的工具和解决方案。

偶像：是指数据的庞大容量本身就是有其价值的，与我们是否能够从中获得特殊的洞察力无关。如果我们仅凭其所支持的特定商业应用来评估它们的效用，那么在这方面，我们是与数据科学家们当前的需求是不一致的，数据科学家们的需求是将数据不加分别地存储到数据湖中，以支持今后的探索工作。

负担：是指数据的庞大容量未必是好事或坏事，但是一个无法改变的事实是，它们会对现有数据库的存储和处理能力带来极大的压力，并因此让（Hadoop等）新平台成为必需品。如果我们不能跟上这些新数据增长的步伐，那么核心的业务需求将被迫转向新型数据库。

机遇：在我看来，这是一个处理大数据的正确解决方案。随着数据规模上升至新的层次，流动的速度更快，数据的来源和格式不断增长，这一解决方案将重点放在了更为高效地获取前所未有的洞察力方面。它没将大数据作为一种信仰或偶像，因为它知道即便较小的数据规模也能够持续获得许多不同的洞察力。它也没有将数据的规模视为一种负担，而是视为一种挑战，这种挑战能够通过新的数据库平台、工具和实践加以有效应对。

2013年，我在博客中曾就大数据的核心使用案例展开过讨论，但当时只涉及到如上方程式中的“机遇”部分。晚些时候，我发现大数据中“大”这一核心价值源自于能否用增加的内容揭示出所增加的背景环境。在你分析数据以探查其完整意义时，背景环境自然是越多越好。同样的，当你尝试着在自己的问题范畴中识别出所有的变量、关系、模式以找到更好的解决方案时，内容也是越多越好。总之，越来越多的内容加上越来越多的背景环境，通常会导致数据也变得越来越多。

大数据的另一个价值在于，它们能够纠正那些小规模数据所产生的错误。曾经有观察过该问题的人说过，对于数据科学家而言，在训练集中数据偏少意味着他们更容易受到多个模型风险的影响。首先，数据规模偏小可能会导致用户忽视关键的预测性变量。同时，用户选择没有代表性的样本导致模型出现偏差的几率变大。此外，用户可能会找到一些虚假关系，如果用户拥有能够揭示实际发挥作用的基本关系的完整数据，那么他们就能够识别出这些虚假关系。

规模非常重要

所有的人都认为，一些数据类型和使用案例比能够带来新洞察力的数据更有帮助。

我近期偶然看到了一篇名为《大数据的预测模式：越大就越好吗？》文章，文章对数据的一个特定范畴——稀少的细分行为数据进行了详细阐述。在这方面，数据规模通常能够提升预测成绩。文章的作者Junqué de Fortuny、Martens和Provost称：“这类数据集的一个重要问题是它们通常都比较稀少。对于任何给定的实例，绝大多数特征都没有价值，或是价值没有表现出来。”

最值得关注的是（作者通过引述丰富的研究来支持他们的论点）(+微信关注网络世界)，这类数据是许多以客户分析为重点的大数据应用的核心。社交媒体行为数据、Web浏览行为数据、移动行为数据、广告反应行为数据、自然语言行为数据都属于这类数据。

作者认为，“实际上，对于大多数预测分析型的商业应用，例如金融业和电信业的定向市场营销、信用评分、损耗管理等应用，用于预测分析的数据都非常相似。这些产品的特点都集中于个人的背景特征、地域特征和心理特征，以及诸如优先购买行为等一些通过统计总结出来的特定行为。”

“更大的行为数据集往往会更好”的关键原因非常简单，作者认为“没有大量的数据，一些显著的行为可能就无法被有效地观察到。”这是因为在零散的数据集中，行为被记录的人可能只会展示次数有限的行为。但是当你放眼整个人群时，每一种特定类型的行为你可能会观察到至少一次，或者在特定的环境中观察到多次。如果数据偏少，那么所观察的目标和观察到的行为特征也就会偏少，这将导致你会忽略许多东西。

预测模型所依靠的正是源行为数据集的丰富性。为了在未来的更多场景中预测更为精准，数据规模通常是越大越好。

当越大等同于越模糊时

尽管如此，该文的作者也提到了一些场景。在这些场景中，越大越好的假设不成立，那么我们就不得不使用特定行为特征的预测价值。这时候，权衡取舍就成为了预测行为模型的基础。

预测模式中每一个增加的行为特征，应该与所做的预测充分地联系起来，以提升模型的学习收益和预测能力，克服不断拉大的差异，即过度拟合和预测错误，因为这通常会产生更大的特征集。正如该文章作者所说的那样，“大量不相关的特征只是增加了差异和过拟合的机率，而没有相应地提升学习到更好模型的机率。”

显然当“大”妨碍到了获取预测性洞察力时，越大并非越好。用户不希望自己的大数据分析努力成为数据规模扩张的牺牲品。数据科学家也必须充分了解应该何时调整数据模型的大小，以适应手中的分析任务。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

大数据特征数据分析数据湖偏差过拟合 Hadoop

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇大数据时代的移动信息化发展_数据分析师

下一篇物联网结合大数据效果多倍提升

当大数据真的变得更好时_数据分析师

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】你在纳闷用户为啥流失?华为已经用关系分析 ...

【干货】2小时用AI完成的SQL教程也太赞了吧，不推荐 ...

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...