忘记“大数据”,从“中数据”开始
业界对“大数据”这一概念的质疑声从来就没有停止过,很多人认为它只是一个过度炒作的营销泡沫。确实,单就数据的体量而言,大多数企业并没有Google, Facebook那样的PB级数据。 那么, 大数据究竟有没有意义呢? 数据分析专家Tom Anderson最近给出了一个概念叫“中数据”,根据他的划分, 数据集数据量在10万以下的称为“小数据”, 数据集在1000万以上的称为“大数据”,而在二者之间的称为“中”数据。 Tom Anderson认为, 企业进行数据分析的投资收益率在“中”数据范围内是最高的。 以下是IT经理网编译Tom Anderson的博文:
在我参加了这个星期的美国营销协会的第一届大数据的研讨会后,我更加坚信了我这几年与许多财富1000强企业的营销人员沟通后的一个看法。 那就是:
很少有公司能够分析到所谓“大”数据的量级,而事实上它们也并不需要。 其实, 大部分公司应该开始考虑如何从“中”数据开始。
大数据,大数据, 大数据, 人们到处在谈它, 其实我发现, 真正处理“大”数据的研究者其实很少。 我认为我们应该把“大数据”的概念范围缩小。 引入一个新的更有意义的名词:“中”数据来描述我们目前的大数据热潮。
要了解什么是“中”数据,进而理解大数据, 我们得先知道什么是“小”数据。
“小数据”
上面的图简单地按照数据记录的规模或者说样本的规模对数据的“大”“中”“小”进行了划分
小数据可以包括从定性研究的某个访谈到几千个调查问卷的结果。在这个规模上, 定性分析和定量分析可以从技术上结合起来。 而这两者都不能称之为现在定义的“大数据”。 目前对大数据的定义随着企业对数据的处理水平的不同而不同。通常的的大数据定义指的是用现有普通软件很难分析的数据量。
而这个定义是从IT或者软件提供商的角度来说的。 它描述了企业无法利用现有能力, 必须进行大量硬件软件升级进行有价值的数据分析的情况。
中数据
那么,什么是中数据呢? 进入大数据时代, 有些我们认为是小数据的数据集可能会迅速成长为大数据。 比如 3万到5万条用户满意度调查记录可以用类似IBM的SPSS软件分析。 可是, 如果把这些数据集中加入了用户的评论这样的文本数据, 同样的分析可能就会变得缓慢了。 这同样的数据集现在需要更长的时间来分析,甚至可能导致分析软件崩溃。
如果我们把同样的文本数据用文本挖掘的方式处理的话,新加入数据集的数据将会极大地增加数据量。 这常常就会被认为是大数据, 需要更加强大的软件来处理它。 不过, 我认为, 一个更准确的描述应该是“中”数据, 它其实只是真正大数据的起步阶段(这与IT经理网之前的文章“大数据需大处着眼,小处着手”中的观点不谋而合)。而且对于这个规模的数据量, 其实还是有很多简单的处理手段的。
大数据
好了,我们把大数据的一部分切出来叫做“中”数据。 现在, 我们可以重新定义“大”数据了。
为了理解“大”数据与“中”数据的区别, 我们需要考虑一些不同的维度。 Gartner的分析师Doug Laney曾经对大数据有一个著名的描述, 把大数据分为3个维度:规模(Volume), 种类(Variety)和 速度(Velocity), 通常叫做3V模型。
在理解“中”数据与“大”数据的区别时, 我们只需要考虑两个因素, 成本与价值。
成本(以时间计量或者按照金钱计量)与期望价值构成了所谓的投资收益率(ROI)。 这也可以应用于大数据项目的可行性研究。
我们知道, 有些数据天然的比其他数据具有更高的价值。 (100个客户投诉邮件可能比1000个微博上提到你的产品比起来, 对你的运营分析更有价值。) 当然, 有一点是肯定的: 没有经过分析的数据是没有价值的。
相对于“中”数据来说, “大”数据或者说“真正的大”数据量的分界点在于, 对于分析进行的投入, 相对成本(包括可能从中发现不了什么的风险)来说,并不具有吸引力。 比“中”数据更大的数据量来说, 大数据分析要么并不现实, 要么对企业来说ROI太低。
而“中”数据则是正好在数据分析的最佳范围内, 可以在相对可控的预算前提下进行有价值的分析。
对于很多市场研究人员来说, “中”数据才是一个真正能够提供有价值, 有足够ROI的分析目标。 而真正“大”数据分析, 则会呈现递减的ROI。
在最近我去德国的一次出差中, 我有幸遇到了一位在欧洲核子研究中心从事大型对撞机项目的科学家。 相对于大型核子对撞机来说, 普通的商业企业不需要像那样的软件和硬件来进行那个规模的大数据分析。 对撞机的1亿5千万个传感器每秒钟产生4000万条数据。 而实际上, 即使是欧洲核子研究中心的科学家们, 也不会去分析如此打规模的数据量。 他们在分析前过滤掉来99.999%的粒子对撞数据!
对我们普通企业来说, 对消费者的分析相对简单得多。 对于数据或者文本挖掘, 我们不需要EB或者PB级别的处理能力或者在数以千计的服务器上跑大型并发软件, 目前其实有一些很好的软件能够处理我们一般企业的“中”数据需求。 一提到大数据, 媒体常常提到的是亚马逊, 谷歌或者Facebook。 就算是这些案例中(很多 听上去更像是IT销售鼓吹的科幻小说), 也并没有提到这些公司在数据分析中实际使用的样本的量。
就像欧洲核子研究中心的科学家发现的那样, 相对一股脑处理全部数据的做法, 更重要的是能够正确的分析对研究相关的那部分重要数据。
那么, 读者可能会问“既然‘中’数据比‘大’数据更加具有吸引力, 为什么我们分析‘小’数据不是更好吗?”
这里的关键是, 随着数据量的增加, 我们不但可以对分析结果更加具有信心, 而且可能会发现一些传统的“小”数据所不能发现的现象。 对市场分析来说, 这可能意味着发现了一个新的细分产品市场或者竞争对手的新动向, 对药物研究来说, 可能意味着发现一些小的人群细分与某些癌症的高风险关联 从而拯救生命。
“中”数据应该被更加明确的定义, 而且也需要更多的最佳实践。 不幸的是, 经常有一些企业的CEO或者CIO会要求IT人员“采集所有的数据, 全面分析数据”。 这样的过程, 他们其实在制造真正的“大”数据, 这种数据量常常是超过需要的。 这就产生了我一直在提的ROI的问题。 追求真正的“大”数据常常不能给你带来任何优势。 经验丰富的“小”数据或者“中”数据的分析人员知道, 对于“大”数据的分析常常是没有满意结果的。 而相对投入的成本来说, 从ROI的角度是不值得的。
因此, 对于“大”数据分析而言, “中”数据才应该是我们真正需要瞄准的目标。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21