
当“大数据”铺天盖地般向我们涌来,人们往往期冀能够对大数据能够有更进一步的了解,“数据挖掘”因此成为我们理解大数据概念绕不过去的“坎”。通过将大数据与数据挖掘进行对比分析,将有助于人们了解大数据的来龙去脉和未来真实走向。
1.基本概念
数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、随机的、模糊的数据中,提取隐含其中的、规律性的、人们事先未知的、但又是潜在的有用信息和知识的过程。数据挖掘是一个在海量数据中利用各种分析工具发现模型与数据间关系的过程,它可以帮助决策者寻找数据间潜在的某种关联,发现被隐藏的、被忽略的因素,因而被认为是在这个数据爆炸时代解决信息贫乏问题的一种有效方法。数据挖掘作为一门交叉学科,融合了数据库、人工智能、统计学、机器学习等多领域的理论与技术。数据库、人工智能与数理统计为数据挖掘的研究提供了三大技术支持。
大数据是通过高速捕捉、发现和分析,从大容量数据中获取价值的一种新的技术架构。著名研究机构IDC给大数据的定义,有四个"V"字开头的特征:Volume(体量大),Velocity(速度快),Variety(种类杂),Value(价值大)。Volume是指大数据巨大的数据量与数据完整性�Velocity可以理解为更快地满足实时性需求;Variety则意味着要在海量、种类繁多的数据间发现其内在关联;Value最重要,它是大数据的最终意义:挖掘数据存在的价值。
2.相互联系
大数据是数据挖掘的概念再升级。相比于兴起只有2~3年的大数据概念,已有20多年发展的数据挖掘可称得上大数据的开山鼻祖。因为大数据和数据挖掘的本质是相同的――对数据进行挖掘分析,以发现有价值的信息。而且大数据的兴起,正是在人工智能、机器学习和数据挖掘等技术基础之上发展起来的,而人工智能、机器学习又是在为数据挖掘服务。从表面上看,大数据与数据挖掘的显著区别在于“大”上。然而深入分析就会发现:一方面,数据挖掘的对象不仅可以用于少量的数据,而且同样适用于海量数据,只是由于挖掘方法和技术工具的不断升级换代,换了个新的名称而已;另一方面,大数据的本质不在于“大”,而是以崭新的思维和技术去分析海量数据,揭示其中隐藏的人类行为等模式,由此创造新产品和服务,或是预测未来趋势。所以大数据和数据挖掘的概念在一定时期还会并存,因应于使用的时机、场合或使用人的习惯,真正的关键点是如何体现出数据的价值。
大数据是数据挖掘产业化的表现。长久以来,数据挖掘的经典案例――“啤酒与尿布”被广为传颂,然而这一传奇故事显然跟不上时代大发展的步伐,取而代之的是谷歌成功预测流感的案例。数据的价值在于信息,而技术的价值在于利润,数据挖掘可以看作是专业技术领域的专业名词,到了商业领域就需要进一步的包装与升级。只有这样,一系列的开放式平台、技术解决方案才能迅速“火”起来。显而易见,这种商业的运作模式已经非常成熟和成功。目前,大数据已被视为创新和生产力提升的下一个前沿,正成为国家竞争力的要素之一,在世界范围内日益受到重视,多国政府加大了对大数据发展的扶持力度,甚至上升到国家战略的高度。某咨询公司研究显示,全球对大数据项目投资总额2012年已达45亿欧元(约60亿美元),2013、2014两年均会保持约40%的增长速度。
3.简要小结
当前,数据挖掘在专业领域的地位已经非常牢固,但大数据还受到民众和业界的诸多质疑,认为是一种商业噱头和忽悠。其实很多争论实质上并非在讨论同一问题。比如,有人举例说,《大数据时代》的作者维克托・迈尔―舍恩伯格认为 , “人们处理的数据从样本数据变成全部数据”的结论至少从目前的数据收集和分析能力来说是不可能实现的。我们应该看到,没有不变的真理,只有客观规律。任何技术都不是万能的,作为一种技术而言,它仅代表了一种发展方向,它因为能够解决某一现实问题而具备存在的价值;至于技术的商业化运用成不成功,则还受制于运用推广的方式等其它诸多因素。例如,对比上世纪末“互联网经济泡沫”破灭时的哀鸿遍野和前不久阿里巴巴在美国上市的一片赞歌,可以看出:互联网技术的发展势不可挡,互联网产业发展一波三折,只能说产业和技术紧密相联,但终究不是一回事。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-09CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08LSTM 输出不确定的成因、影响与应对策略 长短期记忆网络(LSTM)作为循环神经网络(RNN)的一种变体,凭借独特的门控机制,在 ...
2025-07-07统计学方法在市场调研数据中的深度应用 市场调研是企业洞察市场动态、了解消费者需求的重要途径,而统计学方法则是市场调研数 ...
2025-07-07CDA数据分析师证书考试全攻略 在数字化浪潮席卷全球的当下,数据已成为企业决策、行业发展的核心驱动力,数据分析师也因此成为 ...
2025-07-07剖析 CDA 数据分析师考试题型:解锁高效备考与答题策略 CDA(Certified Data Analyst)数据分析师考试作为衡量数据专业能力的 ...
2025-07-04SQL Server 字符串截取转日期:解锁数据处理的关键技能 在数据处理与分析工作中,数据格式的规范性是保证后续分析准确性的基础 ...
2025-07-04CDA 数据分析师视角:从数据迷雾中探寻商业真相 在数字化浪潮席卷全球的今天,数据已成为企业决策的核心驱动力,CDA(Certifie ...
2025-07-04CDA 数据分析师:开启数据职业发展新征程 在数据成为核心生产要素的今天,数据分析师的职业价值愈发凸显。CDA(Certified D ...
2025-07-03从招聘要求看数据分析师的能力素养与职业发展 在数字化浪潮席卷全球的当下,数据已成为企业的核心资产,数据分析师岗位也随 ...
2025-07-03Power BI 中如何控制过滤器选择项目数并在超限时报错 引言 在使用 Power BI 进行数据可视化和分析的过程中,对过滤器的有 ...
2025-07-03把握 CDA 考试时间,开启数据分析职业之路 在数字化转型的时代浪潮下,数据已成为企业决策的核心驱动力。CDA(Certified Da ...
2025-07-02