当“大数据”铺天盖地般向我们涌来,人们往往期冀能够对大数据能够有更进一步的了解,“数据挖掘”因此成为我们理解大数据概念绕不过去的“坎”。通过将大数据与数据挖掘进行对比分析,将有助于人们了解大数据的来龙去脉和未来真实走向。
1.基本概念
数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、随机的、模糊的数据中,提取隐含其中的、规律性的、人们事先未知的、但又是潜在的有用信息和知识的过程。数据挖掘是一个在海量数据中利用各种分析工具发现模型与数据间关系的过程,它可以帮助决策者寻找数据间潜在的某种关联,发现被隐藏的、被忽略的因素,因而被认为是在这个数据爆炸时代解决信息贫乏问题的一种有效方法。数据挖掘作为一门交叉学科,融合了数据库、人工智能、统计学、机器学习等多领域的理论与技术。数据库、人工智能与数理统计为数据挖掘的研究提供了三大技术支持。
大数据是通过高速捕捉、发现和分析,从大容量数据中获取价值的一种新的技术架构。著名研究机构IDC给大数据的定义,有四个"V"字开头的特征:Volume(体量大),Velocity(速度快),Variety(种类杂),Value(价值大)。Volume是指大数据巨大的数据量与数据完整性�Velocity可以理解为更快地满足实时性需求;Variety则意味着要在海量、种类繁多的数据间发现其内在关联;Value最重要,它是大数据的最终意义:挖掘数据存在的价值。
2.相互联系
大数据是数据挖掘的概念再升级。相比于兴起只有2~3年的大数据概念,已有20多年发展的数据挖掘可称得上大数据的开山鼻祖。因为大数据和数据挖掘的本质是相同的――对数据进行挖掘分析,以发现有价值的信息。而且大数据的兴起,正是在人工智能、机器学习和数据挖掘等技术基础之上发展起来的,而人工智能、机器学习又是在为数据挖掘服务。从表面上看,大数据与数据挖掘的显著区别在于“大”上。然而深入分析就会发现:一方面,数据挖掘的对象不仅可以用于少量的数据,而且同样适用于海量数据,只是由于挖掘方法和技术工具的不断升级换代,换了个新的名称而已;另一方面,大数据的本质不在于“大”,而是以崭新的思维和技术去分析海量数据,揭示其中隐藏的人类行为等模式,由此创造新产品和服务,或是预测未来趋势。所以大数据和数据挖掘的概念在一定时期还会并存,因应于使用的时机、场合或使用人的习惯,真正的关键点是如何体现出数据的价值。
大数据是数据挖掘产业化的表现。长久以来,数据挖掘的经典案例――“啤酒与尿布”被广为传颂,然而这一传奇故事显然跟不上时代大发展的步伐,取而代之的是谷歌成功预测流感的案例。数据的价值在于信息,而技术的价值在于利润,数据挖掘可以看作是专业技术领域的专业名词,到了商业领域就需要进一步的包装与升级。只有这样,一系列的开放式平台、技术解决方案才能迅速“火”起来。显而易见,这种商业的运作模式已经非常成熟和成功。目前,大数据已被视为创新和生产力提升的下一个前沿,正成为国家竞争力的要素之一,在世界范围内日益受到重视,多国政府加大了对大数据发展的扶持力度,甚至上升到国家战略的高度。某咨询公司研究显示,全球对大数据项目投资总额2012年已达45亿欧元(约60亿美元),2013、2014两年均会保持约40%的增长速度。
3.简要小结
当前,数据挖掘在专业领域的地位已经非常牢固,但大数据还受到民众和业界的诸多质疑,认为是一种商业噱头和忽悠。其实很多争论实质上并非在讨论同一问题。比如,有人举例说,《大数据时代》的作者维克托・迈尔―舍恩伯格认为 , “人们处理的数据从样本数据变成全部数据”的结论至少从目前的数据收集和分析能力来说是不可能实现的。我们应该看到,没有不变的真理,只有客观规律。任何技术都不是万能的,作为一种技术而言,它仅代表了一种发展方向,它因为能够解决某一现实问题而具备存在的价值;至于技术的商业化运用成不成功,则还受制于运用推广的方式等其它诸多因素。例如,对比上世纪末“互联网经济泡沫”破灭时的哀鸿遍野和前不久阿里巴巴在美国上市的一片赞歌,可以看出:互联网技术的发展势不可挡,互联网产业发展一波三折,只能说产业和技术紧密相联,但终究不是一回事。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29持证人简介 郭畅,CDA数据分析师二级持证人,安徽大学毕业,目前就职于徽商银行总行大数据部,两年工作经验,主要参与两项跨部 ...
2025-01-282025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08