大数据的简单介绍_大数据
一、大数据的定义和特征
1.大数据的定义
对于大数据还没有一个正式的定义,目前最为普遍的定义就是“用传统方法或工具不能处理或分析的数据”。不同的定义基本是从大数据的特征出发通过这些特征的阐述和归纳试图给出其定义。在这些定义中比较有代表性的是3V定义,即认为大数据需满足3个特点:规模性(volume)多样性(variety)和高速性(velocity)。除此之外还有提出4V定义的,即尝试在3V的基础上增加一个新的特性。关于第4个V的说法并不统一,国际数据公司(International Data Corporation, IDC)认为大数据还应当具有价值性(value),大数据的价值往往呈现出稀疏性的特点。而IBM认为大数据必然具有真实性(veracity)。维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。
2.大数据的特征
3V认为大数据具有规模性、高速性和多样性三大特征,这些特征是传统数据处理方法和工具所无法胜任的。
2.1规模性(Volume)是指数据量非常庞大,主要体现在数据存储量大和计算量大。根据IDC《数字宇宙膨胀:到2010年全球信息增长预测》中统计的数据,2006年全球每年制造、复制出的数字信息量共计16.1万PB,当年信息产生量大约是历史上图书信息总量的3000倍;至2010年,数字信息总量达98.8万PB。专家指出,2020年年度数据将增加43倍。因此,大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。
2.2高速性(Velocity)一方面是指数据在不断更新,增长的速度快,另一方面是指数据存储、传输等处理速度很快。短短60秒,YouTube用户会上传48小时的视频;Google会收到200万次搜索请求并极快地返回结果;Twitter要处理100万条Tweets信息;网购产生27.2万美元的交易;App Store有4.7万次下载;全球新增网页571个。数据处理的速度也要求越来越快,甚至是实时处理,比如灾难的预测,需很快的对灾难发生的程度、影响的区域范围等进行量化。如日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。
2.3多样性(Variety)指数据包含结构化的数据表和半结构化、非结构化的文本、视频、图像等信息,而且数据之间的交互非常频繁和广泛。
具体包括三个方面:
一是数据来源多,企业所面对的传统数据主要是交易数据,而互联网和物联网的发展,带来了诸如微博、社交网站、传感器等多种来源。
二是数据类型多,并且以非结构化数据为主。传统的企业中,数据都是以表格的形式保存。而大数据中70%-85%的数据是如图片、音频、视频网络日志、链接信息等非结构化和半结构化的数据。
三是数据之间关联性强,频繁交互。如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有了很强的关联性。
二、传统数据库和大数据的比较
1.最基本的区别在于数据规模、数据类型、产生模式。
2.处理对象的变化。传统的数据库中数据仅作为处理对象,而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。
3.处理工具的改变。从以计算为中心转变到以数据处理为中心。
三、大数据的处理模式
大数据的应用类型有很多主要的处理模式可分为流处理(stream processing)和批处理(batch processing)两种。批处理是先存储后处理(store-then-process),而流处理则是直接处理(right-through processing)。
1.大数据流处理
流处理的基本理念是数据的价值会随着时间的流逝而不断减少,因此尽可能快地对最新的数据作出分析并给出结果是所有流数据处理模式的共同目标。需要采用流数据处理的大数据应用场景主要有网页点击数的实时统计、传感器网络、金融中的高频交易等。
流处理的处理模式将数据视为流,源源不断的数据组成了数据流。当新的数据到来时就立刻处理并返回所需的结果。
快且规模巨大等特点,因此通常不会对所有的数据进行永久化存储,而且数据环境处在不断的变化之中,系统很难准确掌握整个数据的全貌。
由于响应时间的要求,流处理的过程基本在内存中完成,其处理方式更多地依赖于在内存中设计巧妙的概要数据结构(synopsis data structure),内存容量是限制流处理模型的一个主要瓶颈。以PCM(相变存储器)为代表的储存级内存(storage class memory, SCM)设备的出现或许可以使内存未来不再成为流处理模型的制约。
数据流的理论数据的实时处理是一个很有挑战性的工作,数据流本身具有持续达到,速度及技术研究已经有十几年的历史,目前仍旧是研究热点。与此同时很多实际系统也已开发和得到广泛的应用,比较代表性的开源系统如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka22等.
2.大数据批处理
Google公司在2004年提出的MapReduce编程模型是最具代表性的批处理模式。
MapReduce模型首先将用户的原始数据源进行分块,然后分别交给不同的Map任务区处理。Map任务从输入中解析出健/值(Key/Value)对集合,然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后会根据Key值进行排序,将具有相同Key值的组织在一起。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。
从MapReduce的处理过程我们可以看出MapReduce的核心设计思想在于:
a)将问题分而治之
b)把计算推到数据而不是把数据推到计算,有效地避免数据传输过程中产生的大量通信开销。
MapReduce模型简单,且现实中很多问题都可用MapReduce模型来表示。因此该模型公开后立刻受到极大的关注,并在生物信息学、文本挖掘等领域得到广泛的应用。
无论是流处理还是批处理都是大数据处理的可行思路。大数据的应用类型很多,在实际的大数据处理中?常常并不是简单地只使用其中的某一种而是将二者结合起来。互联网是大数据最重要的来源之一,很多互联网公司根据处理时间的要求将自己的业务划分为在线(online)、近线(nearline)和离线(offline),比如著名的职业社交网站Linkedin的划分方式是按处理所耗时间来划分的。其中在线的处理时间一般在秒级甚至是毫秒级,因此通常采用上面所说的流处理。离线的处理时间可以以天为基本单位,基本采用批处理方式,这种方式可以最大限度地利用系统I/O。近线的处理时间一般在分钟级或者是小时级,对其处理模型并没有特别的要求,可以根据需求灵活选择,但在实际中多采用批处理模式。
3.大数据的基本处理流程
"数据分析师"整个大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储。数据分析师利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。具体来说可以分为数据抽取与集成,数据分析以及数据解释。
四、大数据与云计算的关系
1.相同点。它们都是为数据存储和处理服务的,都需要占用大量的存储和计算资源,而且大数据用到的海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术也都是云计算的关键技术。
2.不同点。
2.1云计算的目的是通过互联网更好地调用、扩展和管理计算及存储资源和能力,以节省企业的IT部署成本,其处理对象是IT资源、处理能力和各种应用。云计算从根本上改变了企业的IT架构,产业发展的主要推动力量是存储及计算设备的生产厂商和拥有计算及存储资源的企业。
2.2大数据的目的是充分挖掘海量数据中的信息,发现数据中的价值,其处理对象是各种数据。大数据使得企业从“业务驱动”转变为“数据驱动”,从而改变了企业的业务架构,其直接受益者不是?IT?部门,而是业务部门或企业CEO,产业发展的主要推动力量是从事数据存储与处理的软件厂商和拥有大量数据的企业。
因此,不难发现云计算和大数据实际上是工具与用途的关系,即云计算为大数据提供了有力的工具和途径,大数据"数据分析师"为云计算提供了很有价值的用武之地。而且,从所使用的技术来看,大数据可以理解为云计算的延伸。
大数据若与云计算相结合,将相得益彰,互相都能发挥最大的优势。云计算能为大数据提供强大的存储和计算能力,更加迅速地处理大数据的丰富信息,并更方便地提供服务;而来自大数据的业务需求,能为云计算的落地找到更多更好的实际应用。当然大数据的出现也使得云计算会面临新的考验。数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在职场上,拍脑袋做决策的时代早已过去。数据分析正在成为每个职场人的核心竞争力,不仅能帮你找到问题,还能提供解决方案,提升 ...
2024-12-24Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17