大数据流式计算场景特征的解读-CDA数据分析师官网

大数据流式计算场景特征的解读

2016-03-10

大数据流式计算场景特征的解读

云计算、物联网等新兴信息技术和应用模式的快速发展，推动人类社会迈入大数据新时代。一般意义上，大数据是指利用现有理论、方法、技术和工具难以在可接受的时间内完成分析计算、整体呈现高价值的海量复杂数据集合。

大数据流式计算场景<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>

大数据蕴含大信息，大信息提炼大知识，大知识将在更高的层面、以更广的视角、在更大的范围内帮助用户提高洞察力、提升决策力，为人类社会创造前所未有的大价值。但与此同时，这些总量极大的价值往往隐藏在大数据中，表现出了价值密度极低、分布极其不规律、信息隐藏程度极深、发现有用价值极其困难等鲜明特性，这些特征必然为大数据的计算带来前所未有的挑战和机遇。

大数据的计算模式主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。其中，流式计算和批量计算是两种主要的大数据计算模式，分别适用于不同的大数据应用场景。对于先存储后计算，实时性要求不高，同时数据的准确性、全面性更为重要的应用场景，批量计算更加适合;对于无需先存储，可以直接进行数据计算，实时性要求很严格，但数据的精确度往往不太苛刻的应用场景，流式计算具有明显优势。

流式计算中，数据往往是最近一个时间窗口内的增量数据，因此数据时延往往较短，实时性较强，但数据的信息量往往相对较少，只限于一个时间窗口内的信息，不具有全量信息。流式计算和批量计算具有明显的优劣互补特征，在多种应用场合下可以将两者结合起来使用，通过发挥流式计算的实时性优势和批量计算的计算精度优势，满足多种应用场景在不同阶段的数据计算要求。

通常情况下，大数据流式计算场景具有以下鲜明特征：

在流式计算环境中，数据是以元组为单位，以连续数据流的形态，持续地到达大数据流式计算平台。数据并不是一次全部可用，不能够一次得到全量数据，只能在不同的时间点，以增量的方式，逐步得到相应数据。

数据源往往是多个，在进行数据流重放的过程中，数据流中各个元组间的相对顺序是不能控制的。也就是说，在数据流重放过程中，得到完全相同的数据流(相同的数据元组和相同的元组顺序)是很困难的，甚至是不可能的。

数据流的流速是高速的，且随着时间在不断动态变化。这种变化主要体现在两个方面，一个方面是数据流流速大小在不同时间点的变化，这就需要系统可以弹性、动态地适应数据流的变化，实现系统中资源、能耗的高效利用;另一方面是数据流中各个元组内容(语义)在不同时间点的变化，即概念漂移，这就需要处理数据流的有向任务图可以及时识别、动态更新和有效适应这种语义层面上的变化。

实时分析和处理数据流是至关重要的，在数据流中，其生命周期的时效性往往很短，数据的时间价值也更加重要。所有数据流到来后，均需要实时处理，并实时产生相应结果，进行反馈，所有的数据元组也仅会被处理一次。虽然部分数据可能以批量的形式被存储下来，但也只是为了满足后续其他场景下的应用需求。

数据流是无穷无尽的，只要有数据源在不断产生数据，数据流就会持续不断地到来。这也就需要流式计算系统永远在线运行，时刻准备接收和处理到来的数据流。在线运行是流式计算系统的一个常态，一旦系统上线后，所有对该系统的调整和优化也将在在线环境中开展和完成。

多个不同应用会通过各自的有向任务图进行表示，并将被部署在一个大数据计算平台中，如图1所示，这就需要整个计算平台可以有效地为各个有向任务图分配合理资源，并保证满足用户服务级目标。同时各个资源间需要公平地竞争资源、合理地共享资源，特别是要满足不同时间点各应用间系统资源的公平使用。

在大数据时代，数据的时效性日益突出，数据的流式特征更加明显，越来越多的应用场景需要部署在流式计算平台中。大数据流式计算作为大数据计算的一种形态，其重要性也在不断提升。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据特征云计算

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

大数据流式计算场景特征的解读

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...