重视大数据引领数据管理变革-CDA数据分析师官网

重视大数据引领数据管理变革

2018-07-28

重视大数据引领数据管理变革

供应商在每发布一款产品时都往往会有这样一种偏好，将其产品和最新的一些热炒的话题结合起来。而这次，厂商们又开始在每项产品中增加“大数据”的概念。如果你是一位存储管理员的话，你或许会在管理你自己环境中的大数据时遇到困惑。供应商口中的大数据存储和大数据分析非常相似，因此你很容易理解成这两者是相关的--大数据存储是用于大数据分析的。然而，到目前为止这是两种截然不同的计算机技术领域：一项致力于研发可以扩展至PB甚至EB级别的数据存储平台（大数据存储）；另一项则关注在最短时间内处理大量不同类型的数据集（大数据分析）。
    不过，在这些快速变化的趋势之中有至少两个结点，是存储管理员需要越为重视的。其一，大数据分析流程和传统的数据仓库的方式完全不同，其已经变成了业务部门级别和数据中心级别的关键应用。这也是存储管理员的切入点。随着基础平台（分布式计算或其它架构）变得业务关键化，用户群较以往更加地依赖这一平台，这也使得其成为企业安全性、数据保护和数据管理策略的关键课题。
    其二，通常用于数据分析平台的分布式计算平台内的存储不是你以往面对的网络附加存储（NAS）和存储区域网络（SAN）--其通常是内置的直连存储（NAS）以及组成集群的分布式计算节点。这使得管理大数据变得更为复杂，因为你无法像以前那样对这些数据部署安全、保护和保存流程。然而，执行这些流程策略的必要性被集成在管理分布式计算集群之中，并且改变了计算和存储层交互的方式。
    在我们一系列管理企业的大数据专题的第一篇文稿中，我们将关注在大数据分析和传统的数据仓库的不同之处，并且引入分布式计算集群作为大数据分析的基础。下一步，我们将着眼于分布式计算中的存储，并且进一步观察分布式计算如何创建并使用存储层。然后，我们将检验一个三段式的存储模型，其中在分布式计算的存储层中包含了NAS和SAN.最后，我们通过使用一些同样的判断因素--这些因素你作为存储管理员在评估存储阵列中同样会用到--来对分布式计算作为一个存储设备进行评估。
    区别大数据分析和传统的数据仓库的不同
   大数据分析中包含了各种快速成长中的技术。因此，简单用某一种技术尝试对其定义，比如分布式计算，会比较困难。不过，这些定义大数据分析的通用性技术可以用如下特征阐述：[page]
    对于传统数据仓库处理流程效率和扩展性方面限制的感知。将数据，不论是结构化还是非结构化数据从多个数据源汇聚的能力。以及认识到数据的及时性是扩展非结构化数据源的关键，其中包括移动设备，RFID,网络和不断增长的自动化感知技术。
    传统的数据仓库系统通常从现有的关系型数据库中抓取数据。然而，据估计超过80%的企业数据是非结构化的，即无法关系型数据库管理系统（RDBMS），比如DB2和Oracle完成的数据。一般而言，处于此次讨论的目的，非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息，包括：
    邮件和其它形式的电子通讯记录
    网站上的资料，包括点击量和社交媒体相关的内容
    数字视频和音频
    设备产生的数据（RFID,GPS,传感器产生的数据，日志文件等）以及物联网
    在大数据分析的情况下，查看远多于RDBMS的数据类型十分必要--这代表了各种重要的新信息源。并且随着每年非结构化数据存储总量较结构化数据增长率高出10到50倍，从业务角度看这些数据也变得更为重要。
    为什么需要更新的技术？
    从大数据分析角度看，业务主管的挑战在于从各种数据源获取信息，并执行分析流程以打开信息的价值。传统数据仓库技术并不是设计在很短的时间内（5秒钟甚至更少）用于处理海量的非结构化数据，因此市场上产生了管理大数据的需求。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据数据分析大数据分析分布式计算数据仓库数据存储关系型数据库集群

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

重视大数据引领数据管理变革

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...