Hadoop 2.0：大数据的新突破在即-数据分析师-CDA数据分析师官网

Hadoop 2.0：大数据的新突破在即-CDA数据分析师

以往 Hadoop 似乎就是大数据的代名词。不过最近随着大数据应用的深入，大家已经越来越倾向于仅仅把它看成是大数据的一个存储工具了。

不过这并不一定就是坏事。把 Hadoop 当作廉价有效的存储正好是 Hadoop 下一阶段演进的的完美起点。今年夏天就要亮相的 Hadoop 2.0 将会令数据仓库中的信息以及非结构化数据池前所未有地容易访问。

Hadoop大桶

自成为大数据工具以来，Hadoop 就是一个非常棒的数据存储系统，但是需要开发 Java 应用来访问数据的 MapReduce 学习起来却比较困难。

当然，还有别的办法可以从 Hadoop 中获取信息。Hbase数据是 Hadoop 的一部分，它可以让用户按照数据库范式来处理数据。Hive 数据仓库则可以让你用类 SQL 的 Hive SQL 查询语言来创建查询并转化为 MapReduce 任务。不过 Hadoop 仍受限于单线程性。MapReduce 任务、Hive 查询、Hbase 操作，等等，这些都要轮流进行。

这就是许多大数据供应商倾向于仅将 Hadoop 当作数据容器的原因，为了提高效率，他们在此基础上再开发自己的工具来获取或分析其中的数据。尽管把 Hadoop 形容为一个大桶很形象，但是 Hadoop 用户当中已经有人把它看作是数据大湖甚至数据海洋了。不过光是规模大还是不行的，那些限制影响到了 Hadoop 的卖点。

Hadoop 的开发社区也意识到这个问题，随着 Hadoop 即将迭代到新的版本，上述限制即将在很大程度上被解除。

YARN解决方案

在 Hadoop 2.0 发布经理 Arun Murthy 看来，其最重要的变化是 MapReduce 框架升级为Apache YARN，这将扩展 Hadoop 中可以应用的软件种类和应用程度。Arun Murthy 本人就是 YARN 项目主管，他指出，Hadoop 1.0 和 2.0 的区别在于，前者所有的事情都是面向批处理的，而后者则允许多个应用同时在内部访问数据。

相对于当前 MapReduce 系统能处理的事情，把这些功能分开使得 Hadoop 集群资源的管理更加强大。其主要管理方式类似于操作系统对任务的处理，也就是说不再有一次一项操作的限制了。

有了 YARN，开发者就能够直接在 Hadoop 内部来开发应用，而不是像许多第三方工具所做的那样，在外面把数据筛选出来。

Murthy 称，现在已经有供应商对在 YARN 框架内开发应用表现出兴趣。Murthy 估计，Hadoop 2.0 的强力 beta 版有可能会在今年 6 月或 7 月推出，正式版则可能在 8 月发布。

如果 YARN 的确能履行其承诺的话，开发者将可以在原生的 Hadoop 平台里方便地接触到许多的数据大湖大海，令搜寻有用信息的任务更加流畅和便捷。届时，大数据会变得更加有用、更加大众化。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

Hadoop 2.0：大数据的新突破在即-数据分析师

Hadoop 2.0：大数据的新突破在即-CDA数据分析师

CDA考试动态

CDA报考指南

热门栏目

最新资讯

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...