大数据时代为什么都在谈Hadoop?-CDA数据分析师官网

大数据时代为什么都在谈Hadoop?

2016-06-30

大数据时代为什么都在谈Hadoop?

最近知乎上有这样一个问题“为什么很多公司都采用Hadoop方案处理大数据业务”，引来很多回答，笔者整理如下，其观点或有时而可商，欢迎讨论。

先说一说什么样的公司比较倾向于使用Hadoop。有人认为，使用Hadoop的前提是自身有没有收集并分析数据的需要，并且数据量是否一直在增长并且不可丢弃。

目前看起来，此类数据多数为日志数据，分析用户习惯，或者就是传感器之类的数据，分析环境等监控内容的变化规律。也有很多公司不使用Hadoop，比如多数从事政府行业或者部分企业系统开发的公司，他们对系统的易部署及易维护性要求更高，虽然也会遇到一部分数据量较大，不过通常使用NoSQL数据库就能够满足需要了，很少使用Hadoop。

这又回到了一句老话，任何技术，都是为了解决问题而存在的，没有必要为了技术而技术!

那么，使用Hadoop的公司为什么选择Hadoop呢?选择Hadoop，其实是选择的的MapReduce，把大块的任务切分为若干份小任务，由集群的每台服务器来计算，最后把结果合并。

有人认为，主要有三点：1，可以解决问题; 2，成本低 ; 3，成熟的生态圈。

一、Hadoop为大数据而生

在那个没有Hadoop的时代，大家是怎么处理大量数据的呢?IBM的大型机是一个很不错的解决方案。

中国的银行系统目前很大一部分还在大型机上。但是大型机太贵了，实在是太贵了。

于是Google来了，经过谨慎的思考，Google的工程师们发现实际上使用一个简单得分布式计算模型MapReduce就能完成他们的需求。然后他们就搞了一个MapReduce。然后就写了几篇关于这种计算方法的论文。

有了思想，而且有了Google这么大数据量的数据验证，复制技术就很容易了。于是大家就开始搞，然后大家就搞出来一个Hadoop。而且Hadoop是Apache 下的项目，正所谓大树底下好乘凉。

Hadoop底层的分布式文件系统具有高拓展性，通过数据冗余保证数据不丢失和提交计算效率，同时可以存储各种格式的数据。同时其还支持多种计算框架，既可以进行离线计算也可以进行在线实时计算。

二，为什么成本可以控制的低

确定可以解决我们遇到的问题之后，那就必须考虑下成本问题了。

1，硬件成本

Hadoop是架构在廉价的硬件服务器上，不需要非常昂贵的硬件做支撑

2，软件成本

开源的产品，免费的，基于开源协议，可以自由修改，可控性更大

3，开发成本

因为属于二次开发，同时因为有非常活跃的社区讨论，对开发人员的能力要求相对不高，工程师的学习成本也并不高

4，维护成本

当集群规模非常大时，开发成本和维护成本会凸显出来。但是相对于自研系统来说的话，还是便宜的很多。

某司自研同类系统几百名工程师近4年的投入，烧钱亿计，都尚未替换掉Hadoop。

5，其他成本

如系统的安全性，社区版本升级频繁而现实是无法同步进行升级所引入的其他隐形成本。

三、成熟的生态圈

部分系统归类：

部署，配置和监控 Ambari，Whirr

监控管理工具 Hue, karmasphere, eclipse plugin, cacti, ganglia

数据序列化处理与任务调度 Avro, Zookeeper

数据收集 Fuse,Webdav, Chukwa, Flume, Scribe ， Nutch

数据存储 HDFS

类SQL查询数据仓库 Hive

流式数据处理 Pig

并行计算框架 MapReduce， Tez

数据挖掘和机器学习 Mahout

列式存储在线数据库 HBase

元数据中心 HCatalog (可以和Pig，Hive ,MapReduce等结合使用)

工作流控制 Oozie，Cascading

数据导入导出到关系数据库 Sqoop，Flume， Hiho

数据可视化 drilldown，Intellicus

传统数据库数据仓库VS.Hadoop

再从传统数据库数据仓库这边看，一方面吃着现有的蛋糕，另一方面也一直在尝试数据量更大、扩展性更好的解决方案，从share-everything到 share-storage到share-nothing，比如现在的MPP解决方案，也在大数据业务中分了一杯羹。不过数据库基因的解决方案，还是要面临扩展性的问题，我们的经验是大概百节点级别，远远不如hadoop的扩展性。

hadoop最伟大的地方，严格说是google的伟大，就是在扩展性瓶颈方面的突破了。扩展性一直是所谓大数据(以前叫海量数据)处理的瓶颈，扩展性上去了，有更多机器来干活，那同时能干的活也就多了嘛。以前处理海量数据的思路，是搞一台超级牛的机器，比如高性能计算机，比如大型机、小型机;后来一台机器怎么也不够用了，就搞个几台连起来一起用，比如网格，比如分布式大数据数据库数据仓库，不过这扩展性也就是几台十几台级别的，再多也无法提高了;而 hadoop，放弃磁盘阵列而使用本地硬盘作为存储，使得网络连接方式大大简化，从软件层面来解决很多硬件问题，比如硬盘故障，减少对硬件的依赖，这些保证了hadoop甩出其他方案几个量级的扩展性能，人类看到了处理大数据的曙光。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

Hadoop 大数据数据仓库 SQL Hive HDFS 分布式计算数据挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇突破执法瓶颈保障大数据时代个人信息安全

下一篇为什么BI系统会日趋人性化

大数据时代为什么都在谈Hadoop?

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...