Hadoop系列文章之一：小象诞生-CDA数据分析师官网

2014-12-26

提及Hadoop这一大数据存储和处理工具，自然要从它的爸爸Doug Cutting说起。Doug Cutting不仅仅是Hadoop的创始人，还是大名鼎鼎的搜索引擎工具Lucene的开创者。一个程序员能有一个开源软件为千万人所用，而且历久弥新，已经是十分难得。兼具多个的就更是寥寥了。有类似经历的如Linus Torvalds，即是Linux发明者同时也开发了Git。

　　2002 年，Doug Cutting和他的小伙伴Mike Cafarella开始开发一个网络搜索引擎：Nutch。但是，他们很快意识到最初的实现无法扩展。幸而在2003到2004年，Google的两篇文章GFS(分布文件系统)和MapReduce(分布计算)横空出世。很快Nutch实现算法被移植到使用MapReduce和NDFS (Nutch Distributed File System)来运行。近十年来，Google的不少分布式计算和存储的文章给了工业界启发，很多开源的项目都来自于此。除了GFS， MapReduce，还有BigTable，Chubby。比起直接开源，Google(至少早起)似乎更喜欢写文章：)当然，聪明的如Doug这般，这点光亮已经足够他灿烂了。

　　很快，大家就意识到NDFS和MapReduce的价值远远不只是搜索领域，在2006年2月，他们从Nutch转移出来成为一个独立的Lucene子项目，称为Hadoop。Hadoop这个名字不是一个缩写，它是一个虚构的名字。Doug Cutting如此解释：“个名字是我孩子给他的棕黄色大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。” Hadoop这头小象就此诞生。可以看到，一个优秀软件的诞生也不是一朝一夕的事情，Hadoop就经历了4年的技术积累。

　　Doug Cutting也在2006年加入雅虎。正是因为开源和Yahoo的大力支持，Hadoop后来一直顺风顺水，2008年1月，Hadoop已成为 Apache顶级项目，2008年4月，Hadoop打破世界纪录，成为最快排序1TB数据的系统。运行在一个910节点的群集，Hadoop在209秒内排序了1 TB的数据(还不到三分半钟)。当然江山代有才人出，如今Spark 用190个节点，234分钟sort 1000TB的数据。对于spark这个后起之秀，以后另谈。

　　经历了初期的快速增长，Doug意识到很多行业，而不仅仅是像Google，Yahoo这样的大型互联网公司需要Hadoop，这促使他之后加盟了 Cloudera，提供专业的Hadoop维护和咨询服务。而后，Hadoop的世界逐渐出现了三足鼎立的局面。欲知后事如何，且听下回分解。

原文链接：http://blog.csdn.net/tongqqiu/article/details/42138235

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

Hadoop 分布式计算 spark Linux 大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！