大数据与传统数据库是互补关系_数据分析师培训
在全球大数据生态圈中,Hadoop堪称其中最为核心的技术。
由非营利组织管理的Hadoop平台,尽管推行开源模式,但企业并不是拿来就可以用,它需要经过进一步的加工和修缮,由此孕育了多家大数据商业开发公司,如Cloudera、MapR、Hortonworks等。这些公司的商业模式就是开发商业化的Hadoop分发版,并对外销售。
在这些Hadoop分发版开发公司中,Hortonworks刚刚完成IPO,算是最早的一家,目前市值约10亿美元。而要论规模和影响力,则莫过于Cloudera。
Cloudera由分别来自Facebook、谷歌、雅虎和甲骨文的四位创始人于2008年成立。一项数据显示,75%的Hadoop新用户使用的都是Cloudera的分发版。
12月10日,Cloudera正式宣布在中国开始运营,标志着这家已在全球发展了1300多家客户的大数据公司,将业务触角伸向这一潜力市场。Cloudera公司创始人、董事长兼首席战略官Mike Olson亦专程来到中国为新公司站台。
“随着中国交通、电信、金融、医疗等行业领域的飞速发展,越来越多的企业需要快速,甚至是实时的大数据分析。”Mike Olson在接受21世纪经济报道记者专访时表示,大数据在中国企业转型与变革中发挥的作用将愈发显著,而Hadoop作为大数据应用中的主流技术,也将逐渐成为企业应用的核心。
英特尔软件与服务事业部中国区总经理、英特尔亚太研发有限公司总经理何京翔,以及Cloudera公司副总裁、肯睿(上海)软件有限公司总经理凌琦也同时接受了21世纪经济报道记者专访。
50亿美元估值
《21世纪》:Cloudera的四个创始人当中,各自怎么分工,你负责哪些部分?
Mike Olson:我们四位联合创始人分别来自于雅虎、谷歌、Facebook和甲骨文。我是来自于甲骨文,在此之前创建了Berkeley DB,后来被甲骨文收购了。2008年与另外三位同事一起创建了Cloudera,到现在已经六年半了。现在我的角色是董事长和首席战略官。
另外的三位同事,Jeff Hammerbacher来自Facebook,他现在是我们的首席科学家,他在做很多对人类非常重要的一些事情,比如说基因图谱,利用大数据这样一个工具进行一些重大疾病的研究。Amr Awadallah是我们的CTO,他来自于当年的雅虎,他是最早在雅虎内部使用Hadoop的人之一。Christophe Bisciglia来自于谷歌,尽管他现在已经离开了Cloudera,但是还是在这个生态圈里面,他在Cloudera基础上创建了一些工具和应用,利用大数据这个平台服务客户。
另外还有一个需要提及的人是Doug Cutting。大家都知道Doug Cutting是Hadoop之父,他在2004年写了Hadoop,到2009年加入Cloudera,现在任职我们的首席架构师。
《21世纪》:能否介绍下Cloudera的最新发展情况?
Mike Olson:目前我们全球拥有800名员工,已经有超过50亿美金的市值,有超过1300家的合作伙伴,他们分布在电信、运营商和金融、制造业等各行各业。
Cloudera的商业模式以软件销售为主,同时会提供专业化的服务和认证培训。这类似于Red Hat。诚然,Hadoop是开源的开放式标准,这避免了客户被某一家厂商锁定的风险,但仅仅开源并不够,开源版本更多的是靠一个社区去推动,而企业级客户需要更稳定、更安全、便于管理的企业级平台。这是企业级用户大多会选择Hadoop商业分发版的原因。
从技术角度来讲,Cloudera 的800名员工有一半以上是开发人员,这也就意味着我们对Hadoop社区和整个技术演进的发展方向有非常大的贡献和影响。
联手英特尔
《21世纪》:Cloudera成立六年半后来到中国,准备怎么开展业务?
Mike Olson:我们的中国公司——肯睿(上海)软件有限公司——已经在9月份注册完成,现在正式对外宣布开始运营。目前的团队主要在上海、北京、广州三个地方。业务模式与在美国的业务一脉相承,主要包括四部分:软件开发、营销;合作伙伴支持;解决方案咨询服务;认证培训。
团队方面,我们一方面是本地化,凌琦是Cloudera公司副总裁和肯睿(上海)软件有限公司总经理,他在英特尔工作了20年。另一方面是与英特尔的合作。英特尔向Cloudera投资了7.4亿美金,持有18%的股份,我们在产品和技术和团队上有广泛的合作。
凌琦:我来谈谈中国这边的情况,第一个方面的工作是把以前英特尔的Hadoop分发版的中国客户,转换到Cloudera平台上来。这些客户主要是在金融领域,包括银行、证券、保险等。在此基础上,我们也发现中国市场对大数据的需求在快速增长,比如说电信业,它积累了大量的数据和客户行为数据,这些信息会有很大价值可以挖掘。
我们还看到智慧城市。中国的智慧城市建设非常热,这里面也是靠数据来支持,比如说交通管理,比如说在商业分布,甚至说对于城市安全的管理都有非常好的应用。
另外,大数据在生命科学方面、医药研究方面以及流行病趋势方面,也会有很多应用。
《21世纪》:Cloudera在中国与英特尔将在哪些方面共享资源?
Mike Olson:我们跟英特尔的沟通当中会发现很多大数据潜在的问题,我们可以通过和英特尔或者与英特尔共享的合作伙伴渠道一起提供一个大数据整体解决方案。我们说到的智慧城市、平安城市都是非常典型的大数据应用场景案例。
何京翔:英特尔在上海的大数据开发团队,与Cloudera在开源上有很多的合作;另一方面,我们在共有客户和新客户方面也会合作,来更好满足客户需求。
我本身在英特尔软件及服务事业部工作,这个部门一个主要的任务是使得软件能够在英特尔平台上跑得最好,所以具体落实到大数据这块,就是怎么样让Hadoop、Spark这些新的软件平台在英特尔平台上得到最好的优化,把我们软硬结合做到最好。
与传统数据挖掘是互补关系
《21世纪》:有很多力量在推动大数据发展,其中比较典型的包括传统IT公司面对大数据的转型,以及新兴的创业公司。你怎么看这两类公司的优劣势?
Mike Olson:像Oracle、IBM、Teradata这些传统的数据库或者数据挖掘厂商,其实他们在自己擅长的部分已经做得非常好、非常成功,有非常成熟的解决方案。随着时间的发展,我们现在已经看到越来越多的应用场景和新技术加入到Hadoop平台。正如多年以前谷歌发表了三篇论文,MapReduce、Bigtable、GFS,三篇论文就是Hadoop的原形。Hadoop也是受到这三篇论文的启发。
我认为这两种模式更多的是优势互补。我们现在看到Cloudera做的大数据平台和传统数据仓库EDW数据平台并不是竞争的关系,因为我们可以给他们提供更多的数据,更多种类的数据,不论是从量、种类还是数据类型都会远远超过过去EDW数据能够处理的范围。有了这些数据,用户还是可以用他们熟悉的数据分析和建模以及数据挖掘的工具,比如说Teradata,比如说MicroStrategy这样的东西去发掘数据的价值。
也就是说,我们这两个方案完全是互补的关系,我们可以给他提供更多种类的数据,让他们从中挖掘更多的价值给到用户。
这里想强调一下我们跟合作伙伴良好的关系,举几个例子,今年10月份,我们宣布了很多合作,比如说跟Teradata、微软、EMC,以及我们跟Oracle做了一体机,这些都是非常好的样板,会告诉大家我们跟这些传统的关系型数据库、数据挖掘公司并不是竞争的关系,而是良好的合作关系。
在Cloudera过去六年半的历史上,我们已经做到了在大数据领域最大,也是最好的分发版提供商,这也是我们跟合作伙伴持续创新、共同发展、共同成长的一个结果。
大数据平台作为一个新生的产品或者一个业界的发展动态,毕竟现在还是一个早期的阶段,对Cloudera这样的新兴的创业公司来讲,在这方面肯定有优势,船小好掉头,这也是大家容易理解的。
《21世纪》:美国大数据领域的创业非常活跃,有很多融资、并购的案例。目前中国大数据领域的创业也在增多。你对这样的创业公司有什么建议?
Mike Olson:一是对这些新兴的中国的创业的大数据厂商,要尽量让自己聚焦在创建一个行业的解决方案或者是一些应用,或者是一些上传的工具,这样能够更好地利用Cloudera非常稳定的、成熟的大数据平台,提供整体的解决方案给到客户。
中国有很多非常活跃的初创企业,我们非常希望能够和合作伙伴一起,通过合作伙伴整个生态圈的打造,能够更多更好地服务于最终客户。
隐私问题的技术视角
《21世纪》:你怎么理解大数据隐私的问题,目前全球有哪些比较好的解决方案?
Mike Olson:用户隐私是一个非常重要的话题,不论是对客户,还是对我们这样一个产品提供商。我们在这方面已经做了很多工作。前期我们在数据加密和优化方面,和英特尔一起发布了很多产品。这是一方面。接下来更多的挑战是,如何把现有我们平台已经有的功能应用到客户的应用场景里去解决客户的真实问题。
凌琦:第一,我们都理解信息安全、隐私非常重要。同时跟国家的政策、法规以及文化、心理习惯有关系,所以从一个技术公司的角度来说,我们更多的定位自己是提供能够加强信息安全和隐私管理的技术。但是上面所进行的应用开发更多是跟本地的公司在一起做的,而这些公司对本地习惯的了解,文化法规的了解,使他能够开发这些应用,符合本地用户的需求。
第二,我们也认识到隐私其实是个人的事情,如果说这个数据能够直接点到每一个人,把你所有的东西都通过大数据的技术找出来,(CDA数据分析师培训)这是个很可怕的事情,从技术上不是不可能。但是我们有一些技术可以通过隐藏这个人本身的身份,但是把这些数据剥离出来,能够知道整个趋势是什么样的,但是把人本身的身份隐藏起来。
数据分析咨询请扫描二维码
需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20