大数据与传统数据库是互补关系_数据分析师培训
在全球大数据生态圈中,Hadoop堪称其中最为核心的技术。
由非营利组织管理的Hadoop平台,尽管推行开源模式,但企业并不是拿来就可以用,它需要经过进一步的加工和修缮,由此孕育了多家大数据商业开发公司,如Cloudera、MapR、Hortonworks等。这些公司的商业模式就是开发商业化的Hadoop分发版,并对外销售。
在这些Hadoop分发版开发公司中,Hortonworks刚刚完成IPO,算是最早的一家,目前市值约10亿美元。而要论规模和影响力,则莫过于Cloudera。
Cloudera由分别来自Facebook、谷歌、雅虎和甲骨文的四位创始人于2008年成立。一项数据显示,75%的Hadoop新用户使用的都是Cloudera的分发版。
12月10日,Cloudera正式宣布在中国开始运营,标志着这家已在全球发展了1300多家客户的大数据公司,将业务触角伸向这一潜力市场。Cloudera公司创始人、董事长兼首席战略官Mike Olson亦专程来到中国为新公司站台。
“随着中国交通、电信、金融、医疗等行业领域的飞速发展,越来越多的企业需要快速,甚至是实时的大数据分析。”Mike Olson在接受21世纪经济报道记者专访时表示,大数据在中国企业转型与变革中发挥的作用将愈发显著,而Hadoop作为大数据应用中的主流技术,也将逐渐成为企业应用的核心。
英特尔软件与服务事业部中国区总经理、英特尔亚太研发有限公司总经理何京翔,以及Cloudera公司副总裁、肯睿(上海)软件有限公司总经理凌琦也同时接受了21世纪经济报道记者专访。
50亿美元估值
《21世纪》:Cloudera的四个创始人当中,各自怎么分工,你负责哪些部分?
Mike Olson:我们四位联合创始人分别来自于雅虎、谷歌、Facebook和甲骨文。我是来自于甲骨文,在此之前创建了Berkeley DB,后来被甲骨文收购了。2008年与另外三位同事一起创建了Cloudera,到现在已经六年半了。现在我的角色是董事长和首席战略官。
另外的三位同事,Jeff Hammerbacher来自Facebook,他现在是我们的首席科学家,他在做很多对人类非常重要的一些事情,比如说基因图谱,利用大数据这样一个工具进行一些重大疾病的研究。Amr Awadallah是我们的CTO,他来自于当年的雅虎,他是最早在雅虎内部使用Hadoop的人之一。Christophe Bisciglia来自于谷歌,尽管他现在已经离开了Cloudera,但是还是在这个生态圈里面,他在Cloudera基础上创建了一些工具和应用,利用大数据这个平台服务客户。
另外还有一个需要提及的人是Doug Cutting。大家都知道Doug Cutting是Hadoop之父,他在2004年写了Hadoop,到2009年加入Cloudera,现在任职我们的首席架构师。
《21世纪》:能否介绍下Cloudera的最新发展情况?
Mike Olson:目前我们全球拥有800名员工,已经有超过50亿美金的市值,有超过1300家的合作伙伴,他们分布在电信、运营商和金融、制造业等各行各业。
Cloudera的商业模式以软件销售为主,同时会提供专业化的服务和认证培训。这类似于Red Hat。诚然,Hadoop是开源的开放式标准,这避免了客户被某一家厂商锁定的风险,但仅仅开源并不够,开源版本更多的是靠一个社区去推动,而企业级客户需要更稳定、更安全、便于管理的企业级平台。这是企业级用户大多会选择Hadoop商业分发版的原因。
从技术角度来讲,Cloudera 的800名员工有一半以上是开发人员,这也就意味着我们对Hadoop社区和整个技术演进的发展方向有非常大的贡献和影响。
联手英特尔
《21世纪》:Cloudera成立六年半后来到中国,准备怎么开展业务?
Mike Olson:我们的中国公司——肯睿(上海)软件有限公司——已经在9月份注册完成,现在正式对外宣布开始运营。目前的团队主要在上海、北京、广州三个地方。业务模式与在美国的业务一脉相承,主要包括四部分:软件开发、营销;合作伙伴支持;解决方案咨询服务;认证培训。
团队方面,我们一方面是本地化,凌琦是Cloudera公司副总裁和肯睿(上海)软件有限公司总经理,他在英特尔工作了20年。另一方面是与英特尔的合作。英特尔向Cloudera投资了7.4亿美金,持有18%的股份,我们在产品和技术和团队上有广泛的合作。
凌琦:我来谈谈中国这边的情况,第一个方面的工作是把以前英特尔的Hadoop分发版的中国客户,转换到Cloudera平台上来。这些客户主要是在金融领域,包括银行、证券、保险等。在此基础上,我们也发现中国市场对大数据的需求在快速增长,比如说电信业,它积累了大量的数据和客户行为数据,这些信息会有很大价值可以挖掘。
我们还看到智慧城市。中国的智慧城市建设非常热,这里面也是靠数据来支持,比如说交通管理,比如说在商业分布,甚至说对于城市安全的管理都有非常好的应用。
另外,大数据在生命科学方面、医药研究方面以及流行病趋势方面,也会有很多应用。
《21世纪》:Cloudera在中国与英特尔将在哪些方面共享资源?
Mike Olson:我们跟英特尔的沟通当中会发现很多大数据潜在的问题,我们可以通过和英特尔或者与英特尔共享的合作伙伴渠道一起提供一个大数据整体解决方案。我们说到的智慧城市、平安城市都是非常典型的大数据应用场景案例。
何京翔:英特尔在上海的大数据开发团队,与Cloudera在开源上有很多的合作;另一方面,我们在共有客户和新客户方面也会合作,来更好满足客户需求。
我本身在英特尔软件及服务事业部工作,这个部门一个主要的任务是使得软件能够在英特尔平台上跑得最好,所以具体落实到大数据这块,就是怎么样让Hadoop、Spark这些新的软件平台在英特尔平台上得到最好的优化,把我们软硬结合做到最好。
与传统数据挖掘是互补关系
《21世纪》:有很多力量在推动大数据发展,其中比较典型的包括传统IT公司面对大数据的转型,以及新兴的创业公司。你怎么看这两类公司的优劣势?
Mike Olson:像Oracle、IBM、Teradata这些传统的数据库或者数据挖掘厂商,其实他们在自己擅长的部分已经做得非常好、非常成功,有非常成熟的解决方案。随着时间的发展,我们现在已经看到越来越多的应用场景和新技术加入到Hadoop平台。正如多年以前谷歌发表了三篇论文,MapReduce、Bigtable、GFS,三篇论文就是Hadoop的原形。Hadoop也是受到这三篇论文的启发。
我认为这两种模式更多的是优势互补。我们现在看到Cloudera做的大数据平台和传统数据仓库EDW数据平台并不是竞争的关系,因为我们可以给他们提供更多的数据,更多种类的数据,不论是从量、种类还是数据类型都会远远超过过去EDW数据能够处理的范围。有了这些数据,用户还是可以用他们熟悉的数据分析和建模以及数据挖掘的工具,比如说Teradata,比如说MicroStrategy这样的东西去发掘数据的价值。
也就是说,我们这两个方案完全是互补的关系,我们可以给他提供更多种类的数据,让他们从中挖掘更多的价值给到用户。
这里想强调一下我们跟合作伙伴良好的关系,举几个例子,今年10月份,我们宣布了很多合作,比如说跟Teradata、微软、EMC,以及我们跟Oracle做了一体机,这些都是非常好的样板,会告诉大家我们跟这些传统的关系型数据库、数据挖掘公司并不是竞争的关系,而是良好的合作关系。
在Cloudera过去六年半的历史上,我们已经做到了在大数据领域最大,也是最好的分发版提供商,这也是我们跟合作伙伴持续创新、共同发展、共同成长的一个结果。
大数据平台作为一个新生的产品或者一个业界的发展动态,毕竟现在还是一个早期的阶段,对Cloudera这样的新兴的创业公司来讲,在这方面肯定有优势,船小好掉头,这也是大家容易理解的。
《21世纪》:美国大数据领域的创业非常活跃,有很多融资、并购的案例。目前中国大数据领域的创业也在增多。你对这样的创业公司有什么建议?
Mike Olson:一是对这些新兴的中国的创业的大数据厂商,要尽量让自己聚焦在创建一个行业的解决方案或者是一些应用,或者是一些上传的工具,这样能够更好地利用Cloudera非常稳定的、成熟的大数据平台,提供整体的解决方案给到客户。
中国有很多非常活跃的初创企业,我们非常希望能够和合作伙伴一起,通过合作伙伴整个生态圈的打造,能够更多更好地服务于最终客户。
隐私问题的技术视角
《21世纪》:你怎么理解大数据隐私的问题,目前全球有哪些比较好的解决方案?
Mike Olson:用户隐私是一个非常重要的话题,不论是对客户,还是对我们这样一个产品提供商。我们在这方面已经做了很多工作。前期我们在数据加密和优化方面,和英特尔一起发布了很多产品。这是一方面。接下来更多的挑战是,如何把现有我们平台已经有的功能应用到客户的应用场景里去解决客户的真实问题。
凌琦:第一,我们都理解信息安全、隐私非常重要。同时跟国家的政策、法规以及文化、心理习惯有关系,所以从一个技术公司的角度来说,我们更多的定位自己是提供能够加强信息安全和隐私管理的技术。但是上面所进行的应用开发更多是跟本地的公司在一起做的,而这些公司对本地习惯的了解,文化法规的了解,使他能够开发这些应用,符合本地用户的需求。
第二,我们也认识到隐私其实是个人的事情,如果说这个数据能够直接点到每一个人,把你所有的东西都通过大数据的技术找出来,(CDA数据分析师培训)这是个很可怕的事情,从技术上不是不可能。但是我们有一些技术可以通过隐藏这个人本身的身份,但是把这些数据剥离出来,能够知道整个趋势是什么样的,但是把人本身的身份隐藏起来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11