Intuit公司负责数据工程的副总裁Bill Loconzolo已两脚踏入了数据湖。而Smarter Remarketer的首席数据科学家Dean Abbott也径直走进了云中。当我们说到大数据和分析的前沿时,它既包括数据湖(以原生格式存储海量数据),当然也包括云计算。尽管这些技术选项距离成熟还很远,但我们肯定不能选择一味的等待和观望。
“现实情况虽然是,各种大数据工具在不断涌现,但Hadoop平台的前途尚未达到让企业能够依赖的程度,”Loconzolo说。然而大数据和分析技术演变得如此之快,企业必须做出抉择,要么涉足其中,要么就得冒落后的风险。“在过去,新兴技术可能需要几年时间才能成熟。而现在,解决方案的迭代和升级只需要几个月,甚至几周时间。”那么,在你的观察名单或者实验室里,最重要的新兴技术和趋势是什么呢?当我们用这样的问题去问很多IT高管、咨询师和行业分析师时,得到了如下的答案。
1、云中的大数据分析
Hadoop框架和一组工具可用于处理非常大的数据集,它最初是为了物理机集群而设计的。但现在情况有了变化。Forrest分析师Brian Hopkins说:“如今已有很多技术可用于处理云中的数据。”实例包括亚马逊Redshift所托管的BI数据仓库、谷歌BigQuery数据分析服务、IBM Bluemix云平台,以及亚马逊Kinesis数据处理服务等。“大数据的未来状态将是企业端和云端的某种混合态。”
从事零售业分析与营销服务的SaaS厂商Smarter Remarketer最近已从其内部的Hadoop和MongoDB数据库基础架构转移到了亚马逊Redshift云数据仓库上。该公司主要收集线上和线下的零售销售数据、消费者统计数据及实时行为数据,然后对其作分析,帮助零售商创建有针对性的消息发送,以便吸引顾客的响应(某些情况下可能是实时的响应)。
Abbortt称,Redshift对于Smarter Remarketer的数据需求来说,更具成本效益,特别是其针对结构化数据的范围广泛的报表功能。作为一种托管服务,Redshift既可扩展,使用起来也相对简单。“它在虚拟机上的扩展成本要比购买由我们自己管理的物理机便宜不少。”
Intuit也开始谨慎地在向云分析转移,因为它需要一个安全、稳定和可审计的环境。这家财务软件公司一方面计划在自己私有的Intuit分析云中保留一切资源,另一方面“又在与亚马逊和Cloudera合作,计划构建一个公私混合的、高度可用而且安全的分析云,”Loconzolo说。对于像Intuit这样销售在云中运行的产品厂商来说,向云的迁移是不可避免的。“一旦在企业端分析数据的成本高到无法承受时,就只能把所有的数据迁到云中去。”
2、Hadoop:新的企业数据操作系统
Hopkins认为,各种分布式分析框架,如MapReduce,正在演变为分布式资源管理器,它们会逐渐地将Hadoop转变为一种通用的数据操作系统。有了Hadoop这样的分布式文件存储系统,“你就能执行很多不同的数据操控和分析任务。”
这种变化对企业来说意义何在呢?和SQL一样,MapReduce、内存计算、流处理、图形分析和其他类型的工作负载都能够以适当的性能在Hadoop上运行,越来越多的企业会把Hadoop当作企业数据集中库来使用。“这样的能力,即针对Hadoop上的数据执行多种不同类型查询和操控的能力,将使其成为一种低成本的通用平台,企业想要分析的任何数据都可以放在其上进行分析。”Hopkins说。
Intuit已经开始在构建自己的Hadoop基础。“我们的战略是利用MapReduce和Hadoop,构造Hadoop分布式文件系统,长期目标是让人和产品之间所有类型的互动得以产生,”Loconzolo说。
3、大数据湖
传统的数据库理论会告诉你,在进入任何数据之前,首先得设计好数据集。而数据湖,也称企业数据湖或企业数据集中库,可能会彻底改变传统模式,普华永道美国咨询业务负责人兼首席技术专家Chris Curran说。“也就是说,我们会将各种数据资源倾倒进一个大的Hadoop仓库中去,而不会事先设计什幺数据模型。”相反地,我们会提供各种工具,再配上对数据湖中现存数据的顶层定义,供人们去分析数据。“这样,人们就可随着对数据湖的逐步深入而构建起自己的数据视图。这正是构建一个大规模数据库的增量化的、有机的模型。”Curran说。不过,这种方法也存在不足,那就是对数据分析人员的技术要求较高。
Loconzolo说,作为Intuit分析云的一个组成部分,Intuit也有一个数据湖,包括用户的点击流数据、企业数据和第三方数据,但重点是围绕数据湖对工具进行所谓的“民主化”,让商业人士都能有效地使用它。Loconzolo说,在Hadoop里构建一个数据湖,他的一个担心是Hadoop平台并未真正实现企业就绪。“我们希望它具备数十年来传统企业数据库所具备的所有功能——监控访问控制、数据加密、保护数据,并可跟踪数据从源到目标的传递路径。”
4、更有预测性的分析
有了大数据,分析师们不仅有了更多的数据可用,而且具备了处理大量多属性记录的能力,Hopkins说。传统的机器学习使用的是对全体数据集某个样本所作的统计分析。“而现在,我们已经可以处理海量的记录,以及对每条记录的海量属性进行处理,”从而提高了预测能力,他说。
大数据与计算能力相互结合,还能让分析师们去研究新的行为数据,例如消费者所访问的网站或位置信息等。Hopkins称之为“稀疏数据”,因为要想找出真正有兴趣的东西,就必须在大量看似无关紧要的数据里去淘金。“针对这种类型的数据,试图采用传统的机器学习算法,这在计算上就是行不通的。现在,我们可以把更便宜的计算能力赋予Hadoop平台。你只需要去解决问题,而完全不必再去考虑速度和内存是否会有问题了。”Abbott说。“如今,遇到问题时,我们可以利用强大的计算资源,找出哪些变量可以进行最佳分析。这确实是一个游戏规则改变者。”
“如何用Hadoop核心来实现实时分析以及预测建模,这才是我们真正感兴趣的所在,”Loconzolo说。但在这方面来说,速度一直是个问题。相较于一些已成熟的技术,采用Hadoop来获得问题答案的时间要长出20倍左右。所以Intuit开始测试大规模数据处理引擎Apache Spark,及其相关的SQL查询工具Spark SQL。“Spark具备快速的交互式查询、图表服务和流处理能力。它一面将数据保留在Hadoop中,又能提供足够的性能来缩小速度上的差距。”Loconzolo说。
假如你擅长编程,而且精通数学,就可以很容易地将数据放入Hadoop,并对其进行分析。这既是美好前景,但也是问题所在,Gartner分析师Mark Beyer说。“我得需要有个人帮我将数据纳入某种格式和我所熟悉的某种语言中,才能进行分析。”这也是SQL on Hadoop能够流行开来的缘故,因为对于早就了解SQL技巧的商业用户来说,使用可支持类SQL查询语言的工具对数据进行操控并不困难。SQL on Hadoop“为Hadoop在企业中的应用打开了大门”,Hopkins说,因为企业无须再花高薪聘请能用Java、JavaScript和Python编写数据脚本的数据科学家和业务分析师了。
这些工具都不是什么新东西。Apache Hive就可为Hadoop提供一种结构化的、类似SQL的查询语言。还有一些商用工具,如来自Cloudera、Pivotal软件、IBM和其他一些厂商的产品,不但可提供更好的性能,而且还能让查询进行的更快速。这些工具让Hadoop能更好地适用于“迭代分析”,也就是在询问了一个问题并得到答案后,可以在此基础上查询新的问题。这样的工作传统上是需要构建数据仓库才能进行的,Hopkins说,SQL on Hadoop无意取代数据仓库,至少短期内不会,“但它可为某些类型的分析提供成本更低廉的软件和分析器具。”
6、更多、更好的NoSQL
可取代传统基于SQL关系数据库的技术叫做NoSQL数据库,它正迅速普及,用于一些特定的分析应用中,而其发展动力也在持续增强。Curran估计,目前市面上已出现了15到20个开源的NoSQL数据库,每个NoSQL数据库都各有特色。例如ArangoDB就是具有图形功能的NoSQL产品,相比于传统的关系数据库,它可提供一种更快速、更直接的方式来分析客户或销售人员的关系网络。
开源的SQL数据库“早就有了,但它们并未流行开来,因为需要专业的分析人员,”Curran说。普华永道的一个客户在商店的货架上放置了很多传感器,用于监控货架上的产品多长时间会被消费者拿到手里,消费者在某个货架前会停留多长时间,等等。“这些传感器会产生大量的呈指数级增加的数据。一个NoSQL键值组合数据库则可专门用于处理这样的情形,而且性能高,还是轻量级的。”
7、深度学习
所谓深度学习是基于神经网络的一组机器学习技术,虽然尚未成熟,但已表现出解决各类商业问题的潜能,Hopkins说。“深度学习……能让电脑在大量非结构化和二进制数据中识别出感兴趣的东西,无须专门的模型或程序指令便可推演出各种逻辑关系来。”
例如,一个深度学习算法可以检查从维基百科上所学来的数据,自己判断出加利福尼亚和德克萨斯是美国的行政州。“而不必对它进行模式化才能了解国家和州的概念,旧的机器学习和新兴的深度学习方法之间存在着巨大的区别,”Hopkins说。
“大数据将采用先进的分析技术如深度学习等,处理大量类型不同的非结构化数据,以便帮助我们开始更好地了解数据的意义,”Hopkins说。深度学习可以识别各种不同的数据类型,例如视频中的各种形状、色彩和物体,就连其中有一只猫都能识别出来,这正是谷歌在2012年开发的神经网络可以做到的事情。“这种认知参与、先进分析的理念将成为未来的一大重要趋势。”
8、内存分析
使用内存数据库来提速分析处理流程,已越来越流行,而且收益很大。Beyer认为,事实上,很多企业已经在采用混合事务/分析处理(HTAP),该技术允许事务和分析处理驻留在同一个内存数据库中。
尽管采用HTAP可加快分析速度,但所有的分析必须驻留在同一个数据库内。Beyer认为,今天大多数的分析研发都是为了解决这个问题,力图将来自很多不同系统的事务分析汇总到一个数据库中。
最好能提前一步
围绕大数据和分析有如此之多的新兴趋势,那么IT组织就需要创造条件,允许分析师和数据科学家去做各种试验。Curran说:“企业需要的则是一种可用于评估、研发原型产品,并最终可将这些技术中的一些技术集成到业务中去的方法。”
“IT管理者和实施者不能以尚未成熟为借口,拒绝进行试验,”Beyer说。刚开始,可以由少数人,主要是有专长的分析师和数据科学家进行试验,然后再由一些高水平的用户和IT部门共同决定何时可以把新的资源交付给组织的其他部门使用。IT部门不必限制分析师们投入全副精力去做试验,相反地,他们应与分析师们合作,“只需给这些新的高性能工具安装一个可变速的阀门就行了。”
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 7 Pandas分组聚合 分组聚合(group by)顾名思义就是分2步: 先分组:根据某列数据的值进行 ...
2024-11-25数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21