大数据项目部署的五大愿景
如果你正在尝试构建大数据应用或分析系统,你可能会清楚的意识到该领域缺少哪些功能。笔者将人们对大数据的愿景归纳为五大需求,分别是SQL(或SQL-like)分析、快速部署、高级分析、实时分析和网络分析选件。
好消息是人们正在努力应对这些问题,SQL分析选件就是其中之一。大批数据管理和数据分析专家们对SQL非常熟悉,自然想要利用SQL知识搞清楚Hadoop集群和NoSQL数据库中的数据。Apache Hadoop软件的发行商都在规划、测试,甚至已经发布了SQL(或SQL-like)分析选件,用于分析存在于Hadoop集群里的数据。这些发行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL阵营中,10gen公司已经对MongoDB的分析能力进行了改进,大数据厂商Acunu对Cassandra也做了同样的改进。
部署和管理Hadoop集群和NoSQL数据库对于大多数IT组织而言是一种全新的体验,但似乎每个软件更新带来的部署和管理新特性都能够让生活变得更轻松。与此同时,EMC、HP、IBM、Oracle和Teradata等厂商计划或已经提供了一些工具,旨在帮助企业进行Hadoop快速部署。其他厂商将重点放在Hadoop框架组件的使用,如WibiData,提供简化HBase的开源库、模型和工具。
收集和利用大数据的重点是进行预测分析和其他高级分析,进而得到更明智的商业决策。但是在数据人才短缺的今天,企业正在寻求一种更简便的方式支持复杂的分析过程。很多厂商和企业都在研究机器学习,这是因为它不依赖于专家,而是依赖数据和计算能力收集客户行为数据,并挖掘数据背后的商业模式。
大数据的3V原理的其中一个V是velocity(速度),但是很难用“实时”一词来形容Hadoop,其弊端在于MapReduce的分析方法。MapR和HStreaming等厂商开始为Hadoop增加实时分析功能,其他厂商可能会效仿,尤其是那些事件流处理厂商。
排在第五位的大数据愿景是更简便的网络分析。目前,企业友好型图形分析数据库和工具不断涌现,它们采用了很多与Facebook相同的真正大规模的技术。这里提到的工具和技术很少有30年以上的历史,不会像关系型数据库和SQL查询工具那样成熟。但是有明确的迹象表明,大数据管理和分析的痛点正在迅速缓解。
通过很多关于大数据人才短缺的故事和报告,就可以得到这样一个结论:大数据领域最迫切的需求是了解数据类型的数据科学家,他们也知道如何通过编写自定义代码、MapReduce作业和算法在大数据中获取洞察力。但是,为何不让擅长关系型数据库、商业智能(BI)和分析工具的SQL专家处理更多繁重的工作呢?SQL专家的数量远远大于数据科学家,并且大多数SQL专家更急于扩大自己的职业潜力。
推动在Hadoop之上提供SQL分析能力,大数据的人才短缺只是其中一个原因。另一个原因是Apache Hive——Hadoop中的数据仓库,它提供SQL-like查询功能的有限子集,但是Hive是将SQL查询转化成MapReduce任务,这导致Hive的性能缓慢。
为了应对Hadoop之上SQL查询范围更广、速度更快的需求,很多相关项目和方案陆续发布,如Cloudera Impala、EMC Pivotal HD中的HAWQ查询特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。
即使是NoSQL阵营也在为更好的SQL-like查询功能而努力。去年10gen公司为其MongoDB NoSQL数据库新增了一个实时数据统计框架,该框架让用户直接在MongoDB中查询数据,而不需要编写或者运行编译的、面向批处理的MapReduce作业。Acunu公司也在做类似的工作,它已开发出一种SQL-like的AQL(Annotator Query Language)语言支持Cassandra查询。
SQL查询功能的发展仅仅是个开端。BI、分析工具和大数据平台自身分析系统的脱颖而出,如Datameer、Hadapt、Karmasphere和Platfora等,它们提供了Hadoop之上的分区查询、分析、数据可视化和监控能力。
包含Hadoop和NoSQL数据库在内的大数据平台一直在努力简化其部署和管理功能,每次软件升级都会带来新的管理特性和新的内置功能,例如10gen公司在最新发布的MongoDB中新增了内置文本搜索功能和预置监控功能。Hortonwork Hadoop发行版针对微软Windows的版本嵌入Active Directory(活动目录)、System Center和虚拟化技术,用以简化大数据的部署和管理。
在构建Hadoop集群的过程中,虽然没有太多硬件方面的抱怨,但是EMC、IBM、Oracle和Teradata等硬件厂商推出Hadoop一体机,使Hadoop的部署更快速、更便捷。商用硬件的成本很高,但是Oracle称如果算上每个组件的价格、配置和调整的时间、维护和升级工作、可以直接运行的Cloudera软件,以及Oracle NoSQL数据库,一体机的成本比自己部署价格更低。
真正复杂的Hadoop管理常常出现在软件层面,而非硬件配置。例如HBase——Hadoop架构中日益重要的NoSQL数据库,很多开发者认为很难在HBase中建模和分析数据。WibiData公司提供开源库、模型和工具,使HBase中的数据更容易存储、提取和分析。该理念是将HBase运行中的技术难点可重复化,因此在解决商业问题时节省大量工程师和数据科学家等人力资源,这一准则也可以应用于其他大数据平台。
开发算法和预测模型是专业数据科学家的工作,但是他们既数量稀少,又需要支付高额报酬。因此,人才短缺是大数据、分析和商业智能厂商开发机器学习方法的原因之一。在光学字符识别、垃圾邮件过滤和计算机安全威胁检测等应用程序中证实,机器学习使用的学习算法是数据本身训练而来的。如果展示该算法扫描成千上万个文本字符、未经请求的电子邮件消息、病毒程序和恶意软件等,的确能够找到更多实例。
随着机器学习的发展,训练模型还能继续在新的数据中学习。例如Amazon.com和Netflix公司利用算法发现顾客交易规律,并向他们推荐感兴趣的书或电影。每当新书或者电影发行时,这些公司可以利用算法洞察数据中的偏好模式,推荐给相关顾客。
Apache Mahout是全球领先的部署机器学习基础集群、分类、Hadoop协同过滤算法的项目,该技术同样是由R统计编程语言支持的。支持或嵌入机器学习技术的厂商还包括Alpine数据实验室、Birst、Causata、Lionsolver、Revolution Analytics等。
大数据分析上的另一个需求是实时性能。两家初创厂商正试图抓住这一机遇,分别是市场分析厂商Causata和实时Hadoop分析厂商HStreaming。
对于Causata而言,“实时”意味着在50毫秒以内作出决策。当你的顾客仍然在访问网站和手机客户端时,需要以这种速度更改内容、横幅广告和市场报价。Causata利用Hadoop的HBase NoSQL数据库进行存储,包括点击流、活动响应数据和CRM记录等与市场相关的数据。HBase并不擅长实时查询,因此Causata在专有查询引擎上运行基于Java的算法用以提升性能。
HStreaming所用的流处理技术类似于金融交易系统中的事件处理引擎,以及IBM(InfoSphere Streams)、Progress Software (Apama)、SAP (Sybase Aleri)、Tibco (Complex Event Processing)等技术。HStreaming能够直接从不间断数据源中提取数据,如视频监控摄像头、发射塔、传感器等。该技术还提供了一种提取、转换、加载(ETL)的形式,将数据存储在Hadoop中,用于随后的分析。HStreaming在视频监控、网络优化和移动广告领域拥有最多应用,在这三种场景下,实时洞察力和行动力是必须的。
与HStreaming采取不同的策略,Hadoop软件和服务提供商MapR宣布与Informatica成为合作伙伴,并将成为第一个也是唯一一个拥有实时能力的Hadoop软件发行商,能够在大数据平台中以接近实时的速度传送数据。MapR的Hadoop发行版的特色是无锁存储服务层,能够与Informatica消息传递软件共同运行,不断将大规模数据传送至Hadoop。结合即将推出的SQL-on-Hadoop选件,如MapR-favored Drill,大数据又将增加一个快速分析的选择。
社交网络为大数据贡献了规模性和多样性的数据,社交网络本身使用图形数据库和分析工具,通过研究“节点(nodes)”发现用户关系网。这些节点代表人、公司、地点等,而边缘(edges)代表各个节点中复杂的关系。
美国世纪投资公司利用图形分析预测公司基金投资的业绩,该公司使用的开源R统计编程语言和iGraph包由Revolution Analytics(分析力革命公司)提供软件和支持,由此创建的图形分析应用能够跟踪制造商和供应商之间的资金流。
如同苹果公司与其芯片和屏幕的供应商或者汽车制造商与其零部件供应商之间的关系。美国世纪投资公司结合这些采购关系的公共和私有数据,运用图形分析获得对供应商更清晰的认识,这些预测比基于公共财政报告数据的预测更准确。
其他支持图形分析的开源技术还有Neo4j,这是Neo Technologies公司开发和支持的一款图形数据库。Neo4j适用于IT和电信网络场景应对安全接入挑战、在主数据管理应用中观察数据之间关系的变化,以及在推荐引擎应用中根据好友的行为和关系计算客户的需求。除此之外,开源图形分析项目还包括Google Pregel和Apache Giraph,人们对图形分析的兴趣与日俱增。
数据分析咨询请扫描二维码
CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13在现代银行业中,数字化用户行为分析已成为优化产品和服务、提升客户体验和提高业务效率的重要工具。通过全面的数据采集、深入的 ...
2024-11-13在这个数据飞速增长的时代,企业若想在竞争中占据优势,必须充分利用数据分析优化其营销策略。数据不仅有助于理解市场趋势,还可 ...
2024-11-13数据分析行业的就业趋势显示出多个积极的发展方向。随着大数据和人工智能技术的不断进步,数据分析在各行各业中的应用变得越来越 ...
2024-11-13市场数据分析是一门涉及多种技能和工具的学科,对企业在竞争激烈的市场中保持竞争力至关重要。通过数据分析,企业不仅可以了解当 ...
2024-11-13数据分析与数据挖掘是数据科学领域中两个关键的组成部分,它们各有独特的目标、方法和应用场景。尽管它们经常在实际应用中结合使 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13作为一名业务分析师,你肩负着将业务需求转化为技术解决方案的重任。面试这一角色时,涉及的问题多种多样,涵盖技术技能、分析能 ...
2024-11-13自学数据分析可能看似一项艰巨的任务,尤其在开始时。但是,通过一些策略和方法,你可以系统地学习和掌握数据分析的相关知识和技 ...
2024-11-10Excel是数据分析领域中的一款强大工具,它凭借其灵活的功能和易用的界面,成为了许多数据分析师和从业者的首选。无论是简单的数 ...
2024-11-10在快速发展的商业环境中,数据分析能力已经成为许多行业的核心竞争力。无论是初学者还是经验丰富的专家,搭建一个有效的数据分析 ...
2024-11-10