大数据时代:盘点各大厂商大数据布局
新兴的大数据企业如雨后春笋般涌现。各大厂商迅速崛起,以"大数据即服务"方案力争在未来庞大的市场需求依靠自身的创新为客户创造出独特的价值。
IBM提供BigInsights、BigSheets和BigCloud
仅仅几年前,IBM开始在其实验室尝试使用Hadoop,但是它在去年将相关产品和 服务纳入到商业版,甲骨文和微软在其之后才宣布各自也将积极接受该平台。IBM在去年5月推出了InfoSphere BigInsights软件。该软件包包括Apache Hadoop发行版、面向MapReduce编程的Pig编程语言、针对IBM的DB2数据库的连接件以及IBM BigSheets,后者是一种基于浏览器的、使用电子表格隐喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的数据。
IBM随后又在10月通过其智慧云企业(SmartCloud Enterprise)基础架构,将BigInsights和BigSheets作为一项服务来提供。这项服务分基础版和企业版;卖点就是客户不必购买支持性硬件,也不需要IT专门知识就可以学习和试用大数据处理和分析功能。据IBM声称,客户用不了30分钟就能搭建起Hadoop集群,并将数据转移到集群里面,数据处理费用是每个集群每小时60美分起。
Oracle:数据库+大数据机
Oracle的大数据策清晰而直接。NoSQL数据库和Big Data Appliance组合为客户直接拥有处理非结构化海量数据的能力。甲骨文大数据机(Oracle Big Data Appliance)将甲骨文-Sun分布式计算平台与Cloudera的Apache Hadoop发行版、Cloudera管理器管理控制台、R分析软件的开源发行版以及甲骨文NoSQL数据库结合起来。甲骨文还包括连接件,因而让数据能 够在大数据机与甲骨文Exadata或传统的甲骨文数据库部署环境之间来回传送。甲骨文为这套综合的软硬件"工程一体化系统"提供了一线支持;但是即使出 现棘手的Hadoop难题,甲骨文也可以利用Cloudera的专长,它还可以介绍客户使用Cloudera的Hadoop培训和咨询服务。
大数据机通过全机架(full-rack)配置,每个机架配备864GB主内存、216个处理器核心、648TB原始磁盘存储容量,以及节点之间每秒40千兆的InifiniBand内部连接。软硬件总计售价将达到45万美元,每年收取12%的软硬件支持费。这个价格颇具竞争力,相当于每TB不到700美元。
微软:面对开放的悬疑
微软在去年推出了基于Azure云平台的测试版Hadoop服务,今年它承诺会推出与Windows兼容的基于Hadoop的大数据解决方案(Big Data Solution),这是微软SQL Server 2012版本的一部分。微软宣布推出了两个基于Hadoop的大数据处理的社区技术预览版连接器组件,一个用于SQL Server,另一个用于SQL Server并行数据仓库(PDW)。该连接器是一个部署在Linux环境中的命令行工具。
SQL Server Hadoop连接器在微软大数据之路上最重要的一步。但由于Hadoop、Linux和Sqoop都是开源技术,这意味着微软要对开源世界大规模地敞开胸怀,这一点值得用户关注。另外,微软还宣布将推出LINQ Pack、LINQ to HPC、Project"Daytona"以及Excel DataScope,这些产品都将专为研究人员和业务分析师打造,用以在Windows Azure上做大数据分析。
EMC:单一的数据分析平台
Greenplum在大数据方面有43000万美元营收,目前由EMC公司所有。EMC Greenplum统一分析平台(UAP)是一款单一软件平台,数据团队和分析团队可以在该平台上无缝地共享信息、协作分析,没必要在不同的孤岛上工作, 或者在不同的孤岛之间转移数据。正因为如此,UAP包括ECM Greenplum关系数据库、EMC Greenplum HD Hadoop发行版和EMC Greenplum Chorus,而后者是一种协作式、类似社交网络的界面,可供数据分析团队处理,无论团队成员是有博士头衔的数据科学家、数据集成专家和商业智能分析员, 还是数据库管理员和业务部门的用户及管理人员。
EMC为大数据开发的硬件是模块化的EMC数据计算设备(DCA),它能够在一个设备里面运行并扩展Greenplum关系数据库和 Greenplum HD节点。DCA提供了一个共享的指挥中心(Command Center)界面,让管理员可以监控、管理和配置Greenplum数据库和Hadoop系统性能及容量。UAP软件将数据访问、管理和工作流统一起 来,并与其他数据源和数据处理方法联系起来;随着Hadoop平台日趋成熟,预计分析功能会急剧增加。
亚马逊:深入了解用户需求
早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),对Hadoop的需求和应用可谓了若指掌,这包括了运行试点项目的新手,内部部署的预置型系统遇到需求过载的难题,或是利用弹性MapReduce来获取额外容量的专业人士。
弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。除数据处理外,用户还可以使用Karmasphere Analyst的基于服务的版本,Karmasphere Analyst是一种可视化工作区,用于在亚马逊弹性MapReduce上分析数据。Karmasphere提供了可视化工具,以便使用SQL及其他语言,针对在亚马逊S3、亚马逊弹性MapReduce作业流或本地文件系统上的结构化数据和非结构化数据,执行即席查询和分析。用户还可以提取结果文件, 以便在数据库或者微软Excel或Tableau等工具中使用。
SAP: HAHA内存计算技术加速计算
SAP基于内存计算的高性能分析应用软件(SAP HANA)将构建一个公开的平台,开放给不同领域、不同行业的合作伙伴,联手合作伙伴共同运作,让更多用户通过HANA得到真正的收益。国内一家快消品企业完成9500万条信息的数据分析在采用新的SAP内存计算分析技术后,响应时间仅需四秒钟。目前,SAP已与包括英特尔、IBM、惠普、戴尔、富士通、思科等在内的多家伙伴达成合作共识。
Sybase:用SQL数据库应对大数据
Sybase并没有推出类似Oracle的NoSQL数据库功能,但是据了解,他们在最新版本的数据库中,已经将大数据提到了一个非常重要的位置。在Sybase ASE 15.7当中,新增的一个重要特性就是对大对象(LOB)的管理增强,包括LOB压缩、行内LOB、复制机制以及LOB的读取与运算方面都进行了特别的改进。LOB中包含了非结构化数据,因此Sybase ASE 15.7新增的这些功能都使得DBA在应对大数据时更加轻松。
另外在他们的分析数据库Sybase IQ 15.4中,还添加了如MapReduce API、对预测模型语言的支持、集成的Hadoop以及扩展数据挖掘算法函数库等功能。很明显,这一系列新特性与大数据的关系密切,是新版本中最大的亮点。
Informatica:不拒绝任何格式
Informatica推出的HParser是一种针对Hadoop而优化的数据转换环境。软件支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而 多样的数据源,包括日志、文档、二进制数据或层次式数据,以及众多行业标准格式(如银行业的NACHA、支付业的SWIFT、金融数据业的FIX和保险业 的ACORD)。正如数据库内处理技术加快了各种分析方法,Informatica同样将解析代码添加到Hadoop里面,以便充分利用所有这些处理功 能,不久会添加其他的数据处理代码。
Informatica希望能够借助统一的环境和方法,全面满足数据管理和数据集成方面的要求。这家公司的企业客户超过 4300个,它估计10%以上的客户正进入到大数据领域(大数据的容量超过100TB)。市场地位和技术创新使得Informatica成为值得关注的一家Hadoop专业厂商。
Cloudera:提供Hadoop的企业安全
Cloudera公司自2008年以来就一直致力于将开源Apache Hadoop打造成一款供企业使用的可靠平台。这家公司有100多个客户,不过鉴于Cloudera最近与IT业界老大的数据库供应商甲骨文结为合作伙伴,今年其客户数量有望大幅增加。
Cloudera为其Apache Hadoop软件发行版增添了两个重要部分:一个是用于控制和管理Hadoop部署环境的Cloudera管理器控制台,另一个是企业级支持。 Cloudera管理器提供了基于向导的安装和配置菜单,以便部署Hadoop.另外,它还提供了一些工具,帮助系统管理人员监控平台的运行状况、诊断问题、优化性能,以及在配置和安全方面作出所需的变更。
Cloudera支持服务分每天8小时每周五天或每天24小时每周七天这两种,服务包括配置检查、问题逐级上报和解决、与第三方系统集成以及知识库、文章及其他技术资源。除了现有的这些服务外,还有培训和咨询服务。Cloudera 企业解决方案包括Hadoop软件发行版、Cloudera管理器及支持,标价为每年每个节点4000美元(不包括硬件)。
Datameer将商业智能运用到大数据上
Datameer公司宣称其Datameer分析解决方案(DAS)是一款面向Hadoop、针对企业用户的商业智能(BI)平台。但是DAS并不将Hadoop当作信息孤岛:它可以通过JDBC、Hive、HTTP或其他标准,连接到任何数据源。它包含了一个由向导驱动的集成平台,让用户可以安排调度负载,并且转换来自任何这些数据源的庞大的结构化、半结构化或非结构化数据集。用户可以通过类似电子表格的DAS界面,运用180多项分析功能中的任何一项功能。企业用户可以获得拖放式报告和仪表板功能。DAS可以在私有云或公共云上运行,而且有一套代表性状态传输(REST)应用编程接口(API),用于数据导入和导出。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06