大数据时代:盘点各大厂商大数据布局
新兴的大数据企业如雨后春笋般涌现。各大厂商迅速崛起,以"大数据即服务"方案力争在未来庞大的市场需求依靠自身的创新为客户创造出独特的价值。
IBM提供BigInsights、BigSheets和BigCloud
仅仅几年前,IBM开始在其实验室尝试使用Hadoop,但是它在去年将相关产品和 服务纳入到商业版,甲骨文和微软在其之后才宣布各自也将积极接受该平台。IBM在去年5月推出了InfoSphere BigInsights软件。该软件包包括Apache Hadoop发行版、面向MapReduce编程的Pig编程语言、针对IBM的DB2数据库的连接件以及IBM BigSheets,后者是一种基于浏览器的、使用电子表格隐喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的数据。
IBM随后又在10月通过其智慧云企业(SmartCloud Enterprise)基础架构,将BigInsights和BigSheets作为一项服务来提供。这项服务分基础版和企业版;卖点就是客户不必购买支持性硬件,也不需要IT专门知识就可以学习和试用大数据处理和分析功能。据IBM声称,客户用不了30分钟就能搭建起Hadoop集群,并将数据转移到集群里面,数据处理费用是每个集群每小时60美分起。
Oracle:数据库+大数据机
Oracle的大数据策清晰而直接。NoSQL数据库和Big Data Appliance组合为客户直接拥有处理非结构化海量数据的能力。甲骨文大数据机(Oracle Big Data Appliance)将甲骨文-Sun分布式计算平台与Cloudera的Apache Hadoop发行版、Cloudera管理器管理控制台、R分析软件的开源发行版以及甲骨文NoSQL数据库结合起来。甲骨文还包括连接件,因而让数据能 够在大数据机与甲骨文Exadata或传统的甲骨文数据库部署环境之间来回传送。甲骨文为这套综合的软硬件"工程一体化系统"提供了一线支持;但是即使出 现棘手的Hadoop难题,甲骨文也可以利用Cloudera的专长,它还可以介绍客户使用Cloudera的Hadoop培训和咨询服务。
大数据机通过全机架(full-rack)配置,每个机架配备864GB主内存、216个处理器核心、648TB原始磁盘存储容量,以及节点之间每秒40千兆的InifiniBand内部连接。软硬件总计售价将达到45万美元,每年收取12%的软硬件支持费。这个价格颇具竞争力,相当于每TB不到700美元。
微软:面对开放的悬疑
微软在去年推出了基于Azure云平台的测试版Hadoop服务,今年它承诺会推出与Windows兼容的基于Hadoop的大数据解决方案(Big Data Solution),这是微软SQL Server 2012版本的一部分。微软宣布推出了两个基于Hadoop的大数据处理的社区技术预览版连接器组件,一个用于SQL Server,另一个用于SQL Server并行数据仓库(PDW)。该连接器是一个部署在Linux环境中的命令行工具。
SQL Server Hadoop连接器在微软大数据之路上最重要的一步。但由于Hadoop、Linux和Sqoop都是开源技术,这意味着微软要对开源世界大规模地敞开胸怀,这一点值得用户关注。另外,微软还宣布将推出LINQ Pack、LINQ to HPC、Project"Daytona"以及Excel DataScope,这些产品都将专为研究人员和业务分析师打造,用以在Windows Azure上做大数据分析。
EMC:单一的数据分析平台
Greenplum在大数据方面有43000万美元营收,目前由EMC公司所有。EMC Greenplum统一分析平台(UAP)是一款单一软件平台,数据团队和分析团队可以在该平台上无缝地共享信息、协作分析,没必要在不同的孤岛上工作, 或者在不同的孤岛之间转移数据。正因为如此,UAP包括ECM Greenplum关系数据库、EMC Greenplum HD Hadoop发行版和EMC Greenplum Chorus,而后者是一种协作式、类似社交网络的界面,可供数据分析团队处理,无论团队成员是有博士头衔的数据科学家、数据集成专家和商业智能分析员, 还是数据库管理员和业务部门的用户及管理人员。
EMC为大数据开发的硬件是模块化的EMC数据计算设备(DCA),它能够在一个设备里面运行并扩展Greenplum关系数据库和 Greenplum HD节点。DCA提供了一个共享的指挥中心(Command Center)界面,让管理员可以监控、管理和配置Greenplum数据库和Hadoop系统性能及容量。UAP软件将数据访问、管理和工作流统一起 来,并与其他数据源和数据处理方法联系起来;随着Hadoop平台日趋成熟,预计分析功能会急剧增加。
亚马逊:深入了解用户需求
早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),对Hadoop的需求和应用可谓了若指掌,这包括了运行试点项目的新手,内部部署的预置型系统遇到需求过载的难题,或是利用弹性MapReduce来获取额外容量的专业人士。
弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。除数据处理外,用户还可以使用Karmasphere Analyst的基于服务的版本,Karmasphere Analyst是一种可视化工作区,用于在亚马逊弹性MapReduce上分析数据。Karmasphere提供了可视化工具,以便使用SQL及其他语言,针对在亚马逊S3、亚马逊弹性MapReduce作业流或本地文件系统上的结构化数据和非结构化数据,执行即席查询和分析。用户还可以提取结果文件, 以便在数据库或者微软Excel或Tableau等工具中使用。
SAP: HAHA内存计算技术加速计算
SAP基于内存计算的高性能分析应用软件(SAP HANA)将构建一个公开的平台,开放给不同领域、不同行业的合作伙伴,联手合作伙伴共同运作,让更多用户通过HANA得到真正的收益。国内一家快消品企业完成9500万条信息的数据分析在采用新的SAP内存计算分析技术后,响应时间仅需四秒钟。目前,SAP已与包括英特尔、IBM、惠普、戴尔、富士通、思科等在内的多家伙伴达成合作共识。
Sybase:用SQL数据库应对大数据
Sybase并没有推出类似Oracle的NoSQL数据库功能,但是据了解,他们在最新版本的数据库中,已经将大数据提到了一个非常重要的位置。在Sybase ASE 15.7当中,新增的一个重要特性就是对大对象(LOB)的管理增强,包括LOB压缩、行内LOB、复制机制以及LOB的读取与运算方面都进行了特别的改进。LOB中包含了非结构化数据,因此Sybase ASE 15.7新增的这些功能都使得DBA在应对大数据时更加轻松。
另外在他们的分析数据库Sybase IQ 15.4中,还添加了如MapReduce API、对预测模型语言的支持、集成的Hadoop以及扩展数据挖掘算法函数库等功能。很明显,这一系列新特性与大数据的关系密切,是新版本中最大的亮点。
Informatica:不拒绝任何格式
Informatica推出的HParser是一种针对Hadoop而优化的数据转换环境。软件支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而 多样的数据源,包括日志、文档、二进制数据或层次式数据,以及众多行业标准格式(如银行业的NACHA、支付业的SWIFT、金融数据业的FIX和保险业 的ACORD)。正如数据库内处理技术加快了各种分析方法,Informatica同样将解析代码添加到Hadoop里面,以便充分利用所有这些处理功 能,不久会添加其他的数据处理代码。
Informatica希望能够借助统一的环境和方法,全面满足数据管理和数据集成方面的要求。这家公司的企业客户超过 4300个,它估计10%以上的客户正进入到大数据领域(大数据的容量超过100TB)。市场地位和技术创新使得Informatica成为值得关注的一家Hadoop专业厂商。
Cloudera:提供Hadoop的企业安全
Cloudera公司自2008年以来就一直致力于将开源Apache Hadoop打造成一款供企业使用的可靠平台。这家公司有100多个客户,不过鉴于Cloudera最近与IT业界老大的数据库供应商甲骨文结为合作伙伴,今年其客户数量有望大幅增加。
Cloudera为其Apache Hadoop软件发行版增添了两个重要部分:一个是用于控制和管理Hadoop部署环境的Cloudera管理器控制台,另一个是企业级支持。 Cloudera管理器提供了基于向导的安装和配置菜单,以便部署Hadoop.另外,它还提供了一些工具,帮助系统管理人员监控平台的运行状况、诊断问题、优化性能,以及在配置和安全方面作出所需的变更。
Cloudera支持服务分每天8小时每周五天或每天24小时每周七天这两种,服务包括配置检查、问题逐级上报和解决、与第三方系统集成以及知识库、文章及其他技术资源。除了现有的这些服务外,还有培训和咨询服务。Cloudera 企业解决方案包括Hadoop软件发行版、Cloudera管理器及支持,标价为每年每个节点4000美元(不包括硬件)。
Datameer将商业智能运用到大数据上
Datameer公司宣称其Datameer分析解决方案(DAS)是一款面向Hadoop、针对企业用户的商业智能(BI)平台。但是DAS并不将Hadoop当作信息孤岛:它可以通过JDBC、Hive、HTTP或其他标准,连接到任何数据源。它包含了一个由向导驱动的集成平台,让用户可以安排调度负载,并且转换来自任何这些数据源的庞大的结构化、半结构化或非结构化数据集。用户可以通过类似电子表格的DAS界面,运用180多项分析功能中的任何一项功能。企业用户可以获得拖放式报告和仪表板功能。DAS可以在私有云或公共云上运行,而且有一套代表性状态传输(REST)应用编程接口(API),用于数据导入和导出。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31