大数据如何使得数据库变得更好
当在提及“数据库”时,大多数人第一时间想到的肯定都是已经主宰该领域超过30年的关系数据库管理系统(RDBMS)。然而,这种状况可能很快就会改变。
一系列全新的竞争对手,现在正在争夺这一关键的企业市场,尽管他们所采用的是不同的方法,但却都有一个共同点:专注于大数据领域。
推动这种新的替代品获得大规模扩散的大部分因素是源于大数据的“3V”基本属性,即:海量(volume)、高速(velocity)和多样(variety)。
从本质上讲,今天的数据传输速度比以往任何时候都快;而且其数据量也比以往任何时候都更大;其种类也更加多样化。换句话说,这是一个全新的数据化的世界,而传统的关系型数据库管理系统并不是真正为它设计的。
“基本上,传统的关系型数据库管理系统不能应对规模化的海量、或快速、或多样的数据。”一家数据科学咨询分析机构KDnuggets公司的总裁Gregory Piatetsky-Shapiro表示说。
这便是哈特·汉克斯最近的发现:截至到2013年左右,市场营销服务机构都在使用不同的数据库的组合,包括Microsoft SQL Server和甲骨文公司的Real Application Clusters (RAC)。
“我们注意到,随着数据随时间的增长,我们的系统处理信息的速度不够快。”该公司技术和开发负责人Sean Iannuzzi表示说。“就算是您企业能够不断地购买新的服务器,也只是刚刚能够赶上数据增长的节奏,而我们希望确保我们能够具备向外扩展的平台。”
减少干扰是一个重要的目标,Iannuzzi说,因此“我们不能只是切换到Hadoop。”
相反,其选择了Splice Machine公司的产品,这实质上是把完整的SQL数据库与流行的Hadoop大数据平台,使现有的应用程序来与之连接,他说。
哈特·汉克斯现在处在实施部署的初期阶段,但已经看到了效益,Iannuzzi说,包括提高了容错性、高可用性、冗余性、稳定性和“性能的全面提升。”
有一种完美的风暴推动了新的数据库技术的出现,IDC公司研究副总裁Carl Olofson表示说。
首先,“与过去相比,我们当前正在使用的设备能够快速、灵活地处理大型数据集。” Olofson指出。
在过去的日子里,这样的数据集“需要被放在旋转的磁盘上”,而且数据必须以特定的方式来结构化,他解释说。
现在有64位寻址能力,可以建立更大的存储空间,以及更快的网络,并能够串多台计算机一起,作为单个大型数据库。
“这些东西开辟了之前不可用的可能性,” Olofson说。
同时,工作负载也发生了变化。例如,10年前的网站在很大程度上都是静态的,而在今天我们都是现场的Web服务环境和互动的购物体验。这反过来,需要一个新水平的可扩展性,他说。
企业也在利用新的方式使用数据。虽然在传统上,我们大部分的精力都放在了处理我们的交易——例如,记录我们销售了多少,并将这些数据存储起来,以便进行分析——今天我们做得更多。
应用程序状态管理就是这方面的一个例子。
假设您正在玩一款网络游戏。技术必须记录您与系统的每一次操作,并将其连接在一起,以呈现出连续的体验,即使您换了设备或者是各种操作是通过不同的服务器进行处理的,Olofson解释说。
这些数据必须持久化,这样,企业可以分析这样的问题,例如:“为什么从来没有人穿过水晶厅。”在网络购物方面,类似需要分析的问题可能是:为什么越来越多的用户在点击了颜色选择之后,却并没有购买某品牌的鞋子。
“以前,我们并没有试图解决这些问题,或者说——就算我们试图去解决了,也只是试图将其挤压在一个不太合适的盒子里。”Olofson说。
在当今新的众多竞争者之中,Hadoop无疑是一款重量级的。虽然其本身并不是一个数据库,但它的成长在企业解决大数据方面扮演了关键性的填补角色作用。从本质上来说,Hadoop是一款用于运行高度并行化的应用程序的数据中心平台,具有很强的可扩展性。
通过允许企业以分布的方式“向外”扩展,而不是通过采用额外昂贵的服务器“向上”扩展,“使得我们可以很便宜地把一个大型的数据集合整合起来,然后分析该数据集合有什么。”Olofson说。
在其他新的RDBMS的替代品是NoSQL系列产品,其中包括MongoDB——目前是第四大最为流行的数据库管理系统,根据DB-Engines和MarkLogic的数据库排名显示。
“关系数据库管理系统成为一款伟大的技术已经有30年的历史了,但它是基于不同的时代的不同市场需求所构建的不同的技术。” MarkLogic的产品执行副总裁乔·帕卡说。
他说,大数据是不均匀的,但对于许多传统的技术,这仍然是一项基本要求。
“想象一下,在您笔记本电脑上唯一的一款程序是Excel会是怎样?”帕卡说。“再试着想象一下,您想要保持与网络上的朋友们的联系,或者您正在写一份合约,而Excel的那些行和列显然不适合满足这些需求。”
将数据集组合起来可能是特别棘手的工作。
“采用关系数据库管理系统的话,在您把所有这些数据集整合在一起之前,您必须决定如何对所有列实施排队。”他补充说。“而我们则可以采取任何形式或结构,并立即开始使用它。”
NoSQL数据库不使用一款关系数据模型,通常没有SQL接口。而许多NoSQL存储为了速度和其他因素而在一致性方面进行了妥协。而MarkLogic自身的产品是专为满足企业的一致性选择而量身定做的。
根据市场研究媒体Marketresearchmedia.com网站的介绍,在NoSQL市场已经呈现了可观的增长,但并非每个人都认为这是正确的方法——至少,不是在所有的情况下。
NoSQL系统“通过其横向扩展架构,解决了许多问题,但他们抛弃了SQL。” Splice Machine公司的CEO Monte Zweben说。这反过来,构成了现有代码中的问题。
Splice Machine公司的产品是称为NewSQL的,不同类别的替代品的一个例子——另一类预期在未来几年将获得强劲增长的产品。
“我们的理念是在保有SQL的同时,添加扩展架构。”Zweben说。“这是创造一些新的东西的时候了,但我们正努力使用户不必重写编写代码。”
大数据创业企业Deep Information Sciences公司也选择了坚持使用SQL,但他们则是以另一种方法。
该公司的DeepSQL数据库使用与MySQL相同的应用程序编程接口(API)和关系模型,这意味着为了使用它无需进行应用程序的改变。但它以不同的方式处理数据,使用机器学习。
DeepSQL可以使用任何工作负载组合自动适应物理,虚拟或云主机,该公司表示,从而省去了手动数据库优化的需要。
在这些都大大提高了性能以及扩展到 “千亿行”的能力,该公司的首席战略官Chad Jones表示。
另一种完全不同的方式来自Algebraix Data公司,该公司表示说,他们已经为数据开发了第一款真正的数学基础。
而计算机硬件已经在其建成之前进行了数学模型,而不是在软件的情况下,Algebraix公司首席执行官Charles Silver表示。
“软件,尤其是数据,从未建立在数学的基础上。”他说。“软件在很大程度上是语言学的问题。”
经过五年的研发,Algebraix公司创造了其所谓的“代数数据(algebra of data")”,这是一种利用数学集合论实现的“通用数据语言”。
“大数据的小秘密是,数据仍然在不与其他数据网格连接的小筒仓中。” Silver解释说。“我们已经证明,其可以用数学方法来表示,因此所有都是集成的。”
在这个基础上配备内置平台,Algebraix公司现在能够为企业用户提供业务分析作为一种服务。改进的性能,容量和速度都是Algebraix公司所为企业用户承诺的预期获益。
时间最终会证明哪些新的竞争者将获得成功。而在此期间,市场长期的领军,如甲骨文并不会完全停滞不前。
“软件是一个非常有时尚意识的行业。” 甲骨文数据库服务器技术的执行副总裁安德鲁·门德尔松表示说。 “事务往往从流行变为不受欢迎,然后又再次回到流行。”
他说,现在很多创业公司都仅仅是“把同一款旧东西炒冷饭之后加上一点点的抛光或打磨处理。这就类似于新的一代的毕业生重塑了事务。”
SQL是“唯一一款能够让业务分析师提问并得到答案的语言——他们不需要成为程序员。”门德尔松说。“大市场将始终是关系数据库。”
至于新的数据类型,关系型数据库产品发展为早在上世纪90年代就支持的非结构化数据,他说。在2013年,甲骨文的同名数据库在12c版本中增加了JSON(JavaScript对象表示法)支持。
门德尔松说,与其说是需要一款不同类型的数据库,更是一种商业模式的转变,而这正推动着整个行业的变革。
“云计算将是未来的发展方向,其将为现在的那些小企业带来破坏性的变革。”他说。“大企业都已经在云服务领域站稳脚跟了,所以在这一领域几乎已经没有容纳这些小型竞争者的地方了?”
“小企业们要通过采用亚马逊的云,并与亚马逊竞争吗?”他补充道。“这将是相当困难的。”
甲骨文拥有“最广泛的云服务。”门德尔松说。“我们对自己当前的市场地位感觉很好。”
Gartner的一名研究主管瑞克·格林沃尔德也倾向于类似的观点。
“较新的替代方案并不像传统的RDBMS那样功能齐全和强大。”格林沃尔德说。 “某些案例可以用新的竞争者的产品来解决,但并不是全部,当然也不是只有一款技术”。
展望未来,格林沃尔德预计,传统的RDBMS供应商将感受到价格压力越来越大,并为他们的产品增加新的功能。“有些供应商会甚至为其整个数据管理系统带来新的竞争者。”他说。
至于新的市场进入者,他预测,只有少数会幸存下来,“许多企业要么被收购或是耗尽其资金。”
今天的新技术并不代表数据分析传统的RDBMS的结束,“传统的RDBMS本身正在迅速发展。” IDC的Olofson对此也表示同意。“RDBMS需要明确定义的数据 - 总有需要有这样的角色。”
但是,他表示说,新的竞争者也会扮演一些角色,特别是在物联网和新兴技术领域,如非易失性双列直插式内存模块(Non-Volatile Dual In-line Memory Module,NVDIMM)正占据上风。
将会有无数的问题需要多种解决方案,Olofson补充说。“大量有趣的东西等待着人们去发掘。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17