消费大数据的智慧之路
甲骨文公司全球副总裁、大中华区技术总经理喻思成表示,在过去的一年中,Oracle公司开始进入大数据的时代,提供了一些处理大数据的技术和平台。前不久刚刚发布了大数据一体机平台,把大数据的存储、处理和商业智能展现在一台机器中全部融合进去,同时Oracle公司提供了Analytics一体化机,提供了一体化BI的产品,把软件、硬件、存储、网络交换全部集合在一台机器中去。Oracle公司有这样一个完整的解决方案,从后端的数据源、数据存储、数据仓库处理、前端中间件、前端BI展现,大数据本身只是数据蓝图的补充,这就使得无论是关系型的数据库还是非关系型的大数据产品,最后为企业真正提供完整的解决方案。
喻思成:各位好!我接下来想花半个小时给大家汇报一下Oracle公司在大数据方面的策略。讲大数据这样的话题,我们实际上在数据面前了一个“大”字,我想用更广泛的议题向看大数据在整个数据策略中,它实际上是一个更小的话题。Oracle公司实际上是一个数据库,我们公司是一个平台性的公司,在这样数据的概念之下讲一讲整体Oracle对数据的策略,以及大数据只是作为其中的一部分。 今天所有人都同意大数据很热门,也很困扰,所有的CIO、CEO都在关注大数据,如何利用大数据、大数据的成本、大数据的回报,以及看到大数据的结果。Oracle和很多友商在过去的很多年中建立起了数据的应用、数据的技术、数据的产品。在谈论大数据的时候我们不要忘了都是基于以前已经有的东西,所有大数据产生的结果都要和今天所有关系型的平台都连接起来。
熟悉的数据和系统。 我们现在已经有的一些平台是大家耳熟能详的,你有很多数据源,在数据源中你可以抽取起来,把它放到数据库或者数据仓库,前面有数据分析平台,有很多公司部门级的应用、公司级应用对数据进行消费和使用,这是在我们过去二三十年里已经建立起的传统关系型的数据库,三重的架构、中间件平台、前面建立起大型的应用。 成熟的数据管理和处理体系。 如何使用现有的新的大数据,把有价值的部分抽取出来,融合到已经现有的成熟数据管理和分析体系中。如果把这样成熟的数据管理和分析体系用各个层次解开的话,我们需要有一个最底下的数据源层,比如关系型数据库的数据源。我们有一个数据收集层次,我们通过数据采集交换的平台,把它存储下来,这是我们第一步需要做的。
然后我们有一个数据计算层,在数据计算层对数据进行处理和计算,无论是哪种数据源过来,无论是哪种数据存储的方式,到最后要把数据整合起来。 以前有很多数据整合的工具,这些数据整合的工具可以在某一个时间的切面或者一段时间长度里或者整体的数据,把它进行一个切片,把它进行一个展示。所以,它更多是一个数据整合和展示的方式。在数据整合完了以后,人们对后端的数据源可能已经不在乎它从哪个源头来了以后,我们在之上才真正开始谈智慧的层面。在这个层面可能有数据库,有数据仓库,可能有文件系统,然后把它真正递交给数据消费层。 在这个数据消费层有应用系统平台,有数据平台,有数据服务。
然后在底层讨论怎么用BI最漂亮的方式、最可见的方式、最快速的方式、最可调整的方式,把数据洞察出来,把数据通过BI的方式展现出来。我们有报表系统,有交互式分析。 在大数据时代我们发现,我们的数据源不仅仅有传统的结构化数据,还有很多非结构化的数据。比如说,我们的Splunk有机器产生的数据,有很多非结构化的数据。用传统的数据存储方式已经不符合要求,而且本身的要求也是有变化的,对于结构化的数据处理方式的要求和现在大数据处理方式的要求不完全一样。但是不管怎么样,我们今天并不是要完全颠覆这张图,而是在这里面要加进很多新的处理方式,然后形成一个更完善、更完整的数据管理和处理体系。 Oracle公司是一个数据库公司之家,后来它成为一个中间件公司,成为ERP公司,成为完整的软硬件一体化的IT处理厂商,IT工具的厂商。
我们最重要的最自己的定位是IT平台厂商,我们提供的是这样的一个平台,我们要和很多厂商一起合作,尤其是一些做工具的厂商,尤其是一些实施的厂商,做深度挖掘的厂商进行合作,为每一个客户提供最全面的解决方案。 Oracle公司更专注的是结构化的工具,RDBMS平台,或者是ERP平台等。在过去的一年中,Oracle公司也走入了大数据的时代,也提供了一些处理大数据的技术和平台。前不久刚刚发布了自己的大数据一体机平台,把大数据的存储、大数据的处理、大数据的BI展现在一台机器中全部融合进去,同时Oracle公司提供了自己的一体化机器,这是在Analytics方面的产品,提供了一体化BI的产品,它是把软件、硬件、存储、网络交换全部集合在一台机器中去。 我们想要做的是什么呢? 加上我们以前有的关系化、关系型的、结构性存储的所有平台,把大数据存储的非关系型、非结构化的数据都融入到这个大的平台里面。这个大的平台里怎么样处理结构化和非结构化的数据到一个平台里呢? 大数据来自何方? 这些数据来于泛互联网数据,机器产生的数据,以及行业内容的数据。
这些数据有4个V,数据量非常大,有很多种不同的结构,爆发也非常大,增长速度很快,价值非常大。其中最核心的两个技术,比如Hadoop、NoSQL,它们实际上并不是Oracle数据库的对立或者竞争,而是Oracle数据库的一个补充,今天Oracle公司也拥抱这些技术,使得我们能够拥有更大数据库平台。 不仅仅只是Hadoop和NoSQL。 首先,对于流数据的处理,Oracle提出了Oracle的CEP,它对流量数据的高速处理,怎样快速地处理数据流。Oracle公司现在已经有现存的内存数据库产品,也将融入到更大的数据库处理平台中。同时,Oracle公司走向软件应一体化的公司,我们不断地提供新的软硬件一体化的产品,与此同时我们推出一体机产品,刚刚展示的是我们针对BI的一体机的产品,在大数据时代最后所有的数据出来最后必须要在BI平台上表达,Oracle公司提供软硬件一体的BI平台。
大数据所有的数据出来以后,最后非结构化的数据还要导到结构化仓库、平台、数据库中。那么,如果提供这样一个连接把非结构化数据导入结构化的数据中?Oracle公司根据以前做结构化数的优势来提供。 还有存储方式的问题,Oracle公司提供一整套的一揽子的解决方案,包括云存储、存储技术产品,我们现在有了这些技术。 基于时间窗口的数据计算模式。 我们在以前处理大批量数据、结构化处理数据的基础之上,今天我们扩展视野,今天能够做更多的持续性的流量数据,能够做大海捞针的实时计算。比如说我们有一个电表,在这个电表里面不是时时刻刻产生电表的数据,这样机器产生的数据有很多种,但是它有一个特征是持续产生流量的数据。
那么,我们可能要在一个时间段或者整体时间段把所有的数据截持下来分析。要不停地消费这个数据,它也是一个流量处理的过程,这样才会产生实时或者半实时的流量数据分析的结果。所以,它是一个流式计算的方式。 第二种方式是以前耳熟能详的信息海量计算,我们有数据仓库,在数据仓库中进行大规模的数据计算。但是同时现在还有一种大海捞针的新的计算方式,比如当一辆车开过收费站的时候,拍一张照片,看车牌以后,立即在全国的照片中分析它是不是有犯罪记录,在杆子提高之前就得到一个结果是否要把这辆车作为一个犯罪车辆截下来。应该说,这都是属于数据的范畴,但是很多时候处理的方式是不一样的。
大数据计算模式组合。 Oracle希望把所有的计算手段都融通结合起来,我们希望使大数据计算成为我们计算方式的一种。无论是今天的大数据,还是以前拥有的数据,还是我们所说的流式计算,都希望能够把它融通结合起来。 完备的数据管理和处理体系――多结构化 它能够处理文件的数据源,也能够处理事件的数据源,比如说微博,比如泛互联网的数据源,再比如说行业的数据源。Oracle公司希望能够提供这些数据源的处理方式,在一个数据收集层里有数据采集交换系统,才存储的时候希望能够提供原来的集中式的文件系统,结构化地存储。同时,也能够提供分布式的文件存储的方式,以及灵活存储的方式。比如说,非结构化存储的方式等我们都能够提供。 在数据计算层,我们不仅能够处理原来大量数据的批量计算,也能够处理刚才所说的流式计算和实时计算。在数据整合层次,我们能够提供一揽子的整合方案。我们有原来传统的数据库、数据仓库,但是同时也提供灵活的数据存储系统。
在数据消费层,我们提供一揽子数据应用消费平台和数据共享服务平台,最后在洞察层提供交互分析。 最全面最强的Oracle数据管理和处理体系。 Oracle公司有自己原来的产品,在非结构化数据的数据整合方案中,Oracle刚刚发布了BDA产品,它提供最底层的存储、上面的硬件,使得我们所有使用Hadoop的应用程序的开发人员可以在这个平台上继续使用Hadoop,你可以有平台,你可以有数据库,我们提供存储平台,Oracle公司提供全面的技术支持。也就是说,你可以在里面节省大量的时间,没有必要从存储到Hadoop的平台、数据库语言优化、后端产生的数据,转化成关系型数据以后,把它存储到关系型数据库中自己去书写,完全由Oracle去做,而且它的价格并不是很昂贵。
而且在之上Oracle公司给你提供最好的保障,因为Oracle公司并不是简简单单地把软硬件加在一起,我们有加速的过程,我们提供软件和硬件的同时,使得它的运算速度提高十倍甚至上百倍以上,对于某些计算仓库的运算速度甚至提高上千倍。在传输、软硬件结合方面我们都做了很多优化。 同时,在流量处理方面,Oracle公司有自己的CEP产品,专门对于这种事件型或者流量型的数据进行非常快的处理。在数据存储层,有了ZFS技术,同时支持NoSQL,完全由用户自己选择。在数据计算层来说,Oracle公司有自己传统的数据库产品,它可以非常快速地满足传统的批量处理的数据能力。但是同时如果说我们要进行实时地计算,Oracle公司也业界最优秀的内存数据库的产品Times Ten,使得计算速度非常快,在落杆之前计算出这个车牌是不是犯罪车辆。如果对流量计算有要求的话,我们有自己的CEP技术。
在数据整合层,Oracle公司也Big Data Connector,最后落下来都成为一个关系型数据,把它导入传统关系型数据库。在数据智慧层来说,Oracle公司的产品完全融合在一起,无论是关系型数据库产品,还是非关系型数据库产品都可以融合在一起,到最后我们还要把它消费,数据是拿来用的,不是为了存储。所以,在这之上需要一个中间件平台,我们推出了Exalogic推出来,把硬件和带宽的产品全部融合在一起,成为一个一体机,使得原来JAVA的应用整合在一台机器。
所以,我们可以提供完整的、非常强壮的中间件处理平台。 到最后前端你要表达出来,BI产品Oracle公司有最好的EPM产品,再加上前端BI已经拥有的产品,Oracle公司的BI产品包括原来的OBIEE,以及展现报表的工具,现在都展现在Analytics这个平台上,使用Oracle原来的一些软件同时加上Oracle公司公司的硬件,彻底一个一体机,把数据导到Analytics里面进行运算,几个T的数据库可以让它在内存中进行实时的内存运算,速度非常快。 Oracle公司有这样一个完整的解决方案,从后端的数据源、数据存储、数据仓库处理、前端中间件、前端BI展现,大数据本身只是数据蓝图的补充,这就使得无论是关系型的数据库还是非关系型的大数据产品,最后为企业真正提供完整的解决方案。在解决方案旁边,Oracle公司还提供管理,Oracle公司全部同步以一个产品发布,数据库到了12,中间件也到了12,我们所有的产品到12个版本,Oracle所有的产品为云而准备。整体的这张大图都可以以云的方式进行管理,包括从内存的CPU到带宽的数据、IO吞吐量,以及内存的使用率、CPU的使用率、存储的使用率,一直再到中间件处理平台、数据库起和落、前端BI的展现,全部都是在一个大的Oracle提供的EM平台中展现,而不需要从不同的厂家不同的产品找一个方案进行整合。
同时,我们也有安全,有统一的控制和前端的展现方案。 软硬件优化集成的Oracle大数据综合解决方案。 我们提供Big Data Appliance、OracleExadata、Oracle Exalogic、Oracle Exalytics。我们希望我们的有商在我们的平台之上开发,为我们的客户提供完整的应用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10