迎接大数据,这里的黎明真热闹(SAP篇)
SAP不久前才收了Sybase,实力充盈了不少。经过几轮收购整合,BI场上的真正玩家越来越少了。不知道那些产品线单一的刺客们还能独行多久。
一个新的时代已然披红挂彩鞭炮齐鸣地揭开了序幕。
信息时代圆满落幕,智能时代破晓而出。宽带通信、智能终端、社交网络、量化分析重新定义了生产商、分销商和消费者之间的关系。数据在容量、种类、速度方面的增长带来了新的挑战,而这挑战中蕴藏着巨大的商机。
信息的获取、分析和管理是智能时代的主要任务。那些还在沉睡的组织,它们可能马上就会被数据压住,然后从噩梦中惊醒,不堪重负,气喘吁吁。而那些天还没亮就行动起来的勤劳小鸟,不仅能抓住数据,还会进化出量化分析能力,并由此做出正确决策,取得竞争优势。在又一次商业大潮来临之际占得先机,有效分配资源,进行可持续、安全的管理,为自己的社区提供更好的产品或服务。
为什么是现在?它有什么新鲜玩意儿?
商业和公共组织要在全业务流程上投资大数据解决方案有各种各样的原因。尽管在各种大数据会议和与大数据相关的文章中最引人注目的是社交网站产生的数据,但经过调查,业务数据分析才是推动组织采用大数据解决方案的根本原因。
图1 使用BI、量化分析和大数据技术主要动力的调查反馈占比
然而,不管上图中反馈结果的评级如何,我们都必须意识到,大数据所涉及的业务流程、技术和专业知识范围都很广泛。正因如此,大数据几乎带来了无限的机遇,但因为天地太过广阔,指望着大有可为的青年们也会觉得有点找不着北。
大数据解决方案的终极目标,是为组织中所有层面的决策者提供更强大、更快速、更全面的洞察力,从而让他们做出更好的决策。
IDC 决策管理框架是一个评估这些机遇的工具。这个框架可以应用到大数据用例上,并能描绘三种决策类型和每种决策类型的四个主要变量,如图所示:
图2 IDC 决策管理框架
战略决策因为其周期长,未知因素多,所以范围最广、风险最高。战略决策的数量相对来说也很少;它们要求内部决策者和外部决策者之间要有较高的协作水平,而且实现自动化的可能性也很低。而另一端的战术决策可能是由一线员工或系统完成的。在一个时间周期内会有很多这种决策,并且所有决策几乎都没什么风险,也易于自动化。这些决定都是在现场,在工作流当中做出的,因此决策过程中发生协作的可能性很小。在IDC 决策管理框架中,运营决策介于两者之间。
每个决策类型相关的人群也不同。运营决策是由业务分析师或定量分析师跟管理层一起做的,战略决策是高管做的,战术决策是一线员工或自动化系统、应用程序或机器做的。某一级决策的输出会变成下一级决策的输入。除了要考虑人员、资金和业务流程之外,理解组织的决策需求是迈向创建业务分析战略的重要一步,而业务分析战略是考虑所有相关技术的根本。
最后,不同的决策类型和决策者可能会要求不同的数据和数据技术支持。这些技术包括数据收集、数据监测、数据管理、数据分析和数据传播等。战术决策通常都是基于对实时数据流的监测,所采取的行动也是遵照预先定义好的规则。运营决策可能需要对海量的多种结构数据进行深入分析。战略决策可能需要对即时系统根据情景所作出的响应进行快速评估,以便能够改善风险管理。
满足所有决策者的需求是一项艰巨的任务,不可能仅凭一种技术或一个项目就可以完成。
决定哪些数据相关是个难题。
2012年初IDC发起的一项调查表明,被提到最多的困难是决定哪些数据相关。IT和业务部门都声称他们需要重新评估组织内部为支持决策过程所评测的数据。很多组织都在重新思考如何分析现有数据和新的数据源,以改变或改善决策支持、决策自动化和绩效管理流程。量化的思想或许会对解决这个难题有所帮助。
此外,技术基础设施的成本,缺乏合适的分析人员和IT人员,缺乏业务支持,或理解不了大数据所能带来的好处,这些挑战都在阻碍着他们抓住智能时代带来的机遇。
这些挑战表明许多大数据应用都缺乏公认的最佳实践。你有数据可以收集、分析,并按分析结果所做的决策采取行动。然而能否实现目标却取决于:
IDC对大数据技术的定义:为了能用经济有效的办法从各式各样的海量数据里提炼价值而开发出来的新技术,包括硬件、软件,和服务。它们能高速地完成数据捕获,发现和分析任务,对符合“4V”特性的数据进行整合、组织、管理、分析和呈现。
4V指数据量(volume), 数据种类(variety),数据产生和处理的速度( velocity), 数据的价值(value)
数据量:大小并不是特别重要
尽管大数据里的“大”暗指数据的量大,但我们必须明白“大”是一个相对的概念。某些行业和组织可能连GB或TB的数据都很少见,而社交网站的数据则动辄就达到了PB或EB的级别。不管怎样,那些看起来不大的应用程序进行信息处理和分析的紧张复杂程度可能完全符合我们对大数据应用的定义。金融服务业就能很好地说明这个问题。在某些大数据处理活动中,所涉及的记录数可能有上百万甚至上亿行,但每条记录的长度可能只有几个字节(比如股票行情信息)。相反,email归档累计起来可能有几个PB的数据,其中包含着高端客户的建议或抱怨,项目的记录,法务记录,合同和提案等各种数据。邮件归档通常能最准确地反映出未决的及当前的业务状况,但只有经过排序和挖掘之后,才能发现其中的价值。产品设计制造也是这样,比如在汽车和航空公司里,要对成百上千个虚拟原型进行评估,以便找出最佳的车辆(飞行器)设计。还有大型科学实验,每天要产生PB级的混合数据,作为复杂的模拟数据输入计算模型中。
数据种类:重要的是数据源和数据格式
多样性是大数据的关键属性。是否从多种数据源对多种格式的数据进行整合,是判断一个应用程序能否被称为大数据应用的决定性条件。
大数据应用通常都会从多个数据源(既有内部数据源,也有外部数据源)抽取类型不同的数据(结构化、半结构化和非结构化)。无论从技术上,还是从潜在影响来看,这都是大数据中很重要的一个方面。对不同类型的信息进行组合是一个复杂的技术难题:一条客户记录跟一条微博哪个比较重要?怎么才能把大量不断变化的病人记录跟公开发表的医疗研究报告和基因组数据结合起来,以便为某个病人找出最佳治疗方案?
把来自于ERP系统的内部运营数据,来自于web日志文件的半结构化数据(识别客户在线行为),以及来自客户评论的非结构化文本情感分析数据混搭在一起就是这种情况。先进的天气/气候模型也属于这种情况,借鉴100多年的天气数据和新的海水行为物理模型,CO水平变化,结合卫星数据进行实时天气状况模拟。
速度:信息到达、分析和交付的速度
组织内部有各种不同的系统,数据移动的速度可以分为批量整合定期加载和实时数据流两种。传统的数据仓库,也是现在使用Hadoop的主流数据处理方法用的就是批量整合、定期加载。而采用实时数据流的技术领域一般包括复杂事件处理(ECP),规则引擎,文本分析和搜索,推理,机器学习和基于事件的架构。
评估大数据速度需求的关键是搞懂业务流程和最终用户的需求。比如说,对于应急响应组织或证券交易公司而言,每一秒(甚至毫秒)产生的数据都很宝贵。还有机场,为了在罪犯进入机场时就能发现,需要进行实时的面部识别。然而作为MapReduce和Hadoop发祥地的搜索引擎,为确定算法的准确性或广告的匹配度时而对十几亿的查询数据进行处理和挖掘时,并不需要实时分析。换句话说,用恰当的时间获取准确度合适的恰当信息才是我们所需要的。
不同的用例适用的技术架构也不同。在架构界流传着一句老话,“只要扔进去足够多的硬件,任何问题都能解决”。业界已经为解决特定问题搭建过大型超级计算机和大规模集群了,这句话的正确性毋庸置疑。
然而现在需要用专门的硬件来满足的高性能需求越来越少了。高可用集群,可扩展的文件系统,多CPU,多核处理器的出现意味着利用现成的商业组件进行组合就能轻松满足性能要求。现在社会化应用甚至大多选择部署在云服务上,根本就不专门考虑硬件。
价值:资金,运营,业务优势一个都不能少
在大数据里谈到价值,既指使用大数据所需技术成本的降低,也指使用大数据创造的价值。成本是大数据问题在智能时代得以解决的决定性因素。在金融服务,电信,零售,研发和政府组织中的大型数据仓库已经存在好多年了。在交易、天气监测或欺诈检测应用里的实时数据管理也存在好多年了。以文本挖掘的形式出现的非结构化内容分析也存在好多年了。用于科学研究的高性能计算系统也存在好多年了。然而自从进入智能时代,那些曾经只有政府机构或某些行业少数几个大公司才负担得起的系统,现在也摆上了“寻常百姓家”的餐桌。更多可用软件的出现和不断降价的硬件,让更多的组织可以在预算中hold住这些大数据技术。
从大数据项目中得到的好处大致可以分为:
大数据所代表的并不是企业范围内单一、同质的需求。然而大多数人并没有认识到这一点,普遍的看法是只有那些要用Hadoop处理的海量数据才是大数据。比如在IDC得到的调查反馈报告中,40%的受访者认为大数据是指海量数据,26%认为是指各种各样的数据,24%认为是指实时流数据,10%认为它是指高性能计算。
大数据技术所呈现出来的机遇持续增长,越来越大。改善现有业务流程和大数据技术有关,推出新业务和大数据技术有关,改变跟客户的交互方式跟大数据技术有关,为了支持范围更加广泛的决策过程,要对为什么分析数据,以及怎么分析数据进行重新评估,这还和大数据技术有关。
哪里有需求,哪里就有市场。大数据解决方案的市场雏形刚具,各路英雄豪杰各显其能,打破了头也想要挤上这趟车,场面一片混乱。对于什么是大数据,以及大数据技术能干什么,无论用户还是供应商,都有诸多误解。
理解这些误解非常重要,不然你很可能会陷入毫无意义的技术对比优劣之争。实际上,对于大多数有一定规模的组织来说,为了对工作负载和应用进行改善,需要多种大数据技术共存。
根据所处理数据的不同,IDC认为大数据技术可以分为两类:处理运动中的大数据,处理空闲期的大数据。
运动的大数据是指快速流动的大量数据,这些数据一经收到就要马上处理。这样的数据包括股票交易数据,智能电表数据,实时库存管理系统中的RFID数据等等。与数据相关的操作可以分为三类。
对于运动中的大数据,在收到之后会对它们进行过滤,并做正规化处理(变成统一的或可读的格式)。这通常是由接收程序完成的。系统会决定是否需要进行响应。这可能会牵涉到一个复杂的事件处理引擎,得到新数据,根据保留的数据(包括来自数据流的缓存数据和保存在快速存储【一般是内存】数据库中的数据)应用新的数据,并确定发生的是否为已定义的事件。如果发生的是已定义的事件,CEP引擎会触发一个动作,也就是程序对该事件的响应。
运动中的大数据对技术的要求是数据接收,格式化和响应的速度能跟上数据到达的速度。相关的技术包括智能高速数据迁移和转换技术,内存数据库和CEP技术。
目前所讨论的大数据大部分是指空闲期的大数据,处于空闲期的大数据包括“机构化”和“非结构化”的数据。后来,很多专家对这些术语提出了异议,指出我们所说的“非结构化”数据实际上也有结构,只是它们的结构不是由范式或程序代码确定的。要处理这个问题,我们可以考虑下表中的分类:
对于空闲期的大数据,相应的技术应该具备尽快采集数据的能力,整理和转换数据的能力,分析数据的能力,还有将数据置于待处理状态的能力,从而可以对它们进行有意义的搜索、挖掘、探索、查询,和产生报告。
NoSQL和SQL数据库技术在大数据中都有重要作用。NoSQL数据库非常善于支持大数据的“多样性”,能够接受来自多种数据源的多种格式的数据,然后程序代码可以对这些数据进行筛选,过滤,和组织。很多Hadoop程序都是这么干的。SQL数据库非常善于处理大量结构一致的数据,可以在这样的数据上产生常规报告、挖掘和重复进行分析。
具备动态扩展能力的RDBMS能处理非常大的数据库,而且作为大数据SQL DBMS能快速处理这种数据库请求。
NoSQL是另一回事。这个随处可见的词实际上是很多种DBMS的统称,每种DBMS都有特殊的用途,而且多种数据库可能会一起出现在同一系统中,作为大数据操作流的有效组成部分。如下表所示:
大数据解决方案的使用范围非常广泛。目前市面上能见到的基本如下图所示:
我们可以从活动、业务流程和行业三个维度来对这些用例进行评估。
活动
并不是所有使用大数据技术的应用都是为了分析数据。有一些是为了部署社交网站或游戏应用,还有一些是为了存储大型内容,提供海量文档的信息访问。
业务流程
大数据技术被部署在商业组织、非盈利组织和政府组织内部以支持他们的工作流程。组织所面临的问题和困难不是大数据挑战,而是受大数据影响的业务或组织问题。部署大数据技术的业务流程有:
除了财务、营销和信息技术管理这样跨行业的业务流程,还有多种特定行业的应用。这样的例子包括:
面对如此广阔的市场前景,提供大数据技术解决方案的供应商既有小型的专业化公司,也有产品线丰富,生态系统完备的大型公司。SAP属于后者。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据驱动决策成为商业常态的今天,数据分析师这一职业正迎来前所未有的机遇与挑战。很多希望转行或初入职场的人士不禁询问:数 ...
2024-12-25数据分析师,这一近年来炙手可热的职业,吸引了大量求职者的注意。凭借在大数据时代中的关键作用,数据分析师不仅需要具备处理数 ...
2024-12-25在当今数字化变革的浪潮中,数据分析师这一职业正迎来前所未有的发展机遇。回想我自己初入数据分析行业时,那种既兴奋又略显谨慎 ...
2024-12-25在当今信息爆炸的时代,数据已经像空气一样无处不在,而数据分析则是解锁这些信息宝藏的钥匙。数据分析的过程就像是一次探险,从 ...
2024-12-25在职场上,拍脑袋做决策的时代早已过去。数据分析正在成为每个职场人的核心竞争力,不仅能帮你找到问题,还能提供解决方案,提升 ...
2024-12-24Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19