迎接大数据,这里的黎明真热闹(SAP篇)
SAP不久前才收了Sybase,实力充盈了不少。经过几轮收购整合,BI场上的真正玩家越来越少了。不知道那些产品线单一的刺客们还能独行多久。
一个新的时代已然披红挂彩鞭炮齐鸣地揭开了序幕。
信息时代圆满落幕,智能时代破晓而出。宽带通信、智能终端、社交网络、量化分析重新定义了生产商、分销商和消费者之间的关系。数据在容量、种类、速度方面的增长带来了新的挑战,而这挑战中蕴藏着巨大的商机。
信息的获取、分析和管理是智能时代的主要任务。那些还在沉睡的组织,它们可能马上就会被数据压住,然后从噩梦中惊醒,不堪重负,气喘吁吁。而那些天还没亮就行动起来的勤劳小鸟,不仅能抓住数据,还会进化出量化分析能力,并由此做出正确决策,取得竞争优势。在又一次商业大潮来临之际占得先机,有效分配资源,进行可持续、安全的管理,为自己的社区提供更好的产品或服务。
为什么是现在?它有什么新鲜玩意儿?
商业和公共组织要在全业务流程上投资大数据解决方案有各种各样的原因。尽管在各种大数据会议和与大数据相关的文章中最引人注目的是社交网站产生的数据,但经过调查,业务数据分析才是推动组织采用大数据解决方案的根本原因。
图1 使用BI、量化分析和大数据技术主要动力的调查反馈占比
然而,不管上图中反馈结果的评级如何,我们都必须意识到,大数据所涉及的业务流程、技术和专业知识范围都很广泛。正因如此,大数据几乎带来了无限的机遇,但因为天地太过广阔,指望着大有可为的青年们也会觉得有点找不着北。
大数据解决方案的终极目标,是为组织中所有层面的决策者提供更强大、更快速、更全面的洞察力,从而让他们做出更好的决策。
IDC 决策管理框架是一个评估这些机遇的工具。这个框架可以应用到大数据用例上,并能描绘三种决策类型和每种决策类型的四个主要变量,如图所示:
图2 IDC 决策管理框架
战略决策因为其周期长,未知因素多,所以范围最广、风险最高。战略决策的数量相对来说也很少;它们要求内部决策者和外部决策者之间要有较高的协作水平,而且实现自动化的可能性也很低。而另一端的战术决策可能是由一线员工或系统完成的。在一个时间周期内会有很多这种决策,并且所有决策几乎都没什么风险,也易于自动化。这些决定都是在现场,在工作流当中做出的,因此决策过程中发生协作的可能性很小。在IDC 决策管理框架中,运营决策介于两者之间。
每个决策类型相关的人群也不同。运营决策是由业务分析师或定量分析师跟管理层一起做的,战略决策是高管做的,战术决策是一线员工或自动化系统、应用程序或机器做的。某一级决策的输出会变成下一级决策的输入。除了要考虑人员、资金和业务流程之外,理解组织的决策需求是迈向创建业务分析战略的重要一步,而业务分析战略是考虑所有相关技术的根本。
最后,不同的决策类型和决策者可能会要求不同的数据和数据技术支持。这些技术包括数据收集、数据监测、数据管理、数据分析和数据传播等。战术决策通常都是基于对实时数据流的监测,所采取的行动也是遵照预先定义好的规则。运营决策可能需要对海量的多种结构数据进行深入分析。战略决策可能需要对即时系统根据情景所作出的响应进行快速评估,以便能够改善风险管理。
满足所有决策者的需求是一项艰巨的任务,不可能仅凭一种技术或一个项目就可以完成。
决定哪些数据相关是个难题。
2012年初IDC发起的一项调查表明,被提到最多的困难是决定哪些数据相关。IT和业务部门都声称他们需要重新评估组织内部为支持决策过程所评测的数据。很多组织都在重新思考如何分析现有数据和新的数据源,以改变或改善决策支持、决策自动化和绩效管理流程。量化的思想或许会对解决这个难题有所帮助。
此外,技术基础设施的成本,缺乏合适的分析人员和IT人员,缺乏业务支持,或理解不了大数据所能带来的好处,这些挑战都在阻碍着他们抓住智能时代带来的机遇。
这些挑战表明许多大数据应用都缺乏公认的最佳实践。你有数据可以收集、分析,并按分析结果所做的决策采取行动。然而能否实现目标却取决于:
IDC对大数据技术的定义:为了能用经济有效的办法从各式各样的海量数据里提炼价值而开发出来的新技术,包括硬件、软件,和服务。它们能高速地完成数据捕获,发现和分析任务,对符合“4V”特性的数据进行整合、组织、管理、分析和呈现。
4V指数据量(volume), 数据种类(variety),数据产生和处理的速度( velocity), 数据的价值(value)
数据量:大小并不是特别重要
尽管大数据里的“大”暗指数据的量大,但我们必须明白“大”是一个相对的概念。某些行业和组织可能连GB或TB的数据都很少见,而社交网站的数据则动辄就达到了PB或EB的级别。不管怎样,那些看起来不大的应用程序进行信息处理和分析的紧张复杂程度可能完全符合我们对大数据应用的定义。金融服务业就能很好地说明这个问题。在某些大数据处理活动中,所涉及的记录数可能有上百万甚至上亿行,但每条记录的长度可能只有几个字节(比如股票行情信息)。相反,email归档累计起来可能有几个PB的数据,其中包含着高端客户的建议或抱怨,项目的记录,法务记录,合同和提案等各种数据。邮件归档通常能最准确地反映出未决的及当前的业务状况,但只有经过排序和挖掘之后,才能发现其中的价值。产品设计制造也是这样,比如在汽车和航空公司里,要对成百上千个虚拟原型进行评估,以便找出最佳的车辆(飞行器)设计。还有大型科学实验,每天要产生PB级的混合数据,作为复杂的模拟数据输入计算模型中。
数据种类:重要的是数据源和数据格式
多样性是大数据的关键属性。是否从多种数据源对多种格式的数据进行整合,是判断一个应用程序能否被称为大数据应用的决定性条件。
大数据应用通常都会从多个数据源(既有内部数据源,也有外部数据源)抽取类型不同的数据(结构化、半结构化和非结构化)。无论从技术上,还是从潜在影响来看,这都是大数据中很重要的一个方面。对不同类型的信息进行组合是一个复杂的技术难题:一条客户记录跟一条微博哪个比较重要?怎么才能把大量不断变化的病人记录跟公开发表的医疗研究报告和基因组数据结合起来,以便为某个病人找出最佳治疗方案?
把来自于ERP系统的内部运营数据,来自于web日志文件的半结构化数据(识别客户在线行为),以及来自客户评论的非结构化文本情感分析数据混搭在一起就是这种情况。先进的天气/气候模型也属于这种情况,借鉴100多年的天气数据和新的海水行为物理模型,CO水平变化,结合卫星数据进行实时天气状况模拟。
速度:信息到达、分析和交付的速度
组织内部有各种不同的系统,数据移动的速度可以分为批量整合定期加载和实时数据流两种。传统的数据仓库,也是现在使用Hadoop的主流数据处理方法用的就是批量整合、定期加载。而采用实时数据流的技术领域一般包括复杂事件处理(ECP),规则引擎,文本分析和搜索,推理,机器学习和基于事件的架构。
评估大数据速度需求的关键是搞懂业务流程和最终用户的需求。比如说,对于应急响应组织或证券交易公司而言,每一秒(甚至毫秒)产生的数据都很宝贵。还有机场,为了在罪犯进入机场时就能发现,需要进行实时的面部识别。然而作为MapReduce和Hadoop发祥地的搜索引擎,为确定算法的准确性或广告的匹配度时而对十几亿的查询数据进行处理和挖掘时,并不需要实时分析。换句话说,用恰当的时间获取准确度合适的恰当信息才是我们所需要的。
不同的用例适用的技术架构也不同。在架构界流传着一句老话,“只要扔进去足够多的硬件,任何问题都能解决”。业界已经为解决特定问题搭建过大型超级计算机和大规模集群了,这句话的正确性毋庸置疑。
然而现在需要用专门的硬件来满足的高性能需求越来越少了。高可用集群,可扩展的文件系统,多CPU,多核处理器的出现意味着利用现成的商业组件进行组合就能轻松满足性能要求。现在社会化应用甚至大多选择部署在云服务上,根本就不专门考虑硬件。
价值:资金,运营,业务优势一个都不能少
在大数据里谈到价值,既指使用大数据所需技术成本的降低,也指使用大数据创造的价值。成本是大数据问题在智能时代得以解决的决定性因素。在金融服务,电信,零售,研发和政府组织中的大型数据仓库已经存在好多年了。在交易、天气监测或欺诈检测应用里的实时数据管理也存在好多年了。以文本挖掘的形式出现的非结构化内容分析也存在好多年了。用于科学研究的高性能计算系统也存在好多年了。然而自从进入智能时代,那些曾经只有政府机构或某些行业少数几个大公司才负担得起的系统,现在也摆上了“寻常百姓家”的餐桌。更多可用软件的出现和不断降价的硬件,让更多的组织可以在预算中hold住这些大数据技术。
从大数据项目中得到的好处大致可以分为:
大数据所代表的并不是企业范围内单一、同质的需求。然而大多数人并没有认识到这一点,普遍的看法是只有那些要用Hadoop处理的海量数据才是大数据。比如在IDC得到的调查反馈报告中,40%的受访者认为大数据是指海量数据,26%认为是指各种各样的数据,24%认为是指实时流数据,10%认为它是指高性能计算。
大数据技术所呈现出来的机遇持续增长,越来越大。改善现有业务流程和大数据技术有关,推出新业务和大数据技术有关,改变跟客户的交互方式跟大数据技术有关,为了支持范围更加广泛的决策过程,要对为什么分析数据,以及怎么分析数据进行重新评估,这还和大数据技术有关。
哪里有需求,哪里就有市场。大数据解决方案的市场雏形刚具,各路英雄豪杰各显其能,打破了头也想要挤上这趟车,场面一片混乱。对于什么是大数据,以及大数据技术能干什么,无论用户还是供应商,都有诸多误解。
理解这些误解非常重要,不然你很可能会陷入毫无意义的技术对比优劣之争。实际上,对于大多数有一定规模的组织来说,为了对工作负载和应用进行改善,需要多种大数据技术共存。
根据所处理数据的不同,IDC认为大数据技术可以分为两类:处理运动中的大数据,处理空闲期的大数据。
运动的大数据是指快速流动的大量数据,这些数据一经收到就要马上处理。这样的数据包括股票交易数据,智能电表数据,实时库存管理系统中的RFID数据等等。与数据相关的操作可以分为三类。
对于运动中的大数据,在收到之后会对它们进行过滤,并做正规化处理(变成统一的或可读的格式)。这通常是由接收程序完成的。系统会决定是否需要进行响应。这可能会牵涉到一个复杂的事件处理引擎,得到新数据,根据保留的数据(包括来自数据流的缓存数据和保存在快速存储【一般是内存】数据库中的数据)应用新的数据,并确定发生的是否为已定义的事件。如果发生的是已定义的事件,CEP引擎会触发一个动作,也就是程序对该事件的响应。
运动中的大数据对技术的要求是数据接收,格式化和响应的速度能跟上数据到达的速度。相关的技术包括智能高速数据迁移和转换技术,内存数据库和CEP技术。
目前所讨论的大数据大部分是指空闲期的大数据,处于空闲期的大数据包括“机构化”和“非结构化”的数据。后来,很多专家对这些术语提出了异议,指出我们所说的“非结构化”数据实际上也有结构,只是它们的结构不是由范式或程序代码确定的。要处理这个问题,我们可以考虑下表中的分类:
对于空闲期的大数据,相应的技术应该具备尽快采集数据的能力,整理和转换数据的能力,分析数据的能力,还有将数据置于待处理状态的能力,从而可以对它们进行有意义的搜索、挖掘、探索、查询,和产生报告。
NoSQL和SQL数据库技术在大数据中都有重要作用。NoSQL数据库非常善于支持大数据的“多样性”,能够接受来自多种数据源的多种格式的数据,然后程序代码可以对这些数据进行筛选,过滤,和组织。很多Hadoop程序都是这么干的。SQL数据库非常善于处理大量结构一致的数据,可以在这样的数据上产生常规报告、挖掘和重复进行分析。
具备动态扩展能力的RDBMS能处理非常大的数据库,而且作为大数据SQL DBMS能快速处理这种数据库请求。
NoSQL是另一回事。这个随处可见的词实际上是很多种DBMS的统称,每种DBMS都有特殊的用途,而且多种数据库可能会一起出现在同一系统中,作为大数据操作流的有效组成部分。如下表所示:
大数据解决方案的使用范围非常广泛。目前市面上能见到的基本如下图所示:
我们可以从活动、业务流程和行业三个维度来对这些用例进行评估。
活动
并不是所有使用大数据技术的应用都是为了分析数据。有一些是为了部署社交网站或游戏应用,还有一些是为了存储大型内容,提供海量文档的信息访问。
业务流程
大数据技术被部署在商业组织、非盈利组织和政府组织内部以支持他们的工作流程。组织所面临的问题和困难不是大数据挑战,而是受大数据影响的业务或组织问题。部署大数据技术的业务流程有:
除了财务、营销和信息技术管理这样跨行业的业务流程,还有多种特定行业的应用。这样的例子包括:
面对如此广阔的市场前景,提供大数据技术解决方案的供应商既有小型的专业化公司,也有产品线丰富,生态系统完备的大型公司。SAP属于后者。
数据分析咨询请扫描二维码
数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13在现代银行业中,数字化用户行为分析已成为优化产品和服务、提升客户体验和提高业务效率的重要工具。通过全面的数据采集、深入的 ...
2024-11-13在这个数据飞速增长的时代,企业若想在竞争中占据优势,必须充分利用数据分析优化其营销策略。数据不仅有助于理解市场趋势,还可 ...
2024-11-13数据分析行业的就业趋势显示出多个积极的发展方向。随着大数据和人工智能技术的不断进步,数据分析在各行各业中的应用变得越来越 ...
2024-11-13市场数据分析是一门涉及多种技能和工具的学科,对企业在竞争激烈的市场中保持竞争力至关重要。通过数据分析,企业不仅可以了解当 ...
2024-11-13数据分析与数据挖掘是数据科学领域中两个关键的组成部分,它们各有独特的目标、方法和应用场景。尽管它们经常在实际应用中结合使 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13作为一名业务分析师,你肩负着将业务需求转化为技术解决方案的重任。面试这一角色时,涉及的问题多种多样,涵盖技术技能、分析能 ...
2024-11-13自学数据分析可能看似一项艰巨的任务,尤其在开始时。但是,通过一些策略和方法,你可以系统地学习和掌握数据分析的相关知识和技 ...
2024-11-10Excel是数据分析领域中的一款强大工具,它凭借其灵活的功能和易用的界面,成为了许多数据分析师和从业者的首选。无论是简单的数 ...
2024-11-10在快速发展的商业环境中,数据分析能力已经成为许多行业的核心竞争力。无论是初学者还是经验丰富的专家,搭建一个有效的数据分析 ...
2024-11-10在如今的数据驱动世界,数据分析师在各行各业中扮演着至关重要的角色。随着企业越来越依赖数据决策,数据分析职位的需求不断增加 ...
2024-11-10在信息爆炸的时代,做出正确的数据分析方法选择变得尤为重要。这不仅影响到数据分析的准确性,更关系到最终的决策效果。本文将详 ...
2024-11-10