迎接大数据,这里的黎明真热闹(SAP篇)
SAP不久前才收了Sybase,实力充盈了不少。经过几轮收购整合,BI场上的真正玩家越来越少了。不知道那些产品线单一的刺客们还能独行多久。
一个新的时代已然披红挂彩鞭炮齐鸣地揭开了序幕。
信息时代圆满落幕,智能时代破晓而出。宽带通信、智能终端、社交网络、量化分析重新定义了生产商、分销商和消费者之间的关系。数据在容量、种类、速度方面的增长带来了新的挑战,而这挑战中蕴藏着巨大的商机。
信息的获取、分析和管理是智能时代的主要任务。那些还在沉睡的组织,它们可能马上就会被数据压住,然后从噩梦中惊醒,不堪重负,气喘吁吁。而那些天还没亮就行动起来的勤劳小鸟,不仅能抓住数据,还会进化出量化分析能力,并由此做出正确决策,取得竞争优势。在又一次商业大潮来临之际占得先机,有效分配资源,进行可持续、安全的管理,为自己的社区提供更好的产品或服务。
为什么是现在?它有什么新鲜玩意儿?
商业和公共组织要在全业务流程上投资大数据解决方案有各种各样的原因。尽管在各种大数据会议和与大数据相关的文章中最引人注目的是社交网站产生的数据,但经过调查,业务数据分析才是推动组织采用大数据解决方案的根本原因。
图1 使用BI、量化分析和大数据技术主要动力的调查反馈占比
然而,不管上图中反馈结果的评级如何,我们都必须意识到,大数据所涉及的业务流程、技术和专业知识范围都很广泛。正因如此,大数据几乎带来了无限的机遇,但因为天地太过广阔,指望着大有可为的青年们也会觉得有点找不着北。
大数据解决方案的终极目标,是为组织中所有层面的决策者提供更强大、更快速、更全面的洞察力,从而让他们做出更好的决策。
IDC 决策管理框架是一个评估这些机遇的工具。这个框架可以应用到大数据用例上,并能描绘三种决策类型和每种决策类型的四个主要变量,如图所示:
图2 IDC 决策管理框架
战略决策因为其周期长,未知因素多,所以范围最广、风险最高。战略决策的数量相对来说也很少;它们要求内部决策者和外部决策者之间要有较高的协作水平,而且实现自动化的可能性也很低。而另一端的战术决策可能是由一线员工或系统完成的。在一个时间周期内会有很多这种决策,并且所有决策几乎都没什么风险,也易于自动化。这些决定都是在现场,在工作流当中做出的,因此决策过程中发生协作的可能性很小。在IDC 决策管理框架中,运营决策介于两者之间。
每个决策类型相关的人群也不同。运营决策是由业务分析师或定量分析师跟管理层一起做的,战略决策是高管做的,战术决策是一线员工或自动化系统、应用程序或机器做的。某一级决策的输出会变成下一级决策的输入。除了要考虑人员、资金和业务流程之外,理解组织的决策需求是迈向创建业务分析战略的重要一步,而业务分析战略是考虑所有相关技术的根本。
最后,不同的决策类型和决策者可能会要求不同的数据和数据技术支持。这些技术包括数据收集、数据监测、数据管理、数据分析和数据传播等。战术决策通常都是基于对实时数据流的监测,所采取的行动也是遵照预先定义好的规则。运营决策可能需要对海量的多种结构数据进行深入分析。战略决策可能需要对即时系统根据情景所作出的响应进行快速评估,以便能够改善风险管理。
满足所有决策者的需求是一项艰巨的任务,不可能仅凭一种技术或一个项目就可以完成。
决定哪些数据相关是个难题。
2012年初IDC发起的一项调查表明,被提到最多的困难是决定哪些数据相关。IT和业务部门都声称他们需要重新评估组织内部为支持决策过程所评测的数据。很多组织都在重新思考如何分析现有数据和新的数据源,以改变或改善决策支持、决策自动化和绩效管理流程。量化的思想或许会对解决这个难题有所帮助。
此外,技术基础设施的成本,缺乏合适的分析人员和IT人员,缺乏业务支持,或理解不了大数据所能带来的好处,这些挑战都在阻碍着他们抓住智能时代带来的机遇。
这些挑战表明许多大数据应用都缺乏公认的最佳实践。你有数据可以收集、分析,并按分析结果所做的决策采取行动。然而能否实现目标却取决于:
IDC对大数据技术的定义:为了能用经济有效的办法从各式各样的海量数据里提炼价值而开发出来的新技术,包括硬件、软件,和服务。它们能高速地完成数据捕获,发现和分析任务,对符合“4V”特性的数据进行整合、组织、管理、分析和呈现。
4V指数据量(volume), 数据种类(variety),数据产生和处理的速度( velocity), 数据的价值(value)
数据量:大小并不是特别重要
尽管大数据里的“大”暗指数据的量大,但我们必须明白“大”是一个相对的概念。某些行业和组织可能连GB或TB的数据都很少见,而社交网站的数据则动辄就达到了PB或EB的级别。不管怎样,那些看起来不大的应用程序进行信息处理和分析的紧张复杂程度可能完全符合我们对大数据应用的定义。金融服务业就能很好地说明这个问题。在某些大数据处理活动中,所涉及的记录数可能有上百万甚至上亿行,但每条记录的长度可能只有几个字节(比如股票行情信息)。相反,email归档累计起来可能有几个PB的数据,其中包含着高端客户的建议或抱怨,项目的记录,法务记录,合同和提案等各种数据。邮件归档通常能最准确地反映出未决的及当前的业务状况,但只有经过排序和挖掘之后,才能发现其中的价值。产品设计制造也是这样,比如在汽车和航空公司里,要对成百上千个虚拟原型进行评估,以便找出最佳的车辆(飞行器)设计。还有大型科学实验,每天要产生PB级的混合数据,作为复杂的模拟数据输入计算模型中。
数据种类:重要的是数据源和数据格式
多样性是大数据的关键属性。是否从多种数据源对多种格式的数据进行整合,是判断一个应用程序能否被称为大数据应用的决定性条件。
大数据应用通常都会从多个数据源(既有内部数据源,也有外部数据源)抽取类型不同的数据(结构化、半结构化和非结构化)。无论从技术上,还是从潜在影响来看,这都是大数据中很重要的一个方面。对不同类型的信息进行组合是一个复杂的技术难题:一条客户记录跟一条微博哪个比较重要?怎么才能把大量不断变化的病人记录跟公开发表的医疗研究报告和基因组数据结合起来,以便为某个病人找出最佳治疗方案?
把来自于ERP系统的内部运营数据,来自于web日志文件的半结构化数据(识别客户在线行为),以及来自客户评论的非结构化文本情感分析数据混搭在一起就是这种情况。先进的天气/气候模型也属于这种情况,借鉴100多年的天气数据和新的海水行为物理模型,CO水平变化,结合卫星数据进行实时天气状况模拟。
速度:信息到达、分析和交付的速度
组织内部有各种不同的系统,数据移动的速度可以分为批量整合定期加载和实时数据流两种。传统的数据仓库,也是现在使用Hadoop的主流数据处理方法用的就是批量整合、定期加载。而采用实时数据流的技术领域一般包括复杂事件处理(ECP),规则引擎,文本分析和搜索,推理,机器学习和基于事件的架构。
评估大数据速度需求的关键是搞懂业务流程和最终用户的需求。比如说,对于应急响应组织或证券交易公司而言,每一秒(甚至毫秒)产生的数据都很宝贵。还有机场,为了在罪犯进入机场时就能发现,需要进行实时的面部识别。然而作为MapReduce和Hadoop发祥地的搜索引擎,为确定算法的准确性或广告的匹配度时而对十几亿的查询数据进行处理和挖掘时,并不需要实时分析。换句话说,用恰当的时间获取准确度合适的恰当信息才是我们所需要的。
不同的用例适用的技术架构也不同。在架构界流传着一句老话,“只要扔进去足够多的硬件,任何问题都能解决”。业界已经为解决特定问题搭建过大型超级计算机和大规模集群了,这句话的正确性毋庸置疑。
然而现在需要用专门的硬件来满足的高性能需求越来越少了。高可用集群,可扩展的文件系统,多CPU,多核处理器的出现意味着利用现成的商业组件进行组合就能轻松满足性能要求。现在社会化应用甚至大多选择部署在云服务上,根本就不专门考虑硬件。
价值:资金,运营,业务优势一个都不能少
在大数据里谈到价值,既指使用大数据所需技术成本的降低,也指使用大数据创造的价值。成本是大数据问题在智能时代得以解决的决定性因素。在金融服务,电信,零售,研发和政府组织中的大型数据仓库已经存在好多年了。在交易、天气监测或欺诈检测应用里的实时数据管理也存在好多年了。以文本挖掘的形式出现的非结构化内容分析也存在好多年了。用于科学研究的高性能计算系统也存在好多年了。然而自从进入智能时代,那些曾经只有政府机构或某些行业少数几个大公司才负担得起的系统,现在也摆上了“寻常百姓家”的餐桌。更多可用软件的出现和不断降价的硬件,让更多的组织可以在预算中hold住这些大数据技术。
从大数据项目中得到的好处大致可以分为:
大数据所代表的并不是企业范围内单一、同质的需求。然而大多数人并没有认识到这一点,普遍的看法是只有那些要用Hadoop处理的海量数据才是大数据。比如在IDC得到的调查反馈报告中,40%的受访者认为大数据是指海量数据,26%认为是指各种各样的数据,24%认为是指实时流数据,10%认为它是指高性能计算。
大数据技术所呈现出来的机遇持续增长,越来越大。改善现有业务流程和大数据技术有关,推出新业务和大数据技术有关,改变跟客户的交互方式跟大数据技术有关,为了支持范围更加广泛的决策过程,要对为什么分析数据,以及怎么分析数据进行重新评估,这还和大数据技术有关。
哪里有需求,哪里就有市场。大数据解决方案的市场雏形刚具,各路英雄豪杰各显其能,打破了头也想要挤上这趟车,场面一片混乱。对于什么是大数据,以及大数据技术能干什么,无论用户还是供应商,都有诸多误解。
理解这些误解非常重要,不然你很可能会陷入毫无意义的技术对比优劣之争。实际上,对于大多数有一定规模的组织来说,为了对工作负载和应用进行改善,需要多种大数据技术共存。
根据所处理数据的不同,IDC认为大数据技术可以分为两类:处理运动中的大数据,处理空闲期的大数据。
运动的大数据是指快速流动的大量数据,这些数据一经收到就要马上处理。这样的数据包括股票交易数据,智能电表数据,实时库存管理系统中的RFID数据等等。与数据相关的操作可以分为三类。
对于运动中的大数据,在收到之后会对它们进行过滤,并做正规化处理(变成统一的或可读的格式)。这通常是由接收程序完成的。系统会决定是否需要进行响应。这可能会牵涉到一个复杂的事件处理引擎,得到新数据,根据保留的数据(包括来自数据流的缓存数据和保存在快速存储【一般是内存】数据库中的数据)应用新的数据,并确定发生的是否为已定义的事件。如果发生的是已定义的事件,CEP引擎会触发一个动作,也就是程序对该事件的响应。
运动中的大数据对技术的要求是数据接收,格式化和响应的速度能跟上数据到达的速度。相关的技术包括智能高速数据迁移和转换技术,内存数据库和CEP技术。
目前所讨论的大数据大部分是指空闲期的大数据,处于空闲期的大数据包括“机构化”和“非结构化”的数据。后来,很多专家对这些术语提出了异议,指出我们所说的“非结构化”数据实际上也有结构,只是它们的结构不是由范式或程序代码确定的。要处理这个问题,我们可以考虑下表中的分类:
对于空闲期的大数据,相应的技术应该具备尽快采集数据的能力,整理和转换数据的能力,分析数据的能力,还有将数据置于待处理状态的能力,从而可以对它们进行有意义的搜索、挖掘、探索、查询,和产生报告。
NoSQL和SQL数据库技术在大数据中都有重要作用。NoSQL数据库非常善于支持大数据的“多样性”,能够接受来自多种数据源的多种格式的数据,然后程序代码可以对这些数据进行筛选,过滤,和组织。很多Hadoop程序都是这么干的。SQL数据库非常善于处理大量结构一致的数据,可以在这样的数据上产生常规报告、挖掘和重复进行分析。
具备动态扩展能力的RDBMS能处理非常大的数据库,而且作为大数据SQL DBMS能快速处理这种数据库请求。
NoSQL是另一回事。这个随处可见的词实际上是很多种DBMS的统称,每种DBMS都有特殊的用途,而且多种数据库可能会一起出现在同一系统中,作为大数据操作流的有效组成部分。如下表所示:
大数据解决方案的使用范围非常广泛。目前市面上能见到的基本如下图所示:
我们可以从活动、业务流程和行业三个维度来对这些用例进行评估。
活动
并不是所有使用大数据技术的应用都是为了分析数据。有一些是为了部署社交网站或游戏应用,还有一些是为了存储大型内容,提供海量文档的信息访问。
业务流程
大数据技术被部署在商业组织、非盈利组织和政府组织内部以支持他们的工作流程。组织所面临的问题和困难不是大数据挑战,而是受大数据影响的业务或组织问题。部署大数据技术的业务流程有:
除了财务、营销和信息技术管理这样跨行业的业务流程,还有多种特定行业的应用。这样的例子包括:
面对如此广阔的市场前景,提供大数据技术解决方案的供应商既有小型的专业化公司,也有产品线丰富,生态系统完备的大型公司。SAP属于后者。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 7 Pandas分组聚合 分组聚合(group by)顾名思义就是分2步: 先分组:根据某列数据的值进行 ...
2024-11-25数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21