数据仓库成熟度模型
我们中的许多人都曾经多年从事数据仓库管理工作。有些人做出了战略性的系统,让用户和企业高管十分满意。有些人则在为维持企业持续投入支持数据仓库项目挣扎,同时他的用户却在拼命要求更好更准确的信息。
怎样才能有个成功的解决方案?你的数据仓库方案跟同行业中的公司相比如何?怎样才能将你的解决方案提升一个层次?
今天又很多数据仓库项目经理都在问以上的问题。不幸的是,没有一个容易的解答。TDWI开发了一个数据仓库成熟度模型,以供参照。这个模型提供了一个便捷的方式来衡量你的数据仓库解决方案,现在在哪,下一步该怎么做。
数据仓库成熟度模型
图1:商业价值随着各个阶段上升。大多数的组织如今处于儿童和少年阶段。
六个阶段
该模型由六个阶段组成:孕育期,婴儿期,儿童期,少年期,成人期,长者期。商业价值随着模型中的各个阶段而增长(图1)。
这些阶段的划分是依据一系列的特性,包括系统范畴,分析结构,管理层观念,分析类型,领导力,投入,技术平台,变革管理,日常维护。本文将围绕其中一些特性展开。组织在成长过程中会同时呈现出不同阶段的特性,并不是清晰的从一个阶段迈向下一个阶段。
在数据仓库/商业智能的发展过程中,有两个关键点,在本模型中称为“海湾”和“鸿沟”。许多企业的项目就卡在这两个点上。他们一脚踩在过去,一脚踏入未来,无法完成飞跃。正因如此,这些企业从未完全进入下一个阶段并从中受益。
要克服这些障碍,最重要的是要改变管理层的观念。要跨越“海湾”,管理层必须认识到 DW/BI 不仅仅是报表系统,并且企业的效率正在被那些他们原来赖以生存的表格和桌面数据所拖累。更为困难的是跨越“鸿沟”,这要求管理层必须意识到 DW/BI 是一个对于整个企业都至关重要的资源,而不仅仅是IT部门。
接下来简要的介绍每个阶段和其特性。
1. 孕育期
管理层报表工具
大多数的组织都有报表系统,制作,打印一堆标准报表,并定期分发给员工,常常是每周、每月、每季度。这些报表的数据来自散乱的数据源(或者是事务性的数据源),IT部门无法快速响应特殊的报表需求。这样,IT部门常常落得骂名,而着急要数据信息的用户常常感到无助。这样的问题在专门为高管分析数据的人员和高级用户身上显得尤为无法忍受。他们只好绕过IT而自己动手,把数据放入Excel中或桌面数据库中,来解决自己的问题。这样就到了下一个阶段。
2. 婴儿期
Spreadmarts
Spreadmarts 是指用Excel表格或桌面数据库来完成 data marts 的功能。每个Spreadmarts包含一系列单独的数据,标准,规则。Spreadmarts之间相互不统一,和报表、分析系统之间也不统一。但是,由于Spreadmarts方便,简单,它无处不在,几乎所有的组织都有大量的Spreadmarts。
Spreadmarts 让组织(或者CEO)无法得到一个清晰、统一的数据全貌。但是,要完全消除Spreadmarts也十分困难,因为它确实很方便,有效。这样,企业面临着一个难以跨越的“海湾”。事实上,Spreadmarts的用户在企业达到最后的两个阶段之前,在数据分析上会牺牲掉很大的自由度,直到新的开发流程和分析服务把本地和企业数据整合在一起。(见图2)。
数据仓库成熟度模型
图2. Spreadmarts 很难消除,因为使用方便,自由。只有在企业到达了最后两个阶段时,本地控制和整个组织的数据才能有效的整合在一起。
3. 儿童期
Data Marts
在儿童期,各部门意识到必须让所有的人员得到及时有效的信息,而不仅仅是高管和分析人员。
Data mart 是指一个共享的分析结构,支持一个单独的应用程序,业务流程或者部门。各部门的人员搜集本部门的需求并以此对data mart进行裁剪,用来满足本部门的需求。接下来,本部门的人员可以使用交互的报表工具(比如,OLAP,交互查询工具,参数化报表等)。这些工具让一般员工更加深入的了解他们的工作流程和相关信息。
但是data marts也有和spreadmarts相似的问题。每个data mart只负责支持本部门的数据,它能很好的满足本部门的需求,但是如果有跨部门的分析需求时,它就显得力不从心了。这里需要的是一种既能够把data marts整合在一起,同时又不会降低本地自由度的机制。这就到了下一个阶段。
4. 少年期
在创建了几个data marts之后,大多数的部门会意识到,他们需要把一些数据定义、规则、维度标准化,以防止将来的数据整合噩梦。在data marts标准化方面,大体上有两种可供选择的方向:中心化或者非中心化,并有8种策略可供选择。其中最常见的策略是创建一个中心数据仓库和一些相互依赖的运行在和数据仓库同一个数据库之上的data marts。这种类型被称为星型结构数据仓库。
交互式的报表和分析。有别于单一目的的data marts,数据仓库支持更深层次的分析。这是因为用户可以运行跨部门的查询,比如财务和运营部门,并从中得到更为有用的信息。
为了更好的监控企业中跨部门的流程和企业的价值链,企业部署了仪表盘程序。仪表盘程序支持的功能包括:报警,向下钻取到更为细节的报表,从非数据仓库的系统中提取数据进行查询,更为及时的数据获取。这样的仪表盘程序的价值在于,它让企业中更多的人从商务智能中受益,而不仅仅是少数的高级用户。这样,在决策层的眼里,DW/BI可以提高企业的效率,让更多的用户获得信息,并在这些信息基础上做出决定,而不是拍脑袋做决定。
5. 成人期
企业级数据仓库(EDW)
尽管数据仓库带来许多好处,但是仍无法完全解决数据一致性的问题。或者是因为内部开发,或者是因为企业并购,当今许多企业有不止一个数据仓库。就像Spreadmarts和独立的data marts一样,这些数据仓库中的数据可能有重合甚至冲突。这给企业内部信息和流程管理带来麻烦。
整合数据。在成人期,企业强调唯一的可靠的数据来源,用以反映事实。决策层把数据看得和员工、设备、现金一样重要,都是企业的宝贵财富。企业选择一个数据仓库或者从头创建一个新的企业级数据仓库。然后数据被从不同的数据源整合进入这个企业级数据仓库中。但是,如果有一个足够灵活的商务智能层,那么这个“把数据整合进企业级数据仓库”的过程可以省略,而是让商务智能工具直接从企业级数据仓库和外部数据中提取数据。这样的好处是,有些外部数据是无法放入数据仓库的(比如实时数据或者Web数据)。对于一些把收购作为企业发展策略之一的企业来说,企业级数据仓库和商务智能工具被作为整合被收购企业数据的主要手段。
管理者和记分员。在成人期,企业级数据仓库作为企业内战略性的资源,用于整合数据来支持一些驱动业务的关键应用程序。为了管理这个重要资源,决策层要建立完善的管理机制,分配业务人员负责重要的数据,并在企业内的各个层次分配人员监督指导数据仓库的开发和扩展。在数据分析方面,企业安排“记分员”监控业务流程,确保这些流程和整个企业战略是吻合的。为了达到企业的战略目标,“记分员”需要常常调整仪表盘程序、现有的标准和优先级、预算等。
投资回报率。在成人期,数据仓库带来的价值开始超过对其的投资了,尤其是在规模经济和快速开发上(见图3)。而且,这时候用户开始发现数据仓库的新的用途,这些用途甚至当时的开发人员都没有预料到,这又进一步提高了投资回报率。
数据仓库成熟度模型
图3. 在第4、5个阶段,数据仓库的回报开始超过对其的投资
6. 长者期
商务智能服务
一旦数据仓库变成战略性的企业资源并且和关键应用程序一起驱动整个业务,你的工作就基本做完了。当然,在此基础上,还可以向外和向下扩展来提高数据仓库的战略价值。
交互式外联网。当今有许多公司已经向其客户和供应商开放了自己的数据仓库—把价值链扩张到企业外部并寻求新的商机。下一代的外联网应用程序不仅仅提供静态的账户报表,而是会给它们的客户和供应商提供简单易用而又功能强大的交互报表工具,以便做出一些业绩横向、纵向比较。有些公司,比如Owens & Minor,已经设立了新的部门,专门出售数据仓库和信息分析服务,这改变了这个产业。
Web服务。同时,企业级数据仓库开发团队正在把分析数据和商务智能功能包装成web服务,这样内部和外部的开发人员在获得授权的前提下可以使用这些web服务。BI服务的出现,让数据仓库和其相应的应用程序可以被嵌入任何应用程序,这样用户再也不用为了分析数据和去切换当前应用程序。用户需要的数据,信息将被嵌入他们日常使用的应用程序中。
决策引擎。BI服务同时也让企业充分利用在统计分析和建模上的投资。企业将统计模型转化为“决策引擎”并嵌入应用程序。用户可将信息输入引擎然后得到引擎的建议,完全不需要统计学背景。当今,决策引擎已经是一些功能强大应用程序的基础,包括欺诈检测,网页个性化,自动贷款批准程序等。
一旦你的数据仓库进入了长者期,它的价值将指数级增长,而用户将渐渐感觉不到它的存在。作为BI服务,数据仓库和分析服务器退居幕后,变为基础设施的一部分。如果它不出问题,你甚至察觉不到它的存在。在社会发展过程中,我们接受了无数的服务,例如电力,污水处理,交通,等等。BI服务也将成为下一个这样的服务。
结论
不论你是否已经达到了“长者期”的特性,或者你还在努力从婴儿期向少年期跨越,这个成熟度模型都能给你一些参考。它让你了解你现在处于哪个阶段,下一个阶段在哪,并且在嘈杂的环境中保持冷静理智。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29持证人简介 郭畅,CDA数据分析师二级持证人,安徽大学毕业,目前就职于徽商银行总行大数据部,两年工作经验,主要参与两项跨部 ...
2025-01-282025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22