数据仓库成熟度模型
我们中的许多人都曾经多年从事数据仓库管理工作。有些人做出了战略性的系统,让用户和企业高管十分满意。有些人则在为维持企业持续投入支持数据仓库项目挣扎,同时他的用户却在拼命要求更好更准确的信息。
怎样才能有个成功的解决方案?你的数据仓库方案跟同行业中的公司相比如何?怎样才能将你的解决方案提升一个层次?
今天又很多数据仓库项目经理都在问以上的问题。不幸的是,没有一个容易的解答。TDWI开发了一个数据仓库成熟度模型,以供参照。这个模型提供了一个便捷的方式来衡量你的数据仓库解决方案,现在在哪,下一步该怎么做。
数据仓库成熟度模型
图1:商业价值随着各个阶段上升。大多数的组织如今处于儿童和少年阶段。
六个阶段
该模型由六个阶段组成:孕育期,婴儿期,儿童期,少年期,成人期,长者期。商业价值随着模型中的各个阶段而增长(图1)。
这些阶段的划分是依据一系列的特性,包括系统范畴,分析结构,管理层观念,分析类型,领导力,投入,技术平台,变革管理,日常维护。本文将围绕其中一些特性展开。组织在成长过程中会同时呈现出不同阶段的特性,并不是清晰的从一个阶段迈向下一个阶段。
在数据仓库/商业智能的发展过程中,有两个关键点,在本模型中称为“海湾”和“鸿沟”。许多企业的项目就卡在这两个点上。他们一脚踩在过去,一脚踏入未来,无法完成飞跃。正因如此,这些企业从未完全进入下一个阶段并从中受益。
要克服这些障碍,最重要的是要改变管理层的观念。要跨越“海湾”,管理层必须认识到 DW/BI 不仅仅是报表系统,并且企业的效率正在被那些他们原来赖以生存的表格和桌面数据所拖累。更为困难的是跨越“鸿沟”,这要求管理层必须意识到 DW/BI 是一个对于整个企业都至关重要的资源,而不仅仅是IT部门。
接下来简要的介绍每个阶段和其特性。
1. 孕育期
管理层报表工具
大多数的组织都有报表系统,制作,打印一堆标准报表,并定期分发给员工,常常是每周、每月、每季度。这些报表的数据来自散乱的数据源(或者是事务性的数据源),IT部门无法快速响应特殊的报表需求。这样,IT部门常常落得骂名,而着急要数据信息的用户常常感到无助。这样的问题在专门为高管分析数据的人员和高级用户身上显得尤为无法忍受。他们只好绕过IT而自己动手,把数据放入Excel中或桌面数据库中,来解决自己的问题。这样就到了下一个阶段。
2. 婴儿期
Spreadmarts
Spreadmarts 是指用Excel表格或桌面数据库来完成 data marts 的功能。每个Spreadmarts包含一系列单独的数据,标准,规则。Spreadmarts之间相互不统一,和报表、分析系统之间也不统一。但是,由于Spreadmarts方便,简单,它无处不在,几乎所有的组织都有大量的Spreadmarts。
Spreadmarts 让组织(或者CEO)无法得到一个清晰、统一的数据全貌。但是,要完全消除Spreadmarts也十分困难,因为它确实很方便,有效。这样,企业面临着一个难以跨越的“海湾”。事实上,Spreadmarts的用户在企业达到最后的两个阶段之前,在数据分析上会牺牲掉很大的自由度,直到新的开发流程和分析服务把本地和企业数据整合在一起。(见图2)。
数据仓库成熟度模型
图2. Spreadmarts 很难消除,因为使用方便,自由。只有在企业到达了最后两个阶段时,本地控制和整个组织的数据才能有效的整合在一起。
3. 儿童期
Data Marts
在儿童期,各部门意识到必须让所有的人员得到及时有效的信息,而不仅仅是高管和分析人员。
Data mart 是指一个共享的分析结构,支持一个单独的应用程序,业务流程或者部门。各部门的人员搜集本部门的需求并以此对data mart进行裁剪,用来满足本部门的需求。接下来,本部门的人员可以使用交互的报表工具(比如,OLAP,交互查询工具,参数化报表等)。这些工具让一般员工更加深入的了解他们的工作流程和相关信息。
但是data marts也有和spreadmarts相似的问题。每个data mart只负责支持本部门的数据,它能很好的满足本部门的需求,但是如果有跨部门的分析需求时,它就显得力不从心了。这里需要的是一种既能够把data marts整合在一起,同时又不会降低本地自由度的机制。这就到了下一个阶段。
4. 少年期
在创建了几个data marts之后,大多数的部门会意识到,他们需要把一些数据定义、规则、维度标准化,以防止将来的数据整合噩梦。在data marts标准化方面,大体上有两种可供选择的方向:中心化或者非中心化,并有8种策略可供选择。其中最常见的策略是创建一个中心数据仓库和一些相互依赖的运行在和数据仓库同一个数据库之上的data marts。这种类型被称为星型结构数据仓库。
交互式的报表和分析。有别于单一目的的data marts,数据仓库支持更深层次的分析。这是因为用户可以运行跨部门的查询,比如财务和运营部门,并从中得到更为有用的信息。
为了更好的监控企业中跨部门的流程和企业的价值链,企业部署了仪表盘程序。仪表盘程序支持的功能包括:报警,向下钻取到更为细节的报表,从非数据仓库的系统中提取数据进行查询,更为及时的数据获取。这样的仪表盘程序的价值在于,它让企业中更多的人从商务智能中受益,而不仅仅是少数的高级用户。这样,在决策层的眼里,DW/BI可以提高企业的效率,让更多的用户获得信息,并在这些信息基础上做出决定,而不是拍脑袋做决定。
5. 成人期
企业级数据仓库(EDW)
尽管数据仓库带来许多好处,但是仍无法完全解决数据一致性的问题。或者是因为内部开发,或者是因为企业并购,当今许多企业有不止一个数据仓库。就像Spreadmarts和独立的data marts一样,这些数据仓库中的数据可能有重合甚至冲突。这给企业内部信息和流程管理带来麻烦。
整合数据。在成人期,企业强调唯一的可靠的数据来源,用以反映事实。决策层把数据看得和员工、设备、现金一样重要,都是企业的宝贵财富。企业选择一个数据仓库或者从头创建一个新的企业级数据仓库。然后数据被从不同的数据源整合进入这个企业级数据仓库中。但是,如果有一个足够灵活的商务智能层,那么这个“把数据整合进企业级数据仓库”的过程可以省略,而是让商务智能工具直接从企业级数据仓库和外部数据中提取数据。这样的好处是,有些外部数据是无法放入数据仓库的(比如实时数据或者Web数据)。对于一些把收购作为企业发展策略之一的企业来说,企业级数据仓库和商务智能工具被作为整合被收购企业数据的主要手段。
管理者和记分员。在成人期,企业级数据仓库作为企业内战略性的资源,用于整合数据来支持一些驱动业务的关键应用程序。为了管理这个重要资源,决策层要建立完善的管理机制,分配业务人员负责重要的数据,并在企业内的各个层次分配人员监督指导数据仓库的开发和扩展。在数据分析方面,企业安排“记分员”监控业务流程,确保这些流程和整个企业战略是吻合的。为了达到企业的战略目标,“记分员”需要常常调整仪表盘程序、现有的标准和优先级、预算等。
投资回报率。在成人期,数据仓库带来的价值开始超过对其的投资了,尤其是在规模经济和快速开发上(见图3)。而且,这时候用户开始发现数据仓库的新的用途,这些用途甚至当时的开发人员都没有预料到,这又进一步提高了投资回报率。
数据仓库成熟度模型
图3. 在第4、5个阶段,数据仓库的回报开始超过对其的投资
6. 长者期
商务智能服务
一旦数据仓库变成战略性的企业资源并且和关键应用程序一起驱动整个业务,你的工作就基本做完了。当然,在此基础上,还可以向外和向下扩展来提高数据仓库的战略价值。
交互式外联网。当今有许多公司已经向其客户和供应商开放了自己的数据仓库—把价值链扩张到企业外部并寻求新的商机。下一代的外联网应用程序不仅仅提供静态的账户报表,而是会给它们的客户和供应商提供简单易用而又功能强大的交互报表工具,以便做出一些业绩横向、纵向比较。有些公司,比如Owens & Minor,已经设立了新的部门,专门出售数据仓库和信息分析服务,这改变了这个产业。
Web服务。同时,企业级数据仓库开发团队正在把分析数据和商务智能功能包装成web服务,这样内部和外部的开发人员在获得授权的前提下可以使用这些web服务。BI服务的出现,让数据仓库和其相应的应用程序可以被嵌入任何应用程序,这样用户再也不用为了分析数据和去切换当前应用程序。用户需要的数据,信息将被嵌入他们日常使用的应用程序中。
决策引擎。BI服务同时也让企业充分利用在统计分析和建模上的投资。企业将统计模型转化为“决策引擎”并嵌入应用程序。用户可将信息输入引擎然后得到引擎的建议,完全不需要统计学背景。当今,决策引擎已经是一些功能强大应用程序的基础,包括欺诈检测,网页个性化,自动贷款批准程序等。
一旦你的数据仓库进入了长者期,它的价值将指数级增长,而用户将渐渐感觉不到它的存在。作为BI服务,数据仓库和分析服务器退居幕后,变为基础设施的一部分。如果它不出问题,你甚至察觉不到它的存在。在社会发展过程中,我们接受了无数的服务,例如电力,污水处理,交通,等等。BI服务也将成为下一个这样的服务。
结论
不论你是否已经达到了“长者期”的特性,或者你还在努力从婴儿期向少年期跨越,这个成熟度模型都能给你一些参考。它让你了解你现在处于哪个阶段,下一个阶段在哪,并且在嘈杂的环境中保持冷静理智。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13