为什么数据管理工作很难成功
大数据时代的到来,大家开始将数据当成资产,数据管理的意义也越来越大,但很多企业的数据管理工作,都难言成功,为什么?首先来看下数据管理的定义:
数据管理,即对数据资源的管理。按照DAMA的定义:“数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序”。这是一个高层而包含广泛的定义,而并不一定直接涉及数据管理的具体操作(摘自维基百科)。
与百度百科的定义比较,百度百科的定义针对的是数据应用过程中数据的管理,即传统的数据管理。定义强调了数据管理的手段,但数据管理的最终目的是什么呢?虽然当前如DAMA等的数据管理书不少,但考虑到数据管理体系太过庞大,看这类书往往如盲人摸象,抓不到头绪。
笔者刚接触数据管理的时候,也是云里雾里,本文纯粹是个人的一点实践和主观看法,没有高大上的东西,视野也比较狭隘,算是抛砖引玉,实际上,每个企业都应该建立适合自己的数据管理体系。
首先,为什么要做数据管理?
个人认为,数据管理的目的就是让数据变现高效低成本的运作,正如企业管理一样,因此,没想清楚之前,不要盲目开展一个数据管理项目,更不要盲目采购数据管理产品,首先得问问,做这个事情,能带来什么价值?
那么,何谓高效低成本运作?
首先,要认识到每个数据的实际价值,即哪些核心业务与这些数据,这是定方向,其次,安排好数据优先级,确保正常出数,最后,淘汰过时和无用的数据,即以最小的代价带给业务最大的价值。
这个认识很重要,记得笔者刚开始做元数据管理的时候,是很盲目的,主要致力于工具的考虑,而未深究做事的本质,导致做了大量性价比很低的事情,比如总想着如何进一步提升SQL解析能力,将其作为系统成功的第一要务,但这个真的是最重要的吗?数据管理,不是为了管理而管理,没有明确的目的,就不要开展数据管理工作。很多人谈到数据管理这类基础工作很难开展,比如领导不理解,做事没成效,原因往往是自己都说不清楚缘由,这为数据管理工作的失败埋下了祸根。
但有了目的和方向还不够。
搞数据的,做事量化是根本,无数据,不管理,数据管理工作,也需要用数据来决策。
以下举例:
数据模型的应用价值KPI-比如模型提供了哪些间接收入,规则可以自己定,但指标要能反映模型对于应用的支撑能力
数据模型的提供能力KPI-比如模型及时正常出数的情况,要能反映模型的及时率及正确率,是衡量运营能力的一组标准
数据模型的优胜劣汰KPI-比如关注投资效益比,要关注数据的生命周期管理,投资当然需要,但也要懂得节省,该转移或删除的数据,就要坚决的执行,一张每天10万数据的临时小表,一年就是3千多万,如果有100张,那也是不小的投资,家里有余粮,也不能滥用。
明确了目标和衡量指标,接下来就要制定一系列的规范和制度,所谓无规矩不成方圆。
数据管理规章制定很难,在起步的时候,不要东订一个,西订一个,最好的建制方式是围绕目标边制定边实践,没有最好的制度,只有适合自己的。
下面先做一个衡量数据管理能力的评估题目,注意回答不要泛泛而谈,一要量化,二要靠机器回答,三要半小时内回答。
能否直接给出每张表对于数据变现的价值?或假如这张表不出,会带来多少潜在损失?(虚拟指标都可以)。
能否直接给出每张表的运行质量报告?能否根据优先级给出运行优化的具体建议?
哪些表能直接下线?
你会发现,要能回答这些问题,不仅仅是建个数据管理系统那么简单,需要制定对应的数据管理的规范和标准。
如果需要知道每张表对于数据变现的价值,必须有应用跟表的关系,因此,开发上线的时候必须制定规范,起码要提交映射关系,同时为了防止两张皮现象,必须依赖自动化的系统。
如果需要知道每张表的数据质量报告,必须制定相关的质量指标,并能够及时预警和处理,这个需要一套数据质量监控制度。
如果需要确定哪些表能直接下线,必须制定一套数据表生命周期管理制度,需要有表的比如血缘和影响分析,否则怎么知道有多大影响?
如果要让运维人员知道这些表谁是谁,则必须有好的数据字典,明确表命名规范和口径定义,以降低管理成本。
如果….
你看,所有的数据管理规章制度其实都是为了确保目的达成,由此会延伸出一个庞大的数据管理体系,但还是要懂得能抓住本质。因为
开始,不可能想到这么多,能做这么多,需从本源开始思考从何入手。
以下是XX公司制定的相关数据管理规范。
说完制度,接下来就提到数据管理工具了。
它是数据管理规范贯彻落地的强大保障,当前工具越来越重要,笔者的一个经验是,数据管理领域,很难靠人肉保障,大多不靠谱且不可持续,如果面对大数据,更加难以管理成功。
谈一个亲身的经历,曾经上线了一个ETL产品,然后项目经理告诉一切运行OK,然后我说每个接口的运行报告给一个看看,项目经理说报表拿不出来,因为产品没有这个统计功能,人肉看了几个大致没问题,然后全量核查发现,30%的接口有一致性问题,就是因为当时现场少了一个系统统计功能。
另数据管理的可视化其实也很重要,ETL任务多达上千个,因此,快速判断任务是否运行成功很重要,以前,管理者拿到的是运维者的报告,但里面可能是有水分的,某天我们做了运维可视化,发现运行情况远没有报告所称的那么理想,任务大量失败而挂起,运维疲于奔命去处理问题,而后提交一个完美的报告,而管理者还以为一切OK,冰山下隐藏的问题,远远超过管理者看到的冰山一角。
当前数据管理的产品不少,但很多其实难以达到要求,原因很简单,数据管理工具太靠近上游,越靠近用户的产品其实越难做抽象,也越难成功。比如一些元数据管理工具,很难解决产品中的元数据跟生产系统元数据两张皮的现象。
因此,笔者更倾向于采用半定制化的产品的,甚至认为,数据管理产品是偏垂直行业的,阿里以前发布了“数加”大数据系列产品,但其数据管理产品很难作为单独实体获得成功,只能平台捆绑。
怎么才算是好的数据管理工具呢?
个人认为是能够将数据管理能力渗透到数据生产流程中去。
比如以前生产建表,是开发人员写代码建表,虽然建表有规范,但开发人员是否执行是另外一回事,而且建表注释写得乱七八糟,往往需要靠事后稽核,但大家都知道这很不靠谱,现在,我提供一个可视化开发界面,将建表规范作为规则纳入系统,强制要求开发人员在该界面上建表,只要不符合规范就予以拒绝,比如注释缺乏,未有分区键,字段定义长度不符,字段命名不符等等。
如果有可能,将所有的数据管理规范提炼成规则,都纳入到系统中强制执行,数据管理就能实现与生产系统的无缝衔接,数据管理成为生产的一部分。
前面提到的很多元数据管理等工具之所以难以成功,往往因为它是一个外挂系统,所有的信息需要事后喂给它,而不是强制的,导致与生产系统变得越来越不一致从而失去信任直至死亡。
有人会质疑这对于数据管理平台要求太高,对于开发约束太多,存量改造太困难,的确,这些都是问题,数据管理本来就是个难度极高的工作,不做当然也可以,反正也能活,最多运维质量低一点,人肉多一点。
但如果希望更进一步,就需要付出代价,近和远,长痛还是短痛,还是需要依据企业的实际情况自己作出选择。
数据管理工具是种辅助手段,是否采用,采用哪种,都依赖于企业基于性价比去做选择。
接下来,提一个关键的一点,即管理者的态度。
数据管理是个系统工程,你去看DAMA,DIMM等内容,都将其上升到企业战略这个层面去谈,但企业即使有了数据战略又如何,再好的规划也赶不上变化。
管理者始终关注的是效益,数据管理也不例外,因此,说服管理者,也应该坚持“效益导向,能力建设”的原则,坚持向数据要收益,比如一个企业,垃圾数据和冗余数据占据了很多空间,做好这类管理可以省一大笔钱,核查问题也一样,原来看文档抓人,现在查系统,哪个更有效?现在IT企业人来人往,没个知识库,系统重翻或新人培养,代价有多大大家都清楚的很。
数据管理也涉及企业很多流程的再造和新机制的建立,比如规范开发流程,影响也是全方面的,必须获得管理者的支持,否则举步维艰。
最后,还是要提一下人。
这个是最最重要的是,数据管理是个专业化的工作,需要专门的人沉下心去做这个事,不要搞什么兼职(估计是常态吧),那也是扯淡的事情,一个数据管理项目的失败,往往是自己投入不足,坚持不足所致。
人才始终是数据管理的第一要务。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06在备考 CDA 考试的漫漫征途上,拥有一套契合考试大纲的优质模拟题库,其重要性不言而喻。它恰似黑夜里熠熠生辉的启明星,为每一 ...
2025-03-05“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关 ...
2025-03-04