大数据时代,数据管理的12条铁则
在大数据的时代,大家都在重视数据存储和一系列大数据相关技术,但是很多人忽略了数据是需要管理的,没有经过管理的数据,只能叫数据,而不能成为信息,无法真正体现出其内在价值。
懂数据技术再加上知道数据该怎么管理,那么很可能就是CDO了。
我今天就来给大家讲讲如何更有效地管理数据,先举个小例子:管家还是机器人?
1管家还是机器人?
假设你有一天回到家,看到家里非常脏乱,但是工作了一天的你不想自己动手打扫房间,所以你打算花钱请个管家。
但是管家告诉你,我自己没办法帮你打扫,我有一个办公室,里面有男清洁工和女清洁工,你需要先给这些清洁工制定一系列制度流程,给他们分配好扫地的区域,然后这些清洁工需要拿着抹布、笤帚、垃圾桶,到你家去扫地,之后你还需要给这些清洁工评分,因为我们有KPI机制…
“请管家”实在是太麻烦,但如果你亲自来打扫,没有专用的工具,有些角落无法打扫干净。
其实你不需要专门设立办公室,也不需要制定一系列制度流程,不需要准备抹布、笤帚、垃圾桶,也不用评分,没有KPI绑定——因为你可以直接找一个机器人!
言归正传,对于数据治理来说,目前大部分企业还在沿用传统的数据治理路线,相当于还是在“请管家”,传统数据治理方式存在着组织架构庞大、管理流程复杂、人工录入工作多、管理范围狭窄等诸多弊端:
1. 组织架构庞大
传统数据治理需要多个部门参与,多个部门之间复杂的从属关系让数据治理组织架构变得异常庞大,这样的组织架构在后期维护和管理上非常不方便,最终影响了数据治理任务分配和执行的效率。
2. 管理流程复杂
传统数据治理无论是在数据标准的建立、审批、修订上,还是在IT任务分配与数据质量报告的生成上,都需要经过一系列复杂的流程,这些流程的审批与中间的周转大大增加了数据治理落地的难度。
3. 人工录入工作多
传统数据治理缺乏平台和工具的支撑,自动化能力缺失,导致大部分数据相关的录入工作都由人工来完成,涉及到的人员众多,人工成本过高,效率比较低而且容易出错,人员管理上也存在一定困难,不利于长期发展。
4. 管理范围狭窄
传统数据管理最终的结果往往不尽如人意,传统数据治理只能管理DW(数据仓库)中的数据而不是全企业的数据。
传统数据治理的这些弊端,让企业无法真正体验到数据管理带来的收益,企业应该慢慢摒弃传统数据治理这种“请管家”的路线。采用敏捷数据管理的方法,寻找适合的“机器人”,简化数据管理组织架构和流程,以自动化方式代替人工录入,拓宽数据管理的范畴。
2选择扫地机器人的12个技术原则
为实现敏捷数据管理,一方面,企业应该明确数据治理的价值导向,其价值应该体现在帮助企业管理数据,打破部门间的壁垒,使数据的管理成为日常工作的一部分;
另一方面,更为重要的是,企业在实现敏捷数据管理的过程中,应该以技术实践为核心,利用一系列技术手段以最小的工作量,帮助业务部门明确数据脉络,落地数据标准,提高数据质量,最终管理好企业内的所有数据,实现企业级的数据管理。
在技术实践上,如何挑选“机器人”,来实现敏捷数据管理,才是企业应该关注的重点。
我对企业数据管理过程中应该遵循的一系列技术原则进行了如下总结,从技术上告诉大家如何对“机器人”进行挑选。
这十二个技术原则分别是:
我们再来好好看看这个机器人的12个特性每个是干什么的?
1. 统一管理企业资产
不会擦地的扫地机器人,不是好清洁工。一个合格的扫地机器人,应该能够把整个家都收拾整齐,而不只是扫地。
对于敏捷数据管理来说,应该能够在技术上管理企业内部所有资产,也就是所有的元数据。这是企业实现敏捷数据管理最基础、最重要的原则。
目前企业元数据管理的技术架构一般都是基于CWM标准,OMG模型规范体系分为M3,M2,M1,M0四层,CWM标准位于M2层,是一个偏上层的规范,这从一定程度上限制了技术架构的扩展性,这种元数据管理技术架构只能管理企业数据相关资产,并不能管理对象、接口、业务、服务等其他企业信息。
为了增强技术架构的扩展性,实现对企业内部所有数据资产的管理,企业元数据管理技术架构需要基于更底层的规范,也就是位于OMG模型规范体系M3层能够描述CWM标准的MOF规范,基于MOF规范的元数据管理架构能够帮助企业扩展出其所需要的所有元模型,进而实现企业所有资产的统一管理。
2. 自动获取资产信息
机器人应该能够通过“采集器”自动获取主人的指令,而不是所有的指令都要主人通过按钮来手工控制。
对于企业来说,要想统一管理所有信息资产,还依靠原来人工录入资产的方式肯定是不行的。
企业需要从技术上提供各种自动化能力,实现对资产信息的自动获取,包括自动数据信息采集、自动服务信息采集与自动业务信息采集等。
这要求企业使用的数据管理工具支持一系列的采集器,并且多采用直连的方式来采集相关信息。
3. 识别与管理业务语义
合格的机器人要能够听懂主人的指令,最好内置Siri,能够人机对话。
企业数据管理也一样,很多业务的语义十分依赖业务人员的人工梳理,难度大效率低,很可能出现因为梳理人员没有及时梳理,而造成业务语义难以被及时发现和管理的问题。
未来企业将会面临数字化转型,从非结构化的文档中,将大部分业务语义抽取出来,并统一管理,成为未来的发展趋势(比如对于保险企业来说,可以利用业务语义抽取技术,从相关文档中自动识别出短期保险的定义)。
这种能力可以通过自然语言分析技术来实现,企业可以通过综合多个材料中对同一业务的描述,分析出最新与最广泛认可的业务定义,由业务人员确认之后,识别出业务语义,这样大大减少了业务人员的工作量,提升了业务人员梳理业务语义的积极性。
4. 业务语义与技术关联
合格的机器人,需要听懂主人的语言,并根据主人的不同指示,启动不同的程序。
对于企业数据管理来说,技术能弄懂业务的前提是技术与业务之间要有对应,让企业能够通过技术手段,对业务进行理解和分析。
目前大部分企业还是靠人工梳理对应业务与技术,业务部门负担很重,若能够利用数据治理工具提供商的行业实践积累,形成业务与技术的自动关联库,自动完成业务与技术对应,将能大大减少业务人员的工作量,同时提升技术与业务关联的准确度,消除业务与技术之间的鸿沟。
5. 从需求开始控制数据质量
要想让房间彻底变干净,这个机器人不能只是在房间乱了之后再进行打扫,要想真正解决房间卫生问题,机器人需要在主人的日常生活中时刻提醒主人保持良好的卫生习惯,从根源防止卫生问题的出现。
其实数据质量一直是企业的痛点,数据质量不高,分析和挖掘无从谈起,但是企业容易犯一个错误,就是只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能从根本上解决问题。
要想真正解决数据质量问题,应该从需求开始,将数据质量的服务集成到需求分析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。
6. 在集成点检查数据质量
合格的机器人需要对主人日常活动中的各个重要时刻进行检查,比如吃饭之前、睡觉之前等,严格控制主人的卫生情况,当房间内的人数比较多时,要通过抽查的方式检查人们的卫生情况。
在企业大数据治理过程中,对于大数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。
但在企业实际场景中,每个集成点的数据量会非常大,把数据一条条拿出来做检查这种传统方式是行不通的,应该先对数据进行抽样,根据抽样检查的结果,决定是否采用这批数据。
7. 持续积累检核规则
主人自己在家时,机器人可以直接根据主人的生活习惯制定出检查规则,但是当有外来客人时,就需要对这些客人进行抽查,启动相关程序自动制定出检查规则并对这些规则进行存储,形成外来客人的检查规则库。
目前企业内的数据主要分为外部数据和内部数据,大数据时代到来让各企业广泛采购第三方数据,第三方数据的质量逐渐成为决定企业数据质量的关键因素。
对于企业的内部数据,可以通过业务梳理直接获得质量检核规则。
但是对于外部第三方数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。
8. 自动化质量评分
无论是主人还是外来客人,进入房间之前,都要先在走廊上接受机器人的卫生打分和整改,卫生条件合格的人才可以进入房间。
在企业数据治理中,应该与数据采集工具、交换工具相连接,对数据湖泊中的数据进行评分和整改,评分和整改通过的数据才能进一步进入大数据平台。
9. 管理核心数据定义
机器人只需要针对主人身上的关键部位制定相应的卫生标准,就可以大体控制主人的卫生情况,并不需要为主人全身各个部位都制定出专门的卫生标准。
在企业数据治理中,数据标准是很重要的内容,但是建立有效的数据标准并落地,是有一定难度的,传统数据管理的模式需要建立一套规范数据模型,即使企业实际数据模型中有上万个字段,也需要将每个字段与规范数据模型进行比对,这种方式往往难以落地。
其实只需要在众多数据中挑选出核心数据,只管理这些核心数据定义,依照核心数据建立标准,就可以实现企业数据治理的目标,还能提升数据治理的效率。
10. 以数据标准添加技术属性
合格的机器人应该能够把所有的卫生标准,转换为机器可以理解的语言,比如主人规定饭桌干净的标准是饭桌上没有任何东西,机器人需要将这条标准翻译成机器语言,相当于为这条标准增加技术属性,比如“if(things() == false)”之类的。
在企业数据治理中,任何一个数据标准,如何没有对应的技术手段,都将难以落地,所以企业建立数据标准时,需要加入信息项的英文名称,来和实际数据库表中的字段相对应。
在数据标准中加入信息项的英文名称能给企业数据治理带来两方面的好处:
1. 在做模型设计的时候,标准可以直接与模型设计工具集成,设计模型时就可以直接引用标准。
2. 对已有系统,标准能够通过英文名称直接和应用系统的相关字段对应,自动发现与不符合标准的字段,并通过元数据直接通知给相应的系统。
11. 随业务持续更新数据标准
优秀的机器人能够自动更新卫生标准,随着时间的积累,让这些卫生标准越来越符合主人的要求。
对于企业数据治理来说,有很多数据标准建立以后,往往只是一套书,没有根据企业业务发展及时做出更新,时间长了就成为了摆设。
实际上,数据标准是需要随着企业的业务变化而不断进行修订的,比如在企业拓展新业务的时候,需要增加相应的标准进去,对于没有价值的标准,也要及时废弃。
12. 数据管理能力服务化
机器人是用来为主人“服务”的,其作用是帮助主人清理房间,而不是来“管理”主人的。
对于企业数据治理来说,数据管理服务化是企业能否实现敏捷数据管理的重要原则,敏捷数据管理强调企业把所有的技术能力全面共享成为服务,并融入到企业的各个系统中“帮助”各个系统控制数据质量,规范数据,而不是对企业各个部门的人员进行“管理”,这样就能使数据管理融入到各部门人员的工作环境中,让大家在日常的工作环境中自动控制数据质量。
3敏捷数据管理实战案例
以上这些原则我们在某个大型银行都有落地。 比如管理了所有的元数据,自动化的获取了资产信息等等,限于时间关系,就不一一赘述。
未来在大数据时代,数据除了要存储起来,更加重要的是要管理好,相信未来会有更多的企业重视数据的管理。这样企业的数据湖才能一直清澈下去,而不是成为数据沼泽。
数据分析咨询请扫描二维码
数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21