数据质量和安全在很多架构图中归属于资产管理模块,但是笔者认为数据质量和安全应该是贯穿整个数据中台的。数据汇聚和数据开发的时候显然也应该考虑质量和安全问题,所以笔者倾向于将数据质量单独拿出来作为一个模块。
数据质量
我们会遇到无处不在的数据质量问题,包括业务系统脏数据、数据不一致不准确等。影响数据使用和上层决策。
为什么会出现数据质量问题呢?大部分是如下几个原因
开发代码的BUG
数据源变更:比如由于MYSQL表结构变更,导致HIVE同步MYSQL任务失败。
基础设施和服务不稳定或资源不足:比如流量猛增的情况导致OOM
由于这些原因,会导致数据不符合以下"四性",因此存在数据质量问题:
完整性:指的是数据信息是否存在缺失的状况,可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。
一致性:是指数据是否遵守了统一的规范,数据集合是否保持了统一的格式。比如商品购买率=商品购买用户数 / 商品访问量,如果在不同的模型中,商品购买用户数是1W、商品访问量10W,商品购买率20%,那这三个指标就存在不一致。
准确性:是指数据记录的信息是否存在异常或错误。比如数据格式是否为正确的ip。
及时性:是指数据从产生到可以查询的时间间隔,也叫数据的延时时长。
而数据质量无疑是非常重要的一部分,就算你数据再多再快,不准也无用。因此数据质量管理平台尤为重要。数据质量管理是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。包括数据探查、对比、质量监控、SQL扫描和智能报警等功能。数据质量监控可以全程监控数据加工流水线,根据质量规则及时发现问题,并通过报警通知负责人及时处理。
在实际生产中,可从以下几个方面做好数据质量工作:
离线数据:数据是否完整、一致和准确,比如HIVE离线同步业务库MYSQL数据,同步完需要对比数据条数。
实时数据:除了数据是否完整、一致和准确,还需要检测数据是否断流、数据是否延迟。
报警监控:支持短信、微信告警到对应负责人。
数据安全
数据安全的重要性不用多说,如果你把用户信息泄露了,严重会导致整个公司都倒闭。因此对于全链路的数据,都应该做好数据安全工作。比如应该把业务库/日志的敏感数据进行脱敏,为身份证、银行卡等常用的数据类型提供掩盖脱敏策略。以及日志审计等。
数据生命周期安全可以分为以下几个部分:
数据采集安全:包括数据源鉴别以及记录等
数据传输安全:包括数据传输加密等
数据存储安全:包括存储介质安全、数据备份恢复等
数据处理安全:包括数据脱敏等
数据交换安全:包括数据共享安全、导入导出安全等
数据销毁安全:包括数据销毁和介质销毁等
暂无数据