第十八章:数据治理之数据质量:“数据质量”不仅仅和“数据质量”有关

按照顺序,这一章应该写【数据标准】,但是对于数据标准的理解,一直逻辑上说不通。说来有意思的是,虽然不能完全理解数据标准,但是,仍旧设计过相应的产品。

数据标准到底在哪里用?和数据指标是什么关系?又和数据质量什么关系?有了码表值,有了字段类型、长度、精确度的限制,就是数据标准了吗?现有的国家标准,行业标准是怎么影响数据标准的?问题太多,一时没有答案,也暂时没有想清楚,就先跳过数据标准。这一章我们说说【数据质量】,当什么时候理清楚了数据标准,对于数据标准有一个自己的理解的时候,再来补这一章。

提到数据质量,第一时间想到的就是数据质量模块。似乎只要用了数据质量模块的能力就能够解决数据质量的问题了。

但是,个人想说的是,“数据质量”不仅仅和“数据质量”有关。第一个“数据质量”是指数据的质量,第二个“数据质量”是指数据质量模块。

1、“数据质量”不仅仅和“数据质量”有关

”数据质量“不仅仅和”数据质量“相关。这句话说起来有点拗口,在有相互对比的情况下,提到”数据质量“时,就是指数据的质量,提到”数据质量模块“时,就是指一个专门的功能能力模块。在没有特殊的对比要求时,“数据质量”,可以简单理解为就是说“数据质量模块”。

所以标题这就话,应该说是,”数据质量“不仅仅和“数据质量模块”有关

数据质量是一个系统化的工程,甚至可以说,整个数据治理的直接目标就是提升数据质量,进而实现终极目标发挥数据价值。

这件事情会涉及到很多模块,前面提到的【数据源】模块,通过对数据源的监控,保证数据源的连通稳定,以及提前发现数据源中是否变更表结构。来保证数据的按时产出,实现数据质量的及时性要求。

通过合理的【数据架构】,搭建合理的数据模型,理清数据的流转关系,确保整个数据加工过程,加工逻辑合理,实现数据质量的准确性要求。

通过后面要介绍的【数据指标】模块,使用合理的、统一的数据指标体系,来保证数据的一致性的要求。

甚至于大数据平台的运行稳定性,也是保证数据能够及时产出,满足及时性要求的一个前提。

所以你看数据质量是不是会和其他很多模块都产生关联。这是一个系统化的事情,有的时候,是一个见招拆招,遇到问题不断解决问题的过程。并不是说有了数据质量模块,或者说做了什么,就一定不会有数据质量问题了。业务是复杂的,只要有业务的运转,就可能出现新的情况,提供一个体系能够规律性的发现数据质量问题,解决数据质量问题,才是目的。

本章对于数据质量的介绍,不会涉及其他模块的内容,主要介绍数据质量模块,也就是提供质量规则,创建质量任务,进行质量校验,进而生成质量报告,这样的一个过程。

2、数据质量模块处理的时机

数据质量模块在进行数据质量操作时,一般会有【事前,事中,事后】这样的说法。这里所说的“事”,指的是“数据加工”这件事。

  • 事前:也叫“事前预防”。在数据加工之前,即数据产生的过程中,将大部分数据质量问题解决掉。
  • 事中:也叫“事中监控”。在数据加工过程中,同步进行数据质量的监控、告警或者任务中断处理。
  • 事后:也叫“事后反馈”。在数据加工之后,进行一些监测,反馈。

说到这三个处理时机,一般的说法是,“事前”解决,效果最好,成本最小,是最重要的,也是解决问题的根本。“事后”解决,更多是反馈的作用,起到的作用很小。“事中”的解决,是现在的大部分方案,也是最便利,可控的。现实情况是不是如此,也仅仅说下我个人的想法。

3、事前数据质量的可行性

说到事前数据质量,先看看主要想做什么?主要是想在数据加工之前,也即数据产生的过程中就根据一些数据质量规范、要求,规范数据产生的过程,保证数据在产生时就是高质量的。

数据产生的过程,就是业务运行的过程,所以说事前的数据质量,是希望能够对业务系统提要求,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据小吏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值