当前位置: 主页 > 服务 > 数据治理 >

数据质量管理简介

发布时间:2017-12-23

数据质量管理简介2

 

业界普遍认可的数据质量定义为数据对其期望目的的适合度,即数据质量管理生命周期及其相关的数据质量管理流程,都要为确保数据满足其自身预期目标提供相应的方法和手段。

(一)数据质量管理基础和问题分类

下列要素是进行数据质量管理的基础:

1.数据质量的好坏是由用户以及数据使用价值所决定的。

2.数据质量的好坏代表着数据在数据知识应用中、数据所存在的系统中以及数据使用过程中被应用或者有价值的程度。

3.只有当数据被下游过程(系统或用户)所接收并使用时,数据质量问题的研讨才有意义。

4.数据是持续变更的,数据质量管理是一个持续过程而不是一次性活动。

银行关注的常见数据质量问题可以归成如下7类:

1.定义缺失,指缺少关键业务元素定义,导致对同一字段的理解偏差。例如,什么是“一个客户”,不同业务有不同理解,通常风险应用将组织机构号作为对公客户的“身份证”,一个组织机构号代表一个客户;而核心系统对客户号的分配较为随意,允许一个组织机构号下存在多个客户号。

2.数据异常,指系统的个别字段出现了异常信息,包括取值错误,格式错误、多余字符、乱码等。

3.信息缺失或不准确,指在系统表中已经设计了某些字段,但在使用过程中,很多记录却没有收集这些字段的信息,或存在信息收集不准确、信息重复登记等情况。信息缺失或不准确通常在客户信息方面最为严重。

4.系统之间数据不一致,主要体现在两个方面:(1)系统间数据维护不一致。为了满足各个系统内部逻辑、提高访问效率和减少数据传输,相同信息可能在不同系统进行冗余存放。但冗余存放的数据如果不进行同步或及时的数据维护,则必会导致这些数据的不一致。例如,银行通常存在核心系统与信贷系统数据不一致的问题。(2)系统之间数据同步时效性造成的不一致。典型案例如下:由于某些银行的贷记卡系统是外包系统,因此总账系统在T+1日才能取到贷记卡T日的数据,但是其他系统的科目余额缺失T+1日的数据,于是此种同步时效性的差异就导致了系统之间数据不一致。

5.数据完整性问题。数据完整性问题主要体现在两个方面:(1)参照完整性,是指一个表A的外键不包含无效的键值,例如,借据表中记录了合同号,但是在合同表中无法找到相关记录;(2)数据含义冲突,如某些账户,从账户属性、存期等字段看,应是通知存款产品,但从科目看,又是普通定期产品。

6.数据生命周期问题。银行中的关键数据,例如,账户、客户、产品信息等,都有若干日期字段记录其生命周期,这些日期字段包括创建/开户日期、关闭/

销户日期、最后交易日期和最后修改日期等,但是在业务系统中往往存在修改了记录状态却并未同步更新相关日期字段的情况。此外,还有一个违反合理数据生命周期的常见做法,就是直接在物理上删除记录。

7.代码问题。包括三个与代码相关的问题:(1)代码不统一问题,即不同应用之间相同用途代码的编码不一致;(2)未代码化问题,即常见情况使用文字存储,而非将信息代码化,很多时候会发现信息存储的不少,但却不便于分析使用。(3)意外代码,即实际数据中出现了未定义的代码值。