DAMA CDGP:论述题真题解析之元数据篇

参考答案 : 第一问

元数据管理不善容易导致以下问题:

  1. 冗余的数据和数据管理流程;

  2. 重复和冗余的字典、存储库和其他元数据存储;

  3. 不一致的数据元素定义和与数据滥用的相关风险;

  4. 元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心;

  5. 怀疑元数据和数据的可靠性。


2022-07

一.问题简述

元数据:(1)元数据管理不善带给企业的影响(风险);(2)结合企业情况设计元数据架构(设计元数据管理系统)

二、问题解析

  1. 元数据是数据治理的基础,展开描述;

  2. 阐述元数据治理架构,在根据场景选择一个合适的架构。

三、Answer

  1. 元数据是对数据的技术属性和业务属性进行描述的解释说明的数据,是数据治理的基础和核心。可以说没有元数据,组织将无法开展数据治理和数据质量等相关数据管理工作。没有管理良好的元数据,数据湖将变成数据沼泽。没有科学合理的元数据管理规划实施,数据质量将无从谈起,数据将不具备完整性、可用性、有效性、及时性、唯一性等可度量特征。

  2. 元数据架构包括:集中式、分布式、混合式、双向式。在集中式中,元数据统一存储和管理,可以对元数据进行必要的修正和增加,以及元数据质量的验证等,读写效率也是最高的。在分布式中,元数据存储在各自的存储库中,通过统一的注册表进行检索和访问控制,分布式的最大优势是元数据的及时性,但数据的一致性、整合、和标准等方面存在缺陷,且元数据质量问题不能得到很好的解决。在混合式中,兼具集中式和分布式的优点和缺点。在双向式中,元数据集中存储,并可以对元数据源进行必要的修改和增强,但架构设计和实现最为复杂,而且还存在一定的权责问题,需要谨慎使用。 注意:根据场景的描述选择一个合适的架构进行设计。并规定元数据标准和规范等方面。


2022-06

一.问题简述

元数据:(1)元数据管理不善带给企业的影响(风险);(2)结合企业情况设计元数据架构(设计元数据管理系统)

二、问题解析

  1. 元数据是数据治理的基础,展开描述;

  2. 阐述元数据治理架构,在根据场景选择一个合适的架构。

三、Answer

  1. 元数据是对数据的技术属性和业务属性进行描述的解释说明的数据,是数据治理的基础和核心。可以说没有元数据,组织将无法开展数据治理和数据质量等相关数据管理工作。没有管理良好的元数据,数据湖将变成数据沼泽。没有科学合理的元数据管理规划实施,数据质量将无从谈起,数据将不具备完整性、可用性、有效性、及时性、唯一性等可度量特征。

  2. 元数据架构包括:集中式、分布式、混合式、双向式。在集中式中,元数据统一存储和管理,可以对元数据进行必要的修正和增加,以及元数据质量的验证等,读写效率也是最高的。在分布式中,元数据存储在各自的存储库中,通过统一的注册表进行检索和访问控制,分布式的最大优势是元数据的及时性,但数据的一致性、整合、和标准等方面存在缺陷,且元数据质量问题不能得到很好的解决。在混合式中,兼具集中式和分布式的优点和缺点。在双向式中,元数据集中存储,并可以对元数据源进行必要的修改和增强,但架构设计和实现最为复杂,而且还存在一定的权责问题,需要谨慎使用。 注意:根据场景的描述选择一个合适的架构进行设计。并规定元数据标准和规范等方面。


2022-03

一.问题简述

元数据:从数据生命周期角度,搭建具有前瞻性的元数据管理体系

二、问题解析

  1. 元数据生命周期:

  2. 元数据管理架构,架构的选择要结合组织的实际情况。

三、Answer

  1. 元数据管理生命周期和数据管理生命周期一致,都包括:规划、设计和启用,创建或获取、存储或维护、使用、增强、处置。

  • 规划:定义元数据的需求;

  • 设计&启用:将创建和管理元数据作为正在进行的数据管理活动的一部分;

  • 创建/获取:确保创建元数据并满足质量要求;

  • 存储/维护:确保元数据保持当前状态并继续满足需求;

  • 使用:使用元数据,从数据中获取价值。启用反馈循环可以提高元数据质量;

  • 增强:使用新知识增强现有的元数据,实现新的元数据需求;

  • 处置:清除或归档过时的元数据。

元数据解决方案架构。元数据构架应该为所需的元数据提供一个单一的访问点。元数据构架的设计取决于组织的特定需求。构建通用元数据存储库的4种技术构架方法和数据仓库的设计方法相差不多:

  • 集中式。集中的元数据构架由一个元数据存储库组成,该存储库包含来自不同源的元数据的副本。拥有有限IT资源的组织,或者那些寻求尽可能自动化的组织,一般不会选择这种架构。在公共元数据存储库中寻求高度一致性的组织,可以从集中式元数据构架中获益。

  • 分布式。一个完全分布式的元数据构架只有单个接入点。元数据检索引擎通过检索源数据来实时响应用户请求;没有现成的元数据的永久存储库。在这个体系构架中,元数据管理环境用以维护必要的源系统目录和查找信息,以有效地处理用户查询和搜索。源系统可以通过公共对象请求代理或者类似的中间件协议软件来访问。

  • 混合式。混合架构结合集中式和分布式体系结构的特性。元数据仍然直接从源系统中抽取并进入集中式存储库。然而,存储库设计只考虑用户添加的元数据、关键标准化项目和手动添加的元数据。

  • 双向式。这是另一种高级架构方法是双向元数据架构,它允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈。这种方法显然存在各种挑战。该设计强制元数据存储库包含最新版本的元数据源,并强制对源的更改管理,必须系统地捕获变更,然后加以解决;必须构建和维护附加的一系列处理接口,以将存储库的内容回写至元数据源。

对于前瞻性的元数据管理架构,我建议采用双向式元数据管理架构,虽然双向式架构挑战最多,但可以全面解决:

  • 集中式架构数据更新实时性问题;

  • 分布式架构数据标准不一致问题;

  • 混合式架构对于实时性、标准化、数据分散、依赖源系统等问题。混合式只是部分的解决了集中式和分布式的问题,但引入的问题更多,可以作为一个过渡方案。


第二题论述题:(考点:DQ、生命周期)

一、问题简述

数据质量:从数据质量生命周期角度,阐述数据质量管理的措施。

二、问题解析

  1. 数据质量生命周期;

  2. 数据质量问题的来源;

  3. 数据质量管理方法。

三、参考答案

  1. 数据质量生命周期和数据管理生命周期一致,都包括:创建或获取、存储或维护、处置、使用、增强、规划、设计和启用:

  • 在规划阶段,定义高质量数据的特征;

  • 在设计和启用阶段,定义系统和流程控制来规避数据问题产生,保持数据质量;

  • 在创建和获取阶段,测量或检查数据,确保数据满足质量要求;

  • 在存储和维护阶段,借助系统和流程检测数据,确保数据能够持续的满足期望。


2021-12

一.问题简述

元数据管理治理叙述,元数据生命周期,要求根据企业特点,综合考虑质量、成本,提供元数据治理方案;(10分)(元数据治理元数据生命周期)

二、问题解析

  1. 元数据生命周期:

  2. 元数据质量:

  3. 解决方案成本。

三、Answer

  1. 元数据管理生命周期和数据管理生命周期一致,都包括:创建或获取、存储或维护、处置、使用、增强、规划、设计和启用:

  • 规划:定义元数据的需求;

  • 设计&启用:将创建和管理元数据作为正在进行的数据管理活动的一部分;

  • 创建/获取:确保创建元数据并满足质量要求;

  • 存储/维护:确保元数据保持当前状态并继续满足需求;

  • 使用:使用元数据,从数据中获取价值。启用反馈循环可以提高元数据质量;

  • 增强:使用新知识增强现有的元数据,实现新的元数据需求;

  • 处置:清除或归档过时的元数据。

2.元数据管理的质量要求包括:

  1. 可靠性。认识到元数据通常是通过现有流程(数据建模、SDLC、业务流程定义)生成的,并让流程所有者对元数据的质量负责(在初始创建和维护中)。

  2. 标准。对元数据标准进行设置、执行和审核,以简化元数据集成的复杂度,并使元数据具有可用性。

  3. 改进。创建反馈机制,以便消费者可以向元数据管理团队报告不正确或过时的元数据。

  4. 与其他数据一样,为了提高质量,元数据也可以进行归类和检查。对它的维护应该作为项目工作的可审计部分来安排或完成。

  5. 元数据治理方案 所有元数据管理解决方案都包含与元数据生命周期相对应的架构层次:

  • 元数据创建和采集。

  • 元数据在一个或多个存储库中存储。

  • 元数据集成。

  • 元数据交付。

  • 元数据使用。

  • 元数据控制和管理。 可以采用不同的架构方法获取、存储、集成和维护元数据,供数据消费者访问元数据。

元数据解决方案架构 元数据构架应该为所需的元数据提供一个单一的访问点。元数据构架的设计取决于组织的特定需求。构建通用元数据存储库的4种技术构架方法和数据仓库的设计方法相差不多:

  • 集中式。集中的元数据构架由一个元数据存储库组成,该存储库包含来自不同源的元数据的副本。拥有有限IT资源的组织,或者那些寻求尽可能自动化的组织,一般不会选择这种架构。在公共元数据存储库中寻求高度一致性的组织,可以从集中式元数据构架中获益。

  • 分布式。一个完全分布式的元数据构架只有单个接入点。元数据检索引擎通过检索源数据来实时响应用户请求;没有现成的元数据的永久存储库。在这个体系构架中,元数据管理环境用以维护必要的源系统目录和查找信息,以有效地处理用户查询和搜索。源系统可以通过公共对象请求代理或者类似的中间件协议软件来访问。

  • 混合式。混合架构结合集中式和分布式体系结构的特性。元数据仍然直接从源系统中抽取并进入集中式存储库。然而,存储库设计只考虑用户添加的元数据、关键标准化项目和手动添加的元数据。

  • 双向式。这是另一种高级架构方法是双向元数据架构,它允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈。这种方法显然存在各种挑战。该设计强制元数据存储库包含最新版本的元数据源,并强制对源的更改管理,必须系统地捕获变更,然后加以解决;必须构建和维护附加的一系列处理接口以将存储库的内容回写至元数据源。

元数据治理解决方案的四种架构方面考虑成本:

  • 集中式。需要基础设施和基础软件的投入,还需要ETL等开发和维护过程,以及数据转换和集成过程等,成本较高。

  • 分布式。不需要大量的基础设施和基础软件投入,但需要开发一个集中注册门户,没有ETL等开发和维护过程,投入相对较低。

  • 混合式/双向式是高级模式,需要基础设施和基础软件的大量投入,以及ETL和数据同步开发和维护工作,成本更高,不建议一般企业采用此模式。


2021-10

一.问题简述

(考点:元数据治理) 场景:企业元数据管理必要性,设计元数据治理解决方案。

二、问题解析

  1. 元数据是数据治理的基础,展开描述;

  2. 阐述元数据治理架构,在根据场景选择一个合适的架构。

三、Answer

  1. 元数据是对数据的技术属性和业务属性进行描述的解释说明的数据,是数据治理的基础和核心。可以说没有元数据,组织将无法开展数据治理和数据质量等相关数据管理工作。没有管理良好的元数据,数据湖将变成数据沼泽。没有科学合理的元数据管理规划实施,数据质量将无从谈起,数据将不具备完整性、可用性、有效性、及时性、唯一性等可度量特征。

  2. 元数据架构包括:集中式、分布式、混合式、双向式。在集中式中,元数据统一存储和管理,可以对元数据进行必要的修正和增加,以及元数据质量的验证等,读写效率也是最高的。在分布式中,元数据存储在各自的存储库中,通过统一的注册表进行检索和访问控制,分布式的最大优势是元数据的及时性,但数据的一致性、整合、和标准等方面存在缺陷,且元数据质量问题不能得到很好的解决。在混合式中,兼具集中式和分布式的优点和缺点。在双向式中,元数据集中存储,并可以对元数据源进行必要的修改和增强,但架构设计和实现最为复杂,而且还存在一定的权责问题,需要谨慎使用。 注意:根据场景的描述选择一个合适的架构进行设计。并规定元数据标准和规范等方面。

1f420dcf50c2c1d95624d1d4b7a05cac.gif

数据体系构建👇

更多精彩

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值