如何识别元数据:别让数据“裸奔”!3分钟教你识别元数据

引言、什么是元数据

元数据(Metadata) 是“描述数据的数据”,用于提供关于其他数据的背景信息、属性或特征。帮助人们理解、管理和使用数据本身。举几个例子,感受一下什么是元数据。

照片的元数据

一张照片本身是数据(图像内容),但它的元数据可能包括:

•拍摄时间、拍摄设备(如iPhone 12)

•文件格式(如JPEG)、文件大小

•分辨率(如1920×1080)、GPS地理位置(如经度纬度)

•作者、版权信息

(这些信息通常存储在照片的EXIF数据中)

图书馆书籍的元数据

一本书的内容是数据,但它的元数据包括:

•书名、作者、出版社

•ISBN号、出版日期、分类标签(如“科幻小说”)

•在图书馆中的位置(如书架编号)

电子邮件的元数据

一封邮件的内容是数据,但它的元数据可能包括:

•发件人、收件人、抄送人

•发送时间、邮件主题

网页的元数据

网页内容本身是数据,但HTML中的标签提供了元数据:

图片

(进一步阅读了解什么是元数据,元数据的三重属性:元数据管理:组织数据资产的“导航仪”与“说明书”)

一、元数据在哪里?

假如我们要提取元数据,我们怎么判断元数据从哪来呢?

我们都知道元数据无非是从结构化数据、半结构化数据、非结构化数据中进行获取,而且这些数据就存储在组织中的系统或设备中。

图片

元数据的概念,随着计算机文件系统、数据库管理系统的发展而逐步演进。随着大数据、人工智能的发展,元数据日益丰富。其类型不止来源于关系型数据库中,还来源于半结构化数据库、流数据、大数据平台中的数据、甚至AI平台中。对于任何一个组织来说,谈论其元数据,必然是覆盖组织所有数据资产的数据。想要了解元数据在哪里,我们必然要知道元数据在组织中存放的地方。

对于生产型组织,一般包括业务系统、生产系统、数据库系统以及支撑系统(如大数据平台、大模型平台、BI、运营平台、运维平台等)

(1)业务系统

业务系统覆盖人力、财务、销售、行政、项目管理等多个部门,其支撑的业务系统主要是人事系统、财务系统、ERP系统、CRM系统、OA系统等。

(2)生产系统

生产系统根据组织规模、类型等,其纳管的系统也不尽相同,基本覆盖生产、供应链、质量、仓储、设备等部门或业务领域,主要有MES系统、SCM系统、QMS系统、WMS系统、EAM系统等支持业务。

(3)数据库系统

数据库系统囊括关系型数据库、对象数据库、文件系统、MPP数据库、分析型数据库、数据仓库和数据湖等,如 Oracle、DB2、MySQL、MongoDB及数仓等。

(4)支撑系统

大数据平台:主要指Hadoop生态涵盖的存储构件,如Hbase、Hive等,及国内提出的数据湖等。

大模型平台:囿于大模型平台实现的能力不同,可能会采用各类数据库进行综合构件,不限于数据库系统、Hadoop生态相关的构件,还包括图库、向量库、多模态数据库等。

BI:BI业务通常需要高效的数据存储、快速的查询响应以及强大的数据分析,因此除了采用传统的数据库或数仓外,也更倾向于采用内存库、列库、多维库等。

运营平台和运维平台:一般是服务于组织内部高效运转,运营平台侧重于业务流程、用户体验、市场推广、数据分析,而运维平台侧重于基础设施及各类软件系统的维护。基本采用传统数据库。

所以,我们常谈到的元数据,往往在以上系统中存在。

二、元数据涉及哪些数据对象?

知道了元数据在哪些系统,那我们看看元数据在系统里的哪里?

数据对象是实际存储和处理的实体,可以是文件、数据库表、图像、音视频文件等各种数据实体。而元数据是关于数据对象的描述信息。

那么元数据所描述的数据对象一般来源于应用系统、各类数据库(包括关系型数据库、非关系型数据库、数据仓库、数据湖等)以及文件系统。其数据对象的信息一般包括如下的内容。

图片

除此以外,有些组织也会将接口作为一类数据对象进行管理。对此,我们一般记录接口名称、地址、端口、功能描述、协议、参数、管理人、权限等信息。

在项目实施中,我们需要单独调研、整理形成文档。

三、如何识别元数据?手把手教你

我们明确了元数据就是对这些数据对象特征数据的描述,那么数据对象的特征数据,既包括数据对象本身的描述信息(如张三,是人类、男性、出身于1990年、身高1.8米等),也包括数据对象的组织信息(如张三,是A公司员工,某年某月某日入职等,入转调离等信息),同时还知道其管理信息(如张三,户籍北京海淀区等),不仅如此,我们还有其关系信息、住址信息(数据的存储位置及存储性质信息)等。这些信息构成了张三这个数据对象的所有元数据。

那我们来梳理一下一般组织中系统、设备或工具中的数据对象信息都在哪里。

(1)应用系统(包括业务系统和生产系统及其附属的各类数据库)

应用系统包括前台程序和后台程序。

前台程序的数据一般称作配置信息,这类数据可以存放在配置文件中,也可以放在数据库中,根据程序复杂度、管理要求等设计。

后台程序的数据,一般放在数据库中,在数据管理系统的表中以“sys”开头的表往往是元数据(涵盖表元数据和字段元数据)。而表之间的关联关系,则通过主外键以及存储处理的配置信息获取,我们称这些数据为结构元数据,定义了数据的组织形式、数据结构、实体间关系、存储形式等信息。

(2)人工处理的文件

组织中包括很多需人工处理的文件,这些文件一般以Excel文件、SQL 脚本、CSV 文件等存储在系统中或者电脑中。这些半结构化的文件中也有很多的元数据,一般我们通过元数据解析工具通过解析这些文件,获得元数据信息。

(3)BI/报表

BI和报表工具是目前很多组织都会用的分析工具,且随着时代发展,其具备了很多的能力,如可视化的能力。也都支持从各类数据库中抽取数据进行建模分析,形成数据分析的能力。因这些数据来源于各类数据库,我们除了要提取数据库中的元数据外,我们也可能需要提取数据从数据库到BI/报表间的转换关系或者关联关系。这是非常重要的组织元数据,它可以描述数据的利用和流转的关系。

(4)大数据平台/数据湖

大数据平台(很多基于Hadoop生态构建的)和数据湖一般都有自己的统一元数据工具。借助于自身所带的元数据工具就可以完成元数据信息的提取。

(5)ETL工具

在数据治理项目中,ETL工具非常重要,其完成了不同数据加工阶段数据流转工作,包括数据源数据的抽取、转换、加载的过程,也包括在数据仓库不同层之间数据流转的过程。我们要抽取数据转换过程关系,以提取组织元数据信息。

(6)数据建模工具

在数据治理项目中,数据建模工具应用于各类数据模型的设计,尤其是在逻辑数据模型的设计中,牵涉到物理数据模型的构建(将逻辑数据模型转换到数据库并进行建表和抽取数据的过程)。因此我们也通过建模工具获得数据模型的元数据。

(7)数据字典

我们最常碰到的是数据字典中的元数据。数据字典通过系统内置或组织自建等方式构建。数据字典包括了数据项、数据结构、数据流、数据存储和处理过程5个部分。其中数据项是数据的最小组成单位,若干个数据项可以组成一个数据结构。数据字典通过对数据项和数据结构的定义来描述数据流和数据存储的逻辑内容。数据字典实际上记录的就是元数据其一般被存储在数据库中。

四、有哪些常用的元数据提取工具

元数据提取工具根据运用场景以及具体数据需求,如是否跨平台、对技术栈的支持、扩展性、成本等,选择合适的元数据提取工具。

通过元数据提取工具,不仅可以提取元数据的详细信息,还可以获取关系信息、等,有助于帮助组织快速形成数据资产的能力。

常见的元数据提取工具主要是下表这些。

图片

五、元数据标准和规范

元数据标准和规范有很多,一般我们遵循国际或行业标准的基础上,根据组织的具体需求,制定元数据标准和规范。

常见的国际标准,如ISO/IEC 11179、DAMA数据管理知识体系等。

国内基本是在特定行业去进行标准以及规范的制定。不同行业的组织基本是资质制定自己的标准和规范。

元数据标准的制定,参考数据标准制定方法论执行。(进一步了解数据标准是什么,请阅读:数据架构:数据标准)

(进一步了解数据指标体系下,数据标准的框架以及数据标准类型,请阅读: 彻底掌握:主流数据治理标准及框架全景图)

结尾的话

我们通过识别组织中的系统、系统中的对象、以及对象信息的存储位置等,一步步探索得到元数据,这为我们制定元数据标准和规范等提供了明确的思路和执行步骤。

文章内容来自公众号:数据那些事

 更多数据治理相关的文章数据治理博客园 | 巨人肩膀

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值