BigQuery 通用目录 (Dataplex Catalog) 中的数据目录管理简介

本文档介绍了通用目录的数据目录管理功能。通用目录提供了一个用于存储、管理和访问元数据的平台。

通用目录提供Google Cloud 和本地资源的统一广告资源。通用目录会自动检索资源的元数据,而您可以将第三方资源的元数据纳入通用目录。 Google Cloud

借助通用目录,您可以使用其他业务和技术元数据丰富广告资源,以捕获有关资源的背景信息和知识。借助通用目录,您可以搜索和发现组织中的所有数据,并对数据资产实现数据治理。

您可以将默认目录体验设置为通用目录。 如果您使用的是 Data Catalog,请将 Data Catalog 内容和使用情况转换为通用目录。如需了解详情,请参阅从 Data Catalog 迁移到 BigQuery 通用目录

使用场景

您可以使用通用目录执行以下操作:

  • 发现和了解您的数据。通用目录可让您查看整个组织中的数据资源。您可以通过该页面查找与数据使用需求相关的资源。它为数据资源提供了背景信息,有助于您了解数据资源是否适合数据使用方的需求。

  • 启用数据治理和数据管理。通用目录可提供元数据,这些元数据可为您的数据治理和数据管理功能提供信息和支持。

  • 为元数据维护可扩展且全面的代码库。 通用目录会存储从您的资源自动提取的元数据,并提供对这些元数据的访问权限。 Google Cloud 您可以集成来自非Google Cloud 系统的自己的元数据。您可以通过额外的业务元数据和技术元数据注解来丰富所有元数据。

通用目录中数据目录管理的工作原理

通用目录中的数据目录管理功能基于以下概念:

  • 条目:条目表示数据资产。大多数元数据由条目中的方面描述。这类似于 Data Catalog 中的条目。如需了解详情,请参阅条目

  • 方面:方面是条目中一组相关的元数据字段。您可以将方面视为条目的构成要素,也可以视为条目的附加元数据。这与 Data Catalog 中的标记类似,但方面存储在条目中,而不是作为独立资源。如需了解详情,请参阅方面

  • 切面类型:切面类型是切面的可重复使用模板。每个方面都是某个方面类型的实例。这类似于 Data Catalog 中的标记模板。如需了解详情,请参阅方面类型

  • 条目组:条目组是条目的容器,可用作这些条目的管理单元。例如,您可以使用条目组为条目组中的条目配置 Identity and Access Management 访问权限控制、项目归因或位置信息。这类似于 Data Catalog 中的条目组。如需了解详情,请参阅条目组

  • 条目类型:条目类型是用于创建条目的模板。它会确定基本元数据元素,并将其列为此类条目的必需切面。如需了解详情,请参阅条目类型

    条目和条目组
    图 1:条目和条目组
    切面类型和条目类型
    图 2. 切面类型和条目类型

以下是通用目录的一些用例:

  • 作为数据分析师或业务分析师,您可以搜索整个组织中的条目,并浏览与条目关联的元数据。如需了解详情,请参阅搜索数据资产
  • 作为数据所有者或数据管理员,您可以使用方面对条目进行注解,以捕获其他技术和业务元数据。如需了解详情,请参阅管理切面并丰富元数据
  • 作为数据所有者或数据管理员,您可以通过定义注释标准(使用方面类型)和自定义条目(使用条目类型)来确保元数据的一致性。如需了解详情,请参阅管理切面并丰富元数据
  • 作为数据工程师,您可以为自己的资源(包括 Google Cloud 资源和第三方系统中的资源)创建统一的商品目录。Google Cloud 资源由通用目录自动提取,非Google Cloud 资源由您提取。如需了解详情,请参阅管理条目和提取自定义来源

对于现有 Data Catalog 用户

如果您已经在使用 Data Catalog,请注意以下事项:

  • 您在 Data Catalog 中创建的自定义条目、概览上下文和条目组会显示在通用目录中。
  • 作为管理员,您可以选择将 Data Catalog 标记模板和标记的内容同时提供给通用目录。如需了解详情,请参阅从 Data Catalog 迁移到 BigQuery 通用目录
  • 在通用目录中搜索数据资产时,系统会同时包含直接在通用目录中创建的元数据和从 Data Catalog 导入到通用目录的元数据。
  • 在 Data Catalog 中搜索数据资产时,系统只会显示在 Data Catalog 中创建的元数据。
  • Data Catalog 中超过 1024 个字符的条目组说明会在通用目录中截断为 1024 个字符。

如需详细了解如何将 Data Catalog 内容和使用情况迁移到通用目录,请参阅从 Data Catalog 迁移到 BigQuery 通用目录

通用目录与 Data Catalog

通用目录提供了在 Dataplex 中管理元数据的功能。它附带单独的元数据存储空间,以及一组集成到 Dataplex API 中的新 API 方法。

通用目录中的主要数据目录功能包括:

  • 更稳健的元模型

    • 输入的条目。您可以通过为自定义条目定义所需的元数据内容来强制执行最低元数据标准
    • 可供用户配置的自定义条目元模型,有助于提高自定义提取的稳健性,并改进自定义元数据的一致性和全面性。
    • 支持更多种类和更复杂的元数据,包括支持列表、映射和数组等嵌套结构。
  • 可伸缩性更强,包括能够通过单个原子 CRUD 操作与与条目关联的所有元数据进行交互,以及能够提取搜索或列表响应中关联的多个元数据注解。

下表比较了通用目录和 Data Catalog 的功能:

通用目录与 Data Catalog 的比较
功能 通用目录 Data Catalog
支持的 Google Cloud 来源 本文档支持的 Google Cloud 来源部分中所述的所有来源。 条目和条目组中介绍的所有来源。
提取自定义来源

提取到由条目类型定义的受管结构的自定义条目中。

Data Catalog 自定义条目和条目组会在通用目录的 generic 条目类型下提供。

提取到通用自定义条目。
元数据丰富 系统使用切面和切面类型捕获条目的元数据上下文。 系统使用代码和代码模板捕获条目的元数据上下文。
搜索 搜索会在以下内容中执行:
  • 支持的 Google Cloud 来源中 Google Cloud 介绍的所有来源
  • 在通用目录中创建的自定义条目
  • 在通用目录中创建的方面
  • 在 Data Catalog 中创建并导入到通用目录的自定义条目

搜索结果仅包含与执行搜索的项目属于同一组织和同一 VPC-SC 边界的资源。使用 Google Cloud 控制台时,这是控制台中选择的项目。

请注意,如需搜索条目,您需要在用于搜索的项目中至少拥有一个通用目录 (Dataplex Catalog) IAM 角色。系统会独立于所选项目检查搜索结果的权限。

搜索会在以下内容中执行:
  • 条目和条目组中介绍的所有 Google Cloud 来源
  • 在 Data Catalog 中创建的自定义条目
  • 在 Data Catalog 中创建的标记
数据沿袭

数据源流使用 Dataplex API 检索资产节点的条目详细信息。

Google Cloud 控制台会显示关联的方面。

数据源流使用 Data Catalog API 检索资产节点的条目详情。

Google Cloud 控制台会显示附加的代码和术语表术语。

下表介绍了通用目录资源与 Data Catalog 资源之间的对应关系:

通用目录与 Data Catalog 资源之间的映射
通用目录资源 Data Catalog 资源 说明
切面类型 (global) 公开标记模板 代码模板是区域性资源。不过,您可以使用这些代码在不同地区创建代码。标记模板对应于通用目录中的 global 切面类型。
可选切面 公开标记 Data Catalog 中的公开标记对应于通用目录中的可选切面。
条目组 条目组 对于 Google Cloud 来源,系统会在通用目录中为每个项目建立 @bigquery 等系统条目组。
自定义条目所需的方面 自定义条目

Data Catalog 和 Universal Catalog 在自定义条目方面采用了类似的概念。

标准条目属性在通用目录中被建模为必需的方面。

系统条目必需的方面 系统 (Google Cloud) 条目 系统会在系统定义的方面类型的必需方面中捕获描述内置实体(例如 BigQuery 表的 Schema)的元数据。

如需详细了解 Data Catalog 中提供但通用目录不支持的功能,请参阅本文档中的通用目录不支持的功能部分。

支持的来源

以下 Google Cloud 来源的元数据会自动提取到通用目录中:

  • BigQuery Sharing(以前称为 Analytics Hub)交换和列表
  • BigQuery 数据集、表、模型、日常安排、连接和关联的数据集
  • Bigtable 实例、集群和表(包括列族详细信息)
  • Dataform 代码库和代码资产
  • Cloud SQL 实例、数据库、架构、表、视图 - 请参阅启用 Cloud SQL 集成
  • Dataproc Metastore 服务、数据库和表
  • Pub/Sub 主题
  • Spanner 实例、数据库、表和视图
  • Vertex AI 模型、数据集、特征组、特征视图和在线存储区实例

如需将元数据从第三方来源导入到通用目录,您可以使用受管理的连接流水线

项目和位置限制

通用目录资源位于各种项目和位置中。存在以下限制:

  • 位置:

    • 条目的位置必须与条目类型的位置匹配,或者条目类型必须为 global
    • 添加到条目的方面必须基于与条目存储在同一位置的方面类型,或者方面类型必须为 global
    • 条目类型必须由与条目类型存储在同一位置的切面类型组成。
  • 项目:

    • 如果条目类型引用自定义切面类型,则切面类型必须与条目类型位于同一位置和项目中。

通用目录不支持的功能

通用目录不支持 Data Catalog 中提供的以下功能:

  • 通用目录中不存在专用切面和专用切面类型(与 Data Catalog 中的专用标记和专用标记模板相对应)的概念。
  • 通用目录搜索不支持搜索政策标记;因此,policytagpolicytagid 谓词在通用目录搜索中不起作用。
  • 将 Data Catalog 自定义条目组、自定义条目、标记模板和标记导入通用目录后,其原始权限不会保留。您必须先为复制的元数据明确配置 IAM 权限,然后才能使用它。
  • Terraform 不支持管理方面和自定义条目。不过,您可以使用受管理的连接管道元数据导入 API 方法,以编程方式大规模管理自定义元数据。(Terraform 支持条目组、条目类型和切面类型;请参阅使用 Terraform 预配 Dataplex 资源。)
  • 不支持将敏感数据保护检查结果直接发送到通用目录。不过,您可以将敏感数据保护检查结果发送到 Data Catalog,然后将结果转移到通用目录
  • 您无法使用此 API 列出各个项目中的条目类型和方面类型。您只能将列表请求的范围限定为一个项目。
  • 您无法将商家术语表(预览版)中的术语附加到通用目录条目的列中。
  • 不支持将 Dataplex 数据湖、区域、资产和实体注册为通用目录中的条目。这意味着,附加到数据湖、区域、资产和实体的元数据不会保留到通用目录中。此外,使用通用目录搜索时,不支持搜索区域和实体,也不支持按数据湖和区域进行过滤。您可以独立于通用目录使用数据湖和数据区域。
  • 不支持管理员搜索功能,该功能可确保完全召回。

如需比较通用目录和 Data Catalog 中都支持的功能和资源,请参阅本文档中的通用目录与 Data Catalog 部分。

价格

Dataplex 使用元数据存储 SKU 来按元数据存储量收费。如需了解详情,请参阅 Dataplex 价格

以下服务可免费使用:

  • 创建和管理通用目录资源
  • 通用目录的 Search API 调用
  • 在 Google Cloud 控制台的通用目录页面上执行的搜索查询

后续步骤