Panoramica di Knowledge Catalog

Knowledge Catalog è un catalogo dati basato su Gemini che fornisce contesto aziendale universale e governance per l'intero patrimonio di dati. Estraendo automaticamente la semantica dai dati strutturati e non strutturati, crea un grafico di contesto dinamico che basa gli agenti AI sulla verità aziendale e riduce le allucinazioni. I team dedicati ai dati e gli sviluppatori di AI utilizzano Knowledge Catalog per scoprire i dati, applicare le policy e recuperare un contesto avanzato sia per l'analisi che per le applicazioni autonome. Per una procedura dettagliata di Knowledge Catalog, guarda il video incorporato.

Dataplex Universal Catalog è diventato Knowledge Catalog

Per riflettere meglio la visione dell'unificazione della governance dei dati con le funzionalità di AI generativa, Dataplex Universal Catalog è diventato Knowledge Catalog. Questa evoluzione del nome del prodotto rappresenta il passaggio da un registro di metadati passivo convenzionale a un grafico di contesto attivo basato sull'AI.

Perché Dataplex è diventato Knowledge Catalog

Man mano che le organizzazioni accelerano l'adozione dell'AI generativa, gli agenti AI hanno bisogno di un contesto aziendale approfondito per fornire risposte accurate e basate su dati reali. Knowledge Catalog colma il divario tra la governance dei dati aziendali e i workflow degli agenti AI.

Qual è la differenza tra Dataplex e Knowledge Catalog

Gli aggiornamenti di Knowledge Catalog riflettono le nuove funzionalità incentrate sull'AI. A differenza dei cataloghi passivi convenzionali, Knowledge Catalog seleziona automaticamente metadati, logica di business e relazioni tra i dati in un grafico di contesto unificato. Questo grafico fornisce la verità aziendale affidabile di cui gli agenti AI hanno bisogno per eseguire attività complesse con precisione. Sfrutta funzionalità come la selezione automatica del contesto, le query di esempio verificate e le integrazioni di Model Context Protocol (MCP) locali e remote.

Cosa non cambia

I deployment, le API e le configurazioni Dataplex esistenti rimangono operativi. Le funzionalità principali come il rilevamento dei dati, la tracciabilità, la qualità dei dati e i glossari aziendali rimangono invariate e sono supportate. I metadati, gli aspetti e le configurazioni esistenti passano alla nuova esperienza di Knowledge Catalog senza migrazione manuale, spostamento dei dati o tempi di inattività.

API e librerie client

Il rebranding a Knowledge Catalog non modifica gli endpoint API, i comandi gcloud dataplex o le librerie client esistenti. Puoi continuare a utilizzare le API e le librerie client di Knowledge Catalog per interagire con Knowledge Catalog:

Come funziona Knowledge Catalog

Knowledge Catalog unifica la governance e il contesto attraverso tre pilastri principali:

  • Aspetti di base della governance. Knowledge Catalog raccoglie automaticamente i metadati tecnici da Google Cloud servizi come BigQuery, AlloyDB per PostgreSQL e Spanner, oltre a sistemi di terze parti. Stabilisce una base di dati attendibile tramite un glossario aziendale centralizzato, controlli di qualità dei dati, rilevamento di anomalie e governance basata su policy.

  • Selezione del contesto. Utilizzando Gemini, il servizio deduce l'intento aziendale analizzando schemi, log delle query e modelli semantici nei dati. Genera descrizioni in linguaggio naturale, rileva le relazioni e propone pattern SQL verificati sotto forma di query di esempio che acquisiscono la logica di business complessa.

  • Recupero del contesto. Gli agenti e le applicazioni AI possono scoprire istantaneamente gli asset e recuperare il contesto arricchito tramite la ricerca semantica e gli strumenti che supportano il Model Context Protocol (MCP). In questo modo, gli agenti possono accedere alla verità organizzativa per prendere decisioni affidabili.

Il seguente diagramma illustra l'architettura di Knowledge Catalog e il modo in cui unifica la governance dei dati con i workflow di AI generativa:

Architettura di Knowledge Catalog che mostra la cura di metadati, logica di business e relazioni tra dati in un grafico di contesto unificato per gli agenti AI. Architettura di Knowledge Catalog che mostra la cura di metadati, logica di business e relazioni tra dati in un grafico di contesto unificato per gli agenti AI.
Figura 1. Architettura di Knowledge Catalog (fai clic per ingrandire)

Casi d'uso comuni

Knowledge Catalog aiuta gli ingegneri dei dati, i data scientist e gli sviluppatori di AI a risolvere le sfide relative alla gestione dei dati e allo sviluppo dell'AI:

  • Arricchisci i dati per l'AI. Utilizza gli insight sui dati per i dati non strutturati per estrarre automaticamente metadati ed entità da file non strutturati come i PDF in Cloud Storage. In questo modo, i dati oscuri e le conoscenze organizzative diventano accessibili ai modelli di AI.

  • Riduci le allucinazioni dell'AI. Fornisci agli agenti AI query di esempio pre-verificate e guardrail semantici, consentendo loro di eseguire recuperi di dati complessi con una precisione più deterministica.

  • Accelera il rilevamento dei dati. Utilizza la ricerca semantica e un grafico di contesto centralizzato per individuare gli asset di dati pertinenti in origini disparate per i workflow di analisi e data science.

  • Automatizza la creazione di prodotti di dati. Deduci le relazioni nel tuo patrimonio di dati per raggruppare gli asset in prodotti di dati autonomi con contratti sul livello del servizio (SLA) e vincoli di governance integrati.

Workflow di esempio in Knowledge Catalog

Per scoprire come creare il grafico di contesto e gestire il patrimonio di dati, considera come un'azienda di vendita al dettaglio online potrebbe utilizzare le seguenti funzionalità di Knowledge Catalog:

  • Rileva e cataloga i dati. Il rivenditore importa automaticamente i dati sulle transazioni e raccoglie i metadati da Google Cloud servizi come BigQuery, Pub/Sub e Cloud Storage. Il servizio importa anche i metadati dai database di inventario personalizzati per creare una visualizzazione unificata dell'intero patrimonio di dati di vendita al dettaglio. Per saperne di più, vedi Rilevare i dati.

  • Cerca asset di dati. Un data scientist trova gli asset di dati dei clienti esatti di cui ha bisogno utilizzando il motore di ricerca di Knowledge Catalog con filtri sfaccettati, ricerca semantica in linguaggio naturale e operatori logici. Per saperne di più, vedi Cercare asset di dati.

  • Arricchisci i dati con il contesto aziendale. Il team di governance dei dati definisce la terminologia di vendita al dettaglio (ad esempio "Lifetime Value" o "SKU") utilizzando i glossari aziendali e utilizza gli insight sui dati basati sull'AI per generare automaticamente le descrizioni per le nuove tabelle dei prodotti. Applica anche manualmente metadati e tag (aspetti) personalizzati strutturati in modo uniforme agli asset. Per saperne di più, vedi Gestire gli aspetti e arricchire i metadati e Gestire un glossario aziendale.

  • Comprendi le relazioni tra i dati con la tracciabilità. Il team di ingegneria tiene traccia automaticamente della tracciabilità dei dati per vedere come i dati sugli ordini vengono spostati, trasformati e utilizzati nei sistemi. Utilizza i grafici di derivazione per risolvere i problemi delle pipeline di reporting, eseguire l'analisi della causa principale degli errori di pagamento e garantire la conformità. Per saperne di più, vedi Panoramica della derivazione dei dati.

  • Profila i dati e misura la qualità. Il rivenditore utilizza la profilazione automatica dei dati per identificare pattern e anomalie nelle tabelle dei prezzi di BigQuery. Definisce ed esegue controlli di qualità dei dati per garantire che gli indirizzi di spedizione dei clienti siano accurati, completi e affidabili per i carichi di lavoro di AI e logistica a valle. Per saperne di più, vedi Panoramica della profilazione dei dati e Panoramica della qualità dei dati automatica.

  • Seleziona e condividi i prodotti di dati. Il team della piattaforma dati raggruppa gli asset di vendita regionali e i relativi metadati, punteggi di qualità e tracciabilità in prodotti di dati "Customer 360" selezionati che vengono rilevati e utilizzati dai team di marketing e inventario. Per saperne di più, vedi Prodotti di dati panoramica.

Knowledge Catalog nell' Google Cloud ecosistema

Quando crei una base di dati, è importante capire come Knowledge Catalog si integra con i servizi correlati Google Cloud :

Servizio Ruolo principale Quando utilizzarlo
Knowledge Catalog Contesto agentico e governance dei dati Utilizzalo per catalogare i metadati, gestire la qualità dei dati e fornire una base semantica per gli agenti AI.
BigQuery Data warehouse aziendale Utilizzalo per archiviare, eseguire query e analizzare set di dati di grandi dimensioni. Knowledge Catalog arricchisce i dati di BigQuery con il contesto aziendale.
Vertex AI Piattaforma di AI e machine learning Utilizzalo per creare ed eseguire il deployment di modelli ML e agenti AI. Gli agenti utilizzano le API di Knowledge Catalog per recuperare il contesto aziendale accurato.
Cloud Storage Archiviazione di dati non strutturati Utilizzalo per archiviare i file non elaborati. Knowledge Catalog analizza i bucket Cloud Storage per estrarre metadati ed entità ricercabili.

Concetti principali

Per utilizzare Knowledge Catalog in modo efficace, comprendi i seguenti concetti chiave:

  • Grafico di contesto. Una mappa dinamica e unificata di come i dati sono correlati alla tua attività. Collega gli schemi tecnici alle entità aziendali e alle conoscenze non strutturate.

  • Query di esempio. Pattern SQL pregenerati e verificati che acquisiscono la logica di business complessa. Queste query consentono sia agli esseri umani che agli agenti AI di eseguire query sui dati con precisione senza reinventare join di tabelle complesse.

  • Model Context Protocol (MCP). Uno standard aperto che consente agli agenti AI di scoprire e utilizzare in modo adattivo gli strumenti disponibili. Knowledge Catalog utilizza gli strumenti MCP per fornire la verità organizzativa certificata direttamente agli agenti, offrendo server MCP remoti e locali per soddisfare i requisiti di accessibilità e sicurezza.

-- Example: An example query retrieved by an AI agent to ensure accurate revenue calculation
SELECT customer_id, SUM(transaction_amount) AS total_revenue
FROM `sales.processed_transactions`
WHERE transaction_status = 'COMPLETED'
GROUP BY customer_id;

Importazioni

Knowledge Catalog importa automaticamente i metadati dalle seguenti Google Cloud origini. Per alcuni servizi, come AlloyDB per PostgreSQL e Cloud SQL, devi prima abilitare l'integrazione di Knowledge Catalog prima di poter importare i metadati:

  • Analisi e lakehouse

    • Set di dati, tabelle, viste, modelli, routine, connessioni e set di dati collegati di BigQuery
    • Scambi e schede di BigQuery sharing (in precedenza Analytics Hub)
    • Repository e asset di codice Dataform
    • Servizi, database e tabelle di Dataproc Metastore
    • Tabelle del catalogo REST Iceberg (incluso Google Cloud il catalogo IRC di runtime di Lakehouse , IRC di Databricks Unity, IRC di AWS Glue Data Catalog e IRC di Snowflake Horizon)

  • AI e machine learning

    • Modelli, set di dati, gruppi di funzionalità, viste delle funzionalità e istanze di negozio online di Vertex AI
  • Business intelligence

    • Istanze, dashboard, elementi della dashboard, Look, progetti LookML, modelli, Esplora e viste di Looker (Google Cloud core) (anteprima)
  • Database

    • Istanze, cluster e tabelle Bigtable (inclusi i dettagli delle famiglie di colonne)
    • Istanze, database, tabelle e viste Spanner
  • Streaming e messaggistica

    • Argomenti Pub/Sub
  • Dati non strutturati

  • Database operativi

Per importare i metadati da un'origine di terze parti in Knowledge Catalog, puoi utilizzare una pipeline di connettività gestita. Per saperne di più, vedi Panoramica della connettività gestita.

Limitazioni

Quando pianifichi il deployment, tieni presente le seguenti limitazioni:

  • Integrazioni supportate. Sebbene Knowledge Catalog supporti i principali sistemi di terze parti, alcune estrazioni semantiche automatizzate potrebbero essere limitate ai servizi integrati Google Cloud .

  • Limiti di quota. Le quote API standard si applicano alle operazioni di recupero del contesto ed estrazione dei metadati. Google Cloud

Passaggi successivi