Lakehouse pour Apache Iceberg est un moteur de stockage hautes performances conçu pour créer des data lakehouses ouverts. En intégrant le format de table ouvert Apache Iceberg à un stockage de niveau entreprise entièrement géré sur Google Cloud, il fournit une interface unifiée pour l'analyse avancée et l'IA.
Pour gérer les métadonnées de table ouverte, Lakehouse pour Apache Iceberg utilise le catalogue d'exécution Lakehouse. Ce service de métadonnées sans serveur entièrement géré fournit une source unique de vérité dans des systèmes disparates, centralisant la découverte et supprimant la nécessité de synchroniser les métadonnées entre différents dépôts.
En dissociant le stockage du calcul, Lakehouse de Google Cloud assure une interopérabilité transparente entre les systèmes analytiques et transactionnels. Cette architecture permet à plusieurs moteurs, y compris Apache Spark, Apache Flink, Apache Hive, Trino et BigQuery, d'accéder à une source unique de vérité, ce qui élimine la duplication des données et garantit des insights cohérents.
Principaux avantages
- Architecture sans serveur : Lakehouse de Google Cloud élimine le besoin de gestion des serveurs ou des clusters, ce qui réduit les frais opérationnels et permet un scaling automatique en fonction de la demande. Pour les charges de travail de calcul, les sessions interactives et par lot sans serveur suppriment la contention des ressources entre les jobs et automatisent la maintenance de l'infrastructure.
- Gestion et gouvernance unifiées des données : l'intégration à Knowledge Catalog garantit la définition et l' application centralisées des règles de gouvernance sur plusieurs moteurs, et permet la recherche sémantique, la traçabilité des données et les contrôles de qualité.
- Extensions de stockage : Lakehouse de Google Cloud étend les fonctionnalités de gestion de Cloud Storage pour inclure des fonctionnalités telles que le classement automatique et les clés de chiffrement gérées par le client (CMEK).
- Expérience entièrement gérée : lorsqu'il est intégré à BigQuery, Lakehouse de Google Cloud utilise le streaming à haut débit et la gestion des métadonnées en temps réel pour offrir une expérience de streaming, d'analyse et d'IA entièrement gérée.
- Haute disponibilité et reprise après sinistre : Lakehouse de Google Cloud propose des options de réplication interrégionale et de reprise après sinistre (aperçu) pour assurer la haute disponibilité de vos données.
Cas d'utilisation
- Lakehouse ouvert : utilisez Cloud Storage comme couche de stockage, et Lakehouse de Google Cloud fournit l'interface de gestion et de gouvernance pour les données Apache Iceberg.
- Intégration analytique et transactionnelle : accédez directement aux tables Apache Iceberg analytiques dans AlloyDB pour PostgreSQL (aperçu) afin de combiner les données analytiques avec les charges de travail transactionnelles.
- Accès unifié : permettez à différents moteurs (Apache Spark, Apache Flink, BigQuery) d'interagir avec les mêmes tables Apache Iceberg avec des métadonnées cohérentes.
- Analyse et IA multicloud : utilisez Lakehouse multicloud (aperçu) pour synchroniser les métadonnées d'autres fournisseurs cloud, ce qui vous permet d'interroger des données avec BigQuery ou des moteurs Open Source externes via le point de terminaison du catalogue REST Apache Iceberg, le tout sans migrer les données.
- Exploration d'ensembles de données publics : interrogez facilement des ensembles de données publics de haute qualité à l'aide du point de terminaison du catalogue REST Apache Iceberg sans gérer l'infrastructure.
- Metastore Hive : connectez des moteurs Open Source tels qu'Apache Spark et Apache Hive au catalogue d'exécution Lakehouse à l'aide du catalogue Hive (aperçu). Cela élimine les frais opérationnels liés à la maintenance d'un metastore Hive (HMS) auto-hébergé tout en permettant le partage transparent des données et les requêtes de table directes dans BigQuery.
Interfaces et outils
Vous pouvez interagir avec les ressources Lakehouse de Google Cloud à l'aide des outils suivants :
- Google Cloud Console : utilisez la console pour créer des catalogues, afficher les propriétés des catalogues , afficher les journaux d'audit et configurer les autorisations.
- BigQuery SQL : utilisez le langage LDD (langage de définition de données) SQL standard pour créer et gérer des tables Apache Iceberg et des tables externes intégrées au catalogue d'exécution Lakehouse.
- Moteurs Open Source : utilisez des moteurs tels qu'Apache Spark, Apache Flink et Apache Hive avec le catalogue d'exécution Lakehouse pour lire et écrire des données.
- IDE et blocs-notes : utilisez des blocs-notes Apache Spark interactifs et des extensions d'IDE, telles que l'extension Data Agent Kit (DAK) pour VS Code, afin de vous authentifier auprès de Google Cloud, de créer du code de manière interactive et de gérer les sessions de blocs-notes directement dans votre environnement de développement.
- Outils d'orchestration et de MLOps : intégrez des pipelines par lot sans serveur et des opérations de catalogue aux workflows d'orchestration à l'aide de Managed Service pour Apache Airflow (anciennement Cloud Composer) et de Kubeflow Pipelines dans Vertex AI.
- API du catalogue d'exécution Lakehouse : utilisez le point de terminaison du catalogue REST Apache Iceberg pour interagir avec le service à l'aide d'outils compatibles avec la spécification REST Apache Iceberg ouverte.
- Prise en charge des tables Apache Iceberg : les tables Apache Iceberg V2 (disponibilité générale) et V3 (aperçu) sont compatibles. Les tables Iceberg V1 ne sont pas compatibles.
Étape suivante
- Découvrez l'architecture de Lakehouse de Google Cloud.