Configurer VPC Service Controls

Airflow géré (3e génération) | Airflow géré (2e génération) | Airflow géré (1re génération héritée)

VPC Service Controls permet aux organisations de définir un périmètre autour des Google Cloud ressources afin de limiter les risques d'exfiltration de données.

Les environnements Airflow géré peuvent être déployés dans un périmètre de service. En configurant votre environnement avec VPC Service Controls, vous pouvez garder vos données sensibles privées tout en profitant des fonctionnalités d'orchestration des workflows entièrement gérées d'Airflow géré.

La compatibilité de VPC Service Controls avec Airflow géré implique les éléments suivants :

  • Airflow géré peut désormais être sélectionné en tant que service sécurisé dans un périmètre VPC Service Controls.
  • Toutes les ressources sous-jacentes utilisées par Airflow géré sont configurées pour assurer l'architecture de VPC Service Controls et respecter ses règles.

Le déploiement d'environnements Airflow géré avec VPC Service Controls offre les avantages suivants :

  • Réduction du risque d'exfiltration des données
  • Protection contre l'exposition des données en raison d'une mauvaise configuration des contrôles des accès
  • Réduction du risque de copie des données par des utilisateurs malveillants vers des ressources non autorisées Google Cloud ou des pirates informatiques externes accédant Google Cloud aux ressources depuis Internet

À propos de VPC Service Controls dans Airflow géré

  • Toutes les contraintes réseau de VPC Service Controls s'appliqueront également à vos environnements Airflow géré. Pour en savoir plus, consultez la documentation de VPC Service Controls.

À propos de la connectivité aux API et services Google dans VPC Service Controls

Airflow géré (3e génération) achemine le trafic vers les services Google via restricted.googleapis.com, ce qui permet d'accéder aux API, services et domaines Google compatibles avec cette plage.

Pour en savoir plus et obtenir la liste des services et domaines disponibles via restricted.googleapis.com, consultez Configuration réseau dans la documentation Virtual Private Cloud.

Les environnements Airflow géré (3e génération) bloquent les appels aux API, services et domaines Google qui ne figurent pas dans la liste des API et services requis. Si vous souhaitez appeler une API à partir d'un DAG :

  1. Assurez-vous que le service est compatible avec VPC Service Controls.
  2. Ajoutez le service aux services restreints.
  3. Ajoutez le service aux services accessibles au VPC.

Par exemple, si vous utilisez un opérateur Vertex AI, ajoutez aiplatform.googleapis.com aux services restreints et aux services accessibles au VPC.

Pour en savoir plus sur l'ajout de services à un périmètre, consultez Gérer les périmètres de service dans la documentation de VPC Service Controls.

Dans Airflow géré (3e génération), les services qui ne sont pas compatibles avec VPC Service Controls et qui ne sont pas disponibles via restricted.googleapis.com ne sont pas accessibles à partir des environnements protégés par VPC Service Controls. Cette restriction a été ajoutée dans Airflow géré (3e génération) pour améliorer la sécurité de l'environnement. Bien qu'Airflow géré (2e génération) permette de configurer l'accès à ces services non compatibles, nous vous recommandons vivement de ne pas le faire dans un environnement protégé par VPC Service Controls.

Créer des environnements dans un périmètre

Pour déployer Airflow géré dans un périmètre, procédez comme suit :

  1. Activez l'API Access Context Manager et l'API Airflow géré pour votre projet. Consultez la section Activer des API.

  2. Créez un périmètre en suivant les instructions de configuration du périmètre dans la documentation de VPC Service Controls. Assurez-vous que la liste des services restreints inclut tous les services utilisés par Airflow géré, en plus des autres services que vous souhaitez limiter :

    • API Cloud Composer (composer.googleapis.com)
    • API Artifact Registry (artifactregistry.googleapis.com)
    • API Compute Engine (compute.googleapis.com)
    • API Kubernetes Engine (container.googleapis.com)
    • API Container File System (containerfilesystem.googleapis.com)
    • API Cloud DNS (dns.googleapis.com)
    • API Service Account Credentials (iamcredentials.googleapis.com)
    • API Cloud Logging (logging.googleapis.com)
    • API Cloud Monitoring (monitoring.googleapis.com)
    • API Cloud Pub/Sub (pubsub.googleapis.com)
    • API Cloud SQL Admin (sqladmin.googleapis.com)
    • API Cloud Storage (storage.googleapis.com)

    • Pour tous les autres services utilisés par vos DAG :

      1. Ajoutez le service aux services restreints.
      2. Ajoutez le service aux services accessibles au VPC.
  3. Créez un environnement Airflow géré :

    1. Utilisez Google Cloud CLI pour créer votre environnement.
    2. Activez l'adresse IP privée avec l'argument --enable-private-environment.
    3. Spécifiez les paramètres d'accès pour le serveur Web avec --web-server-allow-all, --web-server-allow-ip, ou --web-server-deny-all arguments. Pour en savoir plus sur l'utilisation de ces arguments, consultez Créer des environnements. Pour améliorer la protection, autorisez uniquement l'accès au serveur Web à partir de plages d'adresses IP spécifiques.
    4. Interdisez l'installation de packages à partir de dépôts Internet publics avec l'--enable-private-builds-only argument.

      Exemple :

      gcloud composer environments create example-environment \
        --location us-central1 \
        --enable-private-environment \
        --web-server-allow-all \
        --enable-private-builds-only
      
  4. Par défaut, l'accès à l'interface utilisateur et à l'API Airflow n'est autorisé qu'à partir du périmètre de sécurité. Si vous souhaitez le rendre disponible en dehors du périmètre de sécurité, configurez des niveaux d'accès ou des règles d'entrée et de sortie.

Ajouter un environnement existant au périmètre

Vous pouvez ajouter le projet contenant votre environnement à un périmètre si vos environnements utilisent une adresse IP privée et si l'installation de packages PyPI à partir de dépôts publics est désactivée.

Pour mettre à jour un environnement Airflow géré (3e génération) existant vers cette configuration :

  1. Assurez-vous d'avoir déjà créé ou configuré le périmètre comme décrit dans la section précédente.
  2. Utilisez Google Cloud CLI pour mettre à jour votre environnement.
  3. Activez l'adresse IP privée avec l'argument --enable-private-environment.
  4. Interdisez l'installation de packages à partir de dépôts Internet publics avec l'argument --enable-private-builds-only.
  5. Si nécessaire, configurez l'accès au serveur Web Airflow. Pour améliorer la protection, autorisez uniquement l'accès au serveur Web à partir de plages d'adresses IP spécifiques.

Exemple :

gcloud composer environments update example-environment \
  --location us-central1 \
  --enable-private-environment \
  --enable-private-builds-only

Installer des packages PyPI dans VPC Service Controls

Dans la configuration par défaut de VPC Service Controls, Airflow géré n'accepte que l'installation de packages PyPI à partir de dépôts privés accessibles depuis l'espace d'adresses IP internes du réseau VPC.

Par défaut, tous les environnements Airflow géré dans un périmètre VPC Service Controls n'ont pas accès aux dépôts PyPI publics.

Installer à partir d'un dépôt privé

La configuration recommandée consiste à configurer un dépôt PyPI privé :

  1. Remplissez-le avec les packages approuvés utilisés par votre organisation, puis configurez Airflow géré pour installer des dépendances Python à partir d'un dépôt privé.

Installer à partir d'un dépôt public

Pour installer des packages PyPI à partir d'un dépôt externe :

  1. Créez un dépôt distant Artifact Registry.
  2. Accordez à ce dépôt l'accès aux sources en amont.
  3. Configurez Airflow pour installer des packages à partir d'un dépôt Artifact Registry.

Journaux VPC Service Controls

Lorsque vous résolvez des problèmes de création d'environnement, vous pouvez analyser les journaux d'audit générés par VPC Service Controls.

En plus des autres messages de journal, vous pouvez consulter les journaux pour obtenir des informations sur cloud-airflow-prod@system.gserviceaccount.com et service-PROJECT_ID@cloudcomposer-accounts.iam.gserviceaccount.com les comptes de service qui configurent les composants de vos environnements.

Le service Airflow géré utilise le cloud-airflow-prod@system.gserviceaccount.com compte de service pour gérer les composants du projet locataire de vos environnements.

Le service-PROJECT_ID@cloudcomposer-accounts.iam.gserviceaccount.com compte de service, également appelé compte de service de l'agent de service Composer, gère les composants d'environnement dans les projets de service et hôtes.

Étape suivante