Dal corso: Fondamenti di ingegneria dei dati

Sblocca questo corso con una prova gratuita

Iscriviti adesso per accedere a oltre 24.900 corsi tenuti da esperti del settore.

Pianificare la pipeline ETL utilizzando Airflow

Pianificare la pipeline ETL utilizzando Airflow

- [Istruttore] È tempo di mettere tutto insieme e pianificare i lavori che abbiamo definito finora. Come discusso, dovremo utilizzare uno strumento di pianificazione per questo, e lo strumento di pianificazione più comunemente usato è Apache Airflow. Useremo il codice scritto finora, quindi definiremo un grafico aciclico diretto usando Apache Airflow. Quindi, prima di tutto, impostiamo Airflow sulla nostra macchina. Quindi, sto prima creando una directory chiamata Airflow, in cui risiederebbero tutti i file di configurazione e il database. Quindi mkdir flusso d'aria, questo è il comando. Ora, il prossimo passo è impostare la variabile AIRFLOW_HOME. Quindi, AIRFLOW_HOME, esporta il percorso di questa variabile che è effettivamente richiesta dal file di configurazione Airflow. Chapter_4 e la directory del flusso d'aria. Questa è la casa che abbiamo impostato. Ora, il prossimo passo è installare effettivamente Apache Airflow. Quindi sudo pip installa apache-airflow. Premi Invio.…

Contenuti