0% acharam este documento útil (0 voto)
16 visualizações2 páginas

Tutorial Spark

O documento é um tutorial sobre como configurar o Apache Spark, incluindo pré-requisitos como Java JDK, Python e Scala. Ele detalha o processo de instalação do Java, download do Apache Spark, configuração de variáveis de ambiente e teste da instalação. Além disso, fornece um exemplo de execução de um script PySpark.

Enviado por

mbs38
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
16 visualizações2 páginas

Tutorial Spark

O documento é um tutorial sobre como configurar o Apache Spark, incluindo pré-requisitos como Java JDK, Python e Scala. Ele detalha o processo de instalação do Java, download do Apache Spark, configuração de variáveis de ambiente e teste da instalação. Além disso, fornece um exemplo de execução de um script PySpark.

Enviado por

mbs38
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 2

Tutorial de Configuração do Apache Spark

Tutorial de Configuração do Apache Spark

1. PRÉ-REQUISITOS
- Java JDK 8 ou superior
- Python 3 (opcional, se fores usar PySpark)
- Scala (opcional, se fores usar Spark com Scala)
- Hadoop (opcional)
- Ambiente UNIX-like (Linux/macOS/WSL no Windows)

2. INSTALAR O JAVA
Verifica se tens o Java instalado:
java -version
Se não tiveres, instala-o (Ubuntu):
sudo apt update
sudo apt install openjdk-11-jdk

3. DOWNLOAD DO APACHE SPARK


1. Vai a: https://spark.apache.org/downloads.html
2. Escolhe a versão estável.
3. Exemplo de download:
wget https://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz
tar -xvzf spark-3.5.0-bin-hadoop3.tgz
mv spark-3.5.0-bin-hadoop3 ~/spark

4. CONFIGURAÇÃO DAS VARIÁVEIS DE AMBIENTE


Adiciona ao ficheiro ~/.bashrc ou ~/.zshrc:
export SPARK_HOME=~/spark
export PATH=$SPARK_HOME/bin:$PATH
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
Depois aplica:
source ~/.bashrc
5. TESTAR A INSTALAÇÃO
spark-shell # Para Scala
pyspark # Para Python

6. EXECUTAR UM EXEMPLO COM PYSPARK


Cria um ficheiro exemplo.py:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Exemplo").getOrCreate()
dados = spark.range(1, 100).toDF("número")
dados.show()

Corre com:
spark-submit exemplo.py

Para mais informações: https://gptonline.ai/

Você também pode gostar