Tutorial de Configuração do Apache Spark
Tutorial de Configuração do Apache Spark
1. PRÉ-REQUISITOS
- Java JDK 8 ou superior
- Python 3 (opcional, se fores usar PySpark)
- Scala (opcional, se fores usar Spark com Scala)
- Hadoop (opcional)
- Ambiente UNIX-like (Linux/macOS/WSL no Windows)
2. INSTALAR O JAVA
Verifica se tens o Java instalado:
java -version
Se não tiveres, instala-o (Ubuntu):
sudo apt update
sudo apt install openjdk-11-jdk
3. DOWNLOAD DO APACHE SPARK
1. Vai a: https://spark.apache.org/downloads.html
2. Escolhe a versão estável.
3. Exemplo de download:
wget https://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz
tar -xvzf spark-3.5.0-bin-hadoop3.tgz
mv spark-3.5.0-bin-hadoop3 ~/spark
4. CONFIGURAÇÃO DAS VARIÁVEIS DE AMBIENTE
Adiciona ao ficheiro ~/.bashrc ou ~/.zshrc:
export SPARK_HOME=~/spark
export PATH=$SPARK_HOME/bin:$PATH
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
Depois aplica:
source ~/.bashrc
5. TESTAR A INSTALAÇÃO
spark-shell # Para Scala
pyspark # Para Python
6. EXECUTAR UM EXEMPLO COM PYSPARK
Cria um ficheiro exemplo.py:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Exemplo").getOrCreate()
dados = spark.range(1, 100).toDF("número")
dados.show()
Corre com:
spark-submit exemplo.py
Para mais informações: https://gptonline.ai/