0% ont trouvé ce document utile (0 vote)

28 vues3 pages

TP 1 Spark

Ce TP est pour améliorer vous compétences en Spark et IA.

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

28 vues3 pages

TP 1 Spark

Ce TP est pour améliorer vous compétences en Spark et IA.

Transféré par

Hadjerj Djafri

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 3

Université Badji Mokhtar - Annaba - Département Informatique

2ème année Master –SID

Big Data et Hadoop

Série TP : SPARK
I. Préparation de l'Environnement PySpark

1. Installer PySpark
Google Colab ne vient pas avec PySpark préinstallé, alors nous allons l’installer. Dans une cellule Colab, exécutez :

!apt-get install openjdk-8-jdk-headless -qq > /dev/null

!wget -q https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
!tar xf spark-3.1.1-bin-hadoop2.7.tgz
!pip install -q findspark
2. Configurer les Variables d’Environnement
Configurez les variables d’environnement pour que Colab puisse utiliser Spark. Exécutez ce code :

import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.1.1-bin-hadoop2.7"
3. Initialiser PySpark
Lancez PySpark en important et initialisant findspark :

import findspark
findspark.init()

II. Travaux pratiques :

Exercice 1 : Comptage des mots

Objectifs
Écrire et exécuter un programme de comptage de mots (word count) en utilisant PySpark.
Observer et analyser les résultats.

Simulation de données :
Pour simuler une source de données, créons un fichier texte simple :

text_data = """Hello world

Hello Spark
Hello Hadoop
Spark and Hadoop are big data frameworks
Spark is fast and efficient"""
with open("input.txt", "w") as file:
file.write(text_data)
Solution :
Voici le code pour effectuer le comptage de mots en utilisant PySpark :

from pyspark import SparkContext

# Initialiser le contexte Spark
sc = SparkContext.getOrCreate()
# Charger le fichier texte
text_file = sc.textFile("input.txt")
# Processus de comptage de mots
counts = (text_file.flatMap(lambda line: line.split(" "))

Dr. Ayoub Bouslah

Université Badji Mokhtar - Annaba - Département Informatique
2ème année Master –SID
Big Data et Hadoop

.map(lambda word: (word, 1))

.reduceByKey(lambda a, b: a + b))
# Collecter et afficher les résultats
output = counts.collect()
for word, count in output:
print(f"{word}: {count}")
Explication du Code
flatMap : Sépare chaque ligne en mots.
map : Associe chaque mot au nombre 1.
reduceByKey : Additionne les valeurs associées aux mêmes mots (c.-à-d., les comptes).
collect : Récupère les résultats sur le nœud maître pour les afficher.

Exercice 2 : Analyse de Logs de Serveur Web Apache avec PySpark

Les fichiers de logs de serveur web contiennent des informations sur toutes les requêtes HTTP faites au serveur, y
compris la source (adresse IP), l’heure, le chemin demandé, le code de statut HTTP, et d’autres détails. Analyser
ces logs permet d’améliorer la sécurité, de comprendre le comportement des utilisateurs, et d’optimiser les
performances du serveur.

Exemple de ligne dans un fichier de log Apache :

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326

Charger et nettoyer un ensemble volumineux de logs d’accès d’un serveur web.

Analyser les modèles de trafic : pages les plus visitées, périodes de pointe, adresses IP fréquentes, etc.
Identifier les tentatives d’accès non autorisé (ex. requêtes suspectes) et anomalies dans le trafic.

Simulation de données :
# Créer un fichier de logs avec plusieurs lignes
with open("access_log.txt", "w") as log_file:
logs = [
'127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326',
'127.0.0.1 - john [10/Oct/2000:14:56:22 -0700] "POST /login HTTP/1.0" 404 721',
'192.168.1.1 - alice [10/Oct/2000:15:22:13 -0700] "GET /home HTTP/1.1" 200 5312',
'10.0.0.1 - bob [10/Oct/2000:16:18:45 -0700] "GET /about HTTP/1.0" 500 1087',
'127.0.0.1 - frank [10/Oct/2000:16:35:01 -0700] "GET /contact HTTP/1.1" 200 1982',
]
# Écrire chaque log dans le fichier
for log in logs:
log_file.write(log + "\n")
Exercice 3 : Classification de Documents Non Structurés avec PySpark et Deep
Learning
Les entreprises qui gèrent de grandes quantités de documents textuels (descriptions de produits, articles
d'actualité, etc.) ont besoin de classer leurs documents en différentes catégories (technique, santé,
divertissement, etc.). Dans ce TP, vous allez construire un modèle de deep learning pour classer
automatiquement les documents en fonction de leur texte.

Charger, nettoyer et prétraiter des données textuelles non structurées avec PySpark.
Créer des embeddings de texte avec Word2Vec et entraîner un modèle de deep learning pour classer les
documents.
Utiliser un modèle RNN ou Transformer (BERT) pour une classification efficace des documents.

Simulation de données :

Dr. Ayoub Bouslah

Université Badji Mokhtar - Annaba - Département Informatique
2ème année Master –SID
Big Data et Hadoop

import pandas as pd
# Exemple de données simulées
data = {
"doc_id": range(1, 11),
"text": [
"Artificial intelligence is transforming the tech industry.",
"Exercise is beneficial for both body and mind.",
"The new movie release has broken several box office records.",
"Machine learning enhances predictive analytics in business.",
"Healthy diets are key to maintaining good health.",
"The football team won the championship last night.",
"Cybersecurity is a major concern for companies worldwide.",
"Research shows the impact of meditation on mental health.",
"Latest gadget reviews for the tech-savvy consumer.",
"The tennis match was intense and thrilling to watch."
],
"category": ["tech", "health", "entertainment", "tech", "health", "sports", "tech", "health", "tech",
"sports"]
}

# Créer un DataFrame Pandas et sauvegarder en CSV

df = pd.DataFrame(data)
df.to_csv("documents.csv", index=False)

Dr. Ayoub Bouslah

Vous aimerez peut-être aussi

TP Initiation Spark
Pas encore d'évaluation
TP Initiation Spark
1 page
Python pour les hackers : Le guide des script kiddies : apprenez à créer vos propres outils de hacking
D'Everand
Python pour les hackers : Le guide des script kiddies : apprenez à créer vos propres outils de hacking
Kevin Droz
5/5 (7)
Model Lettre de Demande de Partenariat
80% (10)
Model Lettre de Demande de Partenariat
1 page
Merise - Exercices Flux - MCT - MOT - Corrigés
85% (20)
Merise - Exercices Flux - MCT - MOT - Corrigés
7 pages
Exam Methode Formelle MRID22 Vfinale Correction
Pas encore d'évaluation
Exam Methode Formelle MRID22 Vfinale Correction
6 pages
Lab 3-Spark RDD
Pas encore d'évaluation
Lab 3-Spark RDD
2 pages
TP4 BigData
Pas encore d'évaluation
TP4 BigData
3 pages
Classification de Textes À L'Aide de Pyspark ML (Disaster Tweets)
Pas encore d'évaluation
Classification de Textes À L'Aide de Pyspark ML (Disaster Tweets)
14 pages
Application2 - Initiation Spark PDF
Pas encore d'évaluation
Application2 - Initiation Spark PDF
7 pages
TP - Initiation Spark
Pas encore d'évaluation
TP - Initiation Spark
6 pages
TP 3
Pas encore d'évaluation
TP 3
4 pages
No SQ L Avec Cassandra
Pas encore d'évaluation
No SQ L Avec Cassandra
7 pages
TP Spark 2
Pas encore d'évaluation
TP Spark 2
6 pages
TP Lab Spark
Pas encore d'évaluation
TP Lab Spark
3 pages
Ilovepdf Merged
Pas encore d'évaluation
Ilovepdf Merged
23 pages
TP 2
Pas encore d'évaluation
TP 2
22 pages
Big Data TP 2 RDD (Dataframe)
Pas encore d'évaluation
Big Data TP 2 RDD (Dataframe)
23 pages
TP Scala
Pas encore d'évaluation
TP Scala
2 pages
TP1 - PySpark
Pas encore d'évaluation
TP1 - PySpark
5 pages
TP2 Spark Amini Bekkar Compressed
Pas encore d'évaluation
TP2 Spark Amini Bekkar Compressed
15 pages
TP5 - Apache Spark
Pas encore d'évaluation
TP5 - Apache Spark
27 pages
Séance 1: Introduction À l'IA Et Aux Concepts de Base
Pas encore d'évaluation
Séance 1: Introduction À l'IA Et Aux Concepts de Base
17 pages
Examen TP Data Science 2024
Pas encore d'évaluation
Examen TP Data Science 2024
4 pages
Sparks Tre Ming
Pas encore d'évaluation
Sparks Tre Ming
13 pages
TD 2
Pas encore d'évaluation
TD 2
3 pages
TP3 2021
Pas encore d'évaluation
TP3 2021
5 pages
Apache Spark TP8
Pas encore d'évaluation
Apache Spark TP8
9 pages
TP 2.3 Spark Batch Scala
Pas encore d'évaluation
TP 2.3 Spark Batch Scala
10 pages
TP4-5 Spark
Pas encore d'évaluation
TP4-5 Spark
21 pages
TP4 - Spark: Outils Pour Le Big Data
Pas encore d'évaluation
TP4 - Spark: Outils Pour Le Big Data
6 pages
TP Big Data
Pas encore d'évaluation
TP Big Data
11 pages
Compte Rendu TP01 IA
100% (1)
Compte Rendu TP01 IA
16 pages
Présentation de L'environnement de Travail
Pas encore d'évaluation
Présentation de L'environnement de Travail
5 pages
22061
Pas encore d'évaluation
22061
27 pages
B08KRRPG1Q
Pas encore d'évaluation
B08KRRPG1Q
216 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
TP 2 Spark
Pas encore d'évaluation
TP 2 Spark
4 pages
TP1 Compréhension Et Préparation Des Données
Pas encore d'évaluation
TP1 Compréhension Et Préparation Des Données
5 pages
DataFrame Spark Tutore
Pas encore d'évaluation
DataFrame Spark Tutore
2 pages
Tpe Ingénierie de Données
Pas encore d'évaluation
Tpe Ingénierie de Données
4 pages
TP Python Pour Les Big Data
Pas encore d'évaluation
TP Python Pour Les Big Data
3 pages
TP: Création D'un Pare-Feu Intelligent Objectifs Du TP
Pas encore d'évaluation
TP: Création D'un Pare-Feu Intelligent Objectifs Du TP
5 pages
Chapitre 1 - Spark Overview
Pas encore d'évaluation
Chapitre 1 - Spark Overview
14 pages
Cours Spark
Pas encore d'évaluation
Cours Spark
50 pages
TP Transformers
Pas encore d'évaluation
TP Transformers
5 pages
Rapport HMM
Pas encore d'évaluation
Rapport HMM
36 pages
Big Data 2 TP n1
Pas encore d'évaluation
Big Data 2 TP n1
11 pages
Projet Tech Index 2223
Pas encore d'évaluation
Projet Tech Index 2223
5 pages
TD 3
Pas encore d'évaluation
TD 3
2 pages
TP 01 - RDD
Pas encore d'évaluation
TP 01 - RDD
2 pages
Pyspark Final
Pas encore d'évaluation
Pyspark Final
61 pages
Tp1: Installation de L'Apache Spark: Lebutdecetp
100% (1)
Tp1: Installation de L'Apache Spark: Lebutdecetp
4 pages
TP Spark
Pas encore d'évaluation
TP Spark
2 pages
TP1FBD
Pas encore d'évaluation
TP1FBD
3 pages
Initiation à l'écosytème Hadoop
D'Everand
Initiation à l'écosytème Hadoop
Juvénal CHOKOGOUE
5/5 (1)
Présentation Sans Titre
Pas encore d'évaluation
Présentation Sans Titre
20 pages
TP NLP GenAI PDF
Pas encore d'évaluation
TP NLP GenAI PDF
6 pages
Programmer en JavaScript
D'Everand
Programmer en JavaScript
Preston Prescott
Pas encore d'évaluation
TP1 Big Data
Pas encore d'évaluation
TP1 Big Data
5 pages
Tpsparksql
Pas encore d'évaluation
Tpsparksql
11 pages
Presentation Cours ML Licence Excellence Seance Python Seance 3
Pas encore d'évaluation
Presentation Cours ML Licence Excellence Seance Python Seance 3
40 pages
TD1FBD
Pas encore d'évaluation
TD1FBD
4 pages
Paragraph
Pas encore d'évaluation
Paragraph
135 pages
Exemple Rapport TP DNS
Pas encore d'évaluation
Exemple Rapport TP DNS
12 pages
Processus - Gestion Des Incidents de Sécurité
Pas encore d'évaluation
Processus - Gestion Des Incidents de Sécurité
17 pages
GLPI OCS FusionInventory Latest
Pas encore d'évaluation
GLPI OCS FusionInventory Latest
184 pages
AlgorithmesPython KF
Pas encore d'évaluation
AlgorithmesPython KF
47 pages
Questionnaire Cloud
Pas encore d'évaluation
Questionnaire Cloud
3 pages
Belkhars Said Cv-2
Pas encore d'évaluation
Belkhars Said Cv-2
1 page
Sécurité Sih
Pas encore d'évaluation
Sécurité Sih
6 pages
TD 2 Avec Corrigé
Pas encore d'évaluation
TD 2 Avec Corrigé
5 pages
Guide Utilisation Plateforme EBCA-2014-03
Pas encore d'évaluation
Guide Utilisation Plateforme EBCA-2014-03
12 pages
Devoir de Maison PowerShell
Pas encore d'évaluation
Devoir de Maison PowerShell
4 pages
Formation Administrateur Reseaux Et Systemes
Pas encore d'évaluation
Formation Administrateur Reseaux Et Systemes
16 pages
Stages 2014 Astrium ST Logiciel Et Syste Mes Nume Riques - 2013-09-27
Pas encore d'évaluation
Stages 2014 Astrium ST Logiciel Et Syste Mes Nume Riques - 2013-09-27
5 pages
Examen Prototypage MIS M2 2023
Pas encore d'évaluation
Examen Prototypage MIS M2 2023
3 pages
TD2-piles Files
Pas encore d'évaluation
TD2-piles Files
2 pages
Preparation Examen RTOS
Pas encore d'évaluation
Preparation Examen RTOS
17 pages
Chap5 Les Vues
Pas encore d'évaluation
Chap5 Les Vues
8 pages
Bios Bip
100% (2)
Bios Bip
5 pages
TP Sauvegarde Et Restauration
Pas encore d'évaluation
TP Sauvegarde Et Restauration
15 pages
WWW Informatiweb P...
Pas encore d'évaluation
WWW Informatiweb P...
16 pages
Comment Utiliser Qbittorrent
Pas encore d'évaluation
Comment Utiliser Qbittorrent
20 pages
01 Adresse MAC Et Protocole Ethernet
Pas encore d'évaluation
01 Adresse MAC Et Protocole Ethernet
12 pages
PDF 20230602 094039 0000
Pas encore d'évaluation
PDF 20230602 094039 0000
1 page
QCM Rappel Js 1 Correction
Pas encore d'évaluation
QCM Rappel Js 1 Correction
3 pages
MEMOIRE L3 LEFORT Nomenjanahary Nuno Nº2132 ENI L3 GB
Pas encore d'évaluation
MEMOIRE L3 LEFORT Nomenjanahary Nuno Nº2132 ENI L3 GB
129 pages
038-001-649 - Operation Manuel Fire Detection Central - FR
Pas encore d'évaluation
038-001-649 - Operation Manuel Fire Detection Central - FR
66 pages
Cours Msi Gouvernance Si
Pas encore d'évaluation
Cours Msi Gouvernance Si
15 pages
cc2 PDF
Pas encore d'évaluation
cc2 PDF
1 page