0% ont trouvé ce document utile (0 vote)

14 vues5 pages

ch3 Spark Scala

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

14 vues5 pages

ch3 Spark Scala

Transféré par

manarsalah070503

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 5

scala

Les outils spark sont :

- Spark Streaming : il permet d'accéder à des données en temps réel.
- Spark SQL: il permet d’interroger et modifier les données comme avec des requêtes
classiques.
- Spark MLlib pour des modèles de Machine Learning.
- GraphX pour le calcul et la création de graphes.

1. Scala

Spark est basé sur le langage scala qui est un langage de programmation orienté objet et
fonctionnel. spark scala manipule les RDDs via des instructions de transformation et
d’actions.

Création d’un RDD (Dataset)

La création d’un RDD est le résultat du chargement des données ou la transformation d’un
RDD existant.
Exemples :
1. val words = sc.textFile(“file:///home/hadoop/Downloads/words_alpha.txt")
- words est le Nom de RDD
- sc : spark context
- words contient toutes les données du fichier words_alpha.txt
2. val purchases = sc.texFile(“hdfs:///im1/purchases.txt”)
⇒ il s’agit de créer un RDD (purchases) contenant les données du fichier
purchases.txt, stocké dans le hdfs (hadoop).
sachant que purchases.txt est un fichier de données défini par les colonnes
suivantes : date, heure, store, item, cost and payment. Pour identifier les
différentes colonnes, nous pouvons le charger en tant que fichier csv en indiquant
le séparateur de colonnes.
3. val purchases_col =
spark.read.option(“delimiter”,”\t”).csv(“hdfs:///im1/purchases.txt”)

- purchase_col est un dataset formaté en colonne.

- spark.read.option().csv() : permet de charger un fichier text comme un
CSV, et ce , en indiquant le séparateur de colonne dans la partie option
de la lecture.
- afin de définir deux options d’un fichier de données telles que : le nom
de colonne et le séparateur de colonne, nous pouvons définir ces options
comme suit :

val purchases_headercol = spark.read.option(“delimiter”,”\t”).option(“header”,

“true”).csv(“hdfs:///im1/purchases.txt”)

A. Les actions

collect() Elle retourne toutes les lignes du Dataset comme un tableau au

programme driver.

exemple :

val purchases = sc.textFile(“hdfs:///im1/purchases.txt”

purchases.collect() :

count() Elle retourne le nombre de lignes du Dataset.

purchases.count() : retourne le nombre de lignes dans le RDD purchases

take(n) retourne le n premières lignes du Dataset

purchases.take() : retourne le première lignes

first() Retourner la première ligne du Dataset (équivalent à take(1) .

purchases.first() : retourne la première ligne

show(n) Afficher les n premières lignes du Dataset sous forme de tableau.

purchases.show(10) : affiche les 10 premières lignes sous forme d’un
dataframe (ligne et des colonnes)

foreach(func) Appliquer la fonction func à toutes les lignes.

purchases.foreach(println) : applique la fonction (println) pour chaque

ligne du RDD purchases

reduce(func) Agréger les éléments du Dataset en utilisant la fonction func (qui prend
2 arguments et retourne 1 résultat)

purchases.map(l=>1).reduce((a,b)=>a+b)

cette instruction scala retourne le nombre de ligne dans le dataset

purchases elle équivalente à : purchases.count().

elle est composée de :

- map(l=>1) : chaque ligne sera remplacée par 1 où l=1 est une

fonction anonyme.
- reduce((a,b)=>a+b) permet d'agréger les résultats retournés par
la fonction map.

Exercice : Soit le fichier words_alpha.txt contenant les mots en anglais.

1. Avec deux manières différentes, déterminer le nombre de mots dans ce

fichier.
2. Calculer le nombre total de caractères dans ce fichier
3. Déterminer quelle est la taille maximale des mots
4. Déterminer la taille moyenne des mots.

correction :

a. chargement des words_alpha.txt

val words =
sc.textFile(“File:///home/hadoop/Downloads/words_alpha.txt”)

1. Le nombre de mots dans words

2. _alpha.txt
a1. words.count() : retourne le nombre de mots dans le fichier
words_alpha.txt

a2. words.map(l=>1).reduce((a,b)=>a+b) : retourne le nombre de mots

dans le fichier words_alpha.txt

3. Le nombre total de de caractères dans word _alpha.txt

words.map(l=>l.length).reduce((a,b)=>a+b)

4. la taille maximale des mots

words.map(l=>l.length).reduce((a,b)=>if (a>b) a else b)

5. la taille minimale des mots

words.map(l=>l.length).reduce((a,b)=>if (a>b) b else a)

6. taille moyenne des mots

words.map(l=>l.length).reduce((a,b)=>a+b)/words.count()

B. Les transformations
filter() Retourne un nouveau RDD dont le contenu vérifiant la condition de
filtre
exemple :
- val purchasesAtlanta = purchases.filter(l=>l.contains(“Atlanta”)).
- val motseas = words.filter(l=>l.contains(“eas”))

map Elle permet d’appliquer une fonction de transformation et elle retourne

le même nombre de lignes de dataset d ‘origine.

flatmap Elle permet d’appliquer une fonction flatmap qui peut retourner
plusieurs lignes par lignes de RDD source. exemple si le RDD est est
un texte et pour compter le nombre des mots du texte.

val texte = sc.textFile(“file:///home/hadoop/Downloads/texte.txt”

mots = texte.flatmap(l=>lsplit(“ “))

union Elle permet de grouper les lignes de deux rdds.

val rddAtlanta = sc.textFile(“hdfs:///im1/purchases.txt”)

val rddVisa = sc.textFile(“hdfs:///im1/purchases.txt”)
val rddresult = rddAtlanta.union(rddVisa)

intersection Elle retourne les lignes communes de deux dataset(Rdds).

exemple
val purchases = sc.textFile(“hsdfs:///im1/purchases.txt”)
val purchasesAtlanta = purchases.filter(l=>l.contains(Atlanta”))
val purchasesBooks = purchases.filter(m=>m.contains(“Books”))
val resultIntersection = purchasesAtlanta.intersection(purchasesBooks )

l’inverse de cette commande permettant de retourner les lignes vérifiant la

distinct rdd sans doublons

join join de deux rdd selons une clé

Vous aimerez peut-être aussi

Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
Corrigé TD N°1
80% (5)
Corrigé TD N°1
2 pages
tp1 Hadoop Mapreduce 2023
100% (4)
tp1 Hadoop Mapreduce 2023
5 pages
PLSQL Ap Inuka 2019 2020 PDF
Pas encore d'évaluation
PLSQL Ap Inuka 2019 2020 PDF
143 pages
TP1 Spark
Pas encore d'évaluation
TP1 Spark
2 pages
Cours Spark
Pas encore d'évaluation
Cours Spark
63 pages
Mbds Big Data Hadoop 2019 2020 TP 1
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 TP 1
17 pages
Application2 - Initiation Spark PDF
Pas encore d'évaluation
Application2 - Initiation Spark PDF
7 pages
ABL Cloud
100% (1)
ABL Cloud
9 pages
TP2 Introduction À Spark Et Scala
Pas encore d'évaluation
TP2 Introduction À Spark Et Scala
6 pages
TP1 BigDataAnalytics Initiation Hadoop
Pas encore d'évaluation
TP1 BigDataAnalytics Initiation Hadoop
9 pages
Cours Base de Donnes (S5-SMI) - Version 4-14
Pas encore d'évaluation
Cours Base de Donnes (S5-SMI) - Version 4-14
44 pages
TP Bigdata ApacheSparkRDD
Pas encore d'évaluation
TP Bigdata ApacheSparkRDD
3 pages
2 - INITIATION AI - Data - Processing
Pas encore d'évaluation
2 - INITIATION AI - Data - Processing
22 pages
Spark RDD
Pas encore d'évaluation
Spark RDD
11 pages
An Example - Introduction To Big Data and Hadoop
Pas encore d'évaluation
An Example - Introduction To Big Data and Hadoop
4 pages
TD 2
Pas encore d'évaluation
TD 2
3 pages
TP4-5 Spark
Pas encore d'évaluation
TP4-5 Spark
21 pages
Cours SPARK REDUIT V Impression (3450) - 1
Pas encore d'évaluation
Cours SPARK REDUIT V Impression (3450) - 1
138 pages
(Big Data Analytics) CHAP2 - Scala Spark
Pas encore d'évaluation
(Big Data Analytics) CHAP2 - Scala Spark
42 pages
TP1FBD
Pas encore d'évaluation
TP1FBD
3 pages
Business Intelligence - Séance 3
100% (1)
Business Intelligence - Séance 3
32 pages
SQL - Les Vues
Pas encore d'évaluation
SQL - Les Vues
19 pages
DataFrame Spark Tutore
Pas encore d'évaluation
DataFrame Spark Tutore
2 pages
TP 2
Pas encore d'évaluation
TP 2
22 pages
RDD Spark Tutore
Pas encore d'évaluation
RDD Spark Tutore
1 page
SQL BDD
Pas encore d'évaluation
SQL BDD
80 pages
Exam Big
Pas encore d'évaluation
Exam Big
2 pages
Big Data: Marie NDIAYE
Pas encore d'évaluation
Big Data: Marie NDIAYE
16 pages
Mode Déconnecté Et Connecté
Pas encore d'évaluation
Mode Déconnecté Et Connecté
18 pages
Tpe Ingénierie de Données
Pas encore d'évaluation
Tpe Ingénierie de Données
4 pages
JLH A Exercices Resolus PDF
Pas encore d'évaluation
JLH A Exercices Resolus PDF
128 pages
TP Spark 2
Pas encore d'évaluation
TP Spark 2
6 pages
TP 2 Spark
Pas encore d'évaluation
TP 2 Spark
4 pages
TP4 BigData
Pas encore d'évaluation
TP4 BigData
3 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
TP Scala
Pas encore d'évaluation
TP Scala
2 pages
Introduction - Apache Spark
Pas encore d'évaluation
Introduction - Apache Spark
53 pages
Algo Dyn 16052020 PDF
Pas encore d'évaluation
Algo Dyn 16052020 PDF
279 pages
S4 Cours1 C# Partie4
Pas encore d'évaluation
S4 Cours1 C# Partie4
160 pages
Map Reduce
Pas encore d'évaluation
Map Reduce
3 pages
TP Hadoop Et Map
Pas encore d'évaluation
TP Hadoop Et Map
4 pages
TP 2 Spark - V2
Pas encore d'évaluation
TP 2 Spark - V2
4 pages
TP MapReduce
Pas encore d'évaluation
TP MapReduce
5 pages
Big Data Et Architectures Associées: Examen de La Session Principale
Pas encore d'évaluation
Big Data Et Architectures Associées: Examen de La Session Principale
2 pages
Manuel Utilisateur Du SIGSANTE DHIS2 - PDF - Système D'information Géographique - Sciences de L'information
Pas encore d'évaluation
Manuel Utilisateur Du SIGSANTE DHIS2 - PDF - Système D'information Géographique - Sciences de L'information
54 pages
Partie Théorique
Pas encore d'évaluation
Partie Théorique
34 pages
Module 4 Les Curseurs
Pas encore d'évaluation
Module 4 Les Curseurs
14 pages
Theories Des Bases de Donnees 4 - 2023
Pas encore d'évaluation
Theories Des Bases de Donnees 4 - 2023
119 pages
TP - Initiation Spark
Pas encore d'évaluation
TP - Initiation Spark
6 pages
Spark Partie 1
Pas encore d'évaluation
Spark Partie 1
56 pages
TP6 - 3im
Pas encore d'évaluation
TP6 - 3im
2 pages
Hadji Memoires
Pas encore d'évaluation
Hadji Memoires
11 pages
Cours1 2 Bigdata 1
Pas encore d'évaluation
Cours1 2 Bigdata 1
93 pages
PARTIE 3 - OPÉRATIONS SUR RDD SUR SPARK v0
Pas encore d'évaluation
PARTIE 3 - OPÉRATIONS SUR RDD SUR SPARK v0
4 pages
Big Data 2 TP n1
Pas encore d'évaluation
Big Data 2 TP n1
11 pages
Entrepôts de Données - Systèmes OLAP - ROLAP, MOLAP Et OLAP (5) 1 Introduction Aux Systèmes
Pas encore d'évaluation
Entrepôts de Données - Systèmes OLAP - ROLAP, MOLAP Et OLAP (5) 1 Introduction Aux Systèmes
16 pages
Pyspark Final
Pas encore d'évaluation
Pyspark Final
61 pages
Résumé Presoutenance
Pas encore d'évaluation
Résumé Presoutenance
8 pages
Prep
Pas encore d'évaluation
Prep
3 pages
Data Chapitre 5 À Imprimer
Pas encore d'évaluation
Data Chapitre 5 À Imprimer
11 pages
Cours - Spark - Partie 3 Et 4
Pas encore d'évaluation
Cours - Spark - Partie 3 Et 4
46 pages
Projet IA
Pas encore d'évaluation
Projet IA
29 pages
Ilovepdf Merged
Pas encore d'évaluation
Ilovepdf Merged
23 pages
TP ComplementaireSpark
Pas encore d'évaluation
TP ComplementaireSpark
3 pages
TP Spark
Pas encore d'évaluation
TP Spark
2 pages
TP1 - PySpark
Pas encore d'évaluation
TP1 - PySpark
5 pages
Graphes Spark RDD 4 Par Page Pagerank Hits
Pas encore d'évaluation
Graphes Spark RDD 4 Par Page Pagerank Hits
20 pages
Résumé
Pas encore d'évaluation
Résumé
9 pages
Documentation MS5145 + GS9520
Pas encore d'évaluation
Documentation MS5145 + GS9520
18 pages
Big Data
Pas encore d'évaluation
Big Data
12 pages
Big Data Tps
Pas encore d'évaluation
Big Data Tps
28 pages
TNSI-S02-Bases de Données - Cours
Pas encore d'évaluation
TNSI-S02-Bases de Données - Cours
14 pages
Lab 3-Spark RDD
Pas encore d'évaluation
Lab 3-Spark RDD
2 pages
TP 2
Pas encore d'évaluation
TP 2
4 pages
Chapitre 4 - Apache Spark
Pas encore d'évaluation
Chapitre 4 - Apache Spark
13 pages
Sparks Tre Ming
Pas encore d'évaluation
Sparks Tre Ming
13 pages
Support Formation SageBIReporting Paie Perf
Pas encore d'évaluation
Support Formation SageBIReporting Paie Perf
46 pages
Bigdata Docker
Pas encore d'évaluation
Bigdata Docker
35 pages
CCNA 1 Exploration
Pas encore d'évaluation
CCNA 1 Exploration
47 pages
Langage SQL
Pas encore d'évaluation
Langage SQL
19 pages
L'apprentissage Automatique Octobre 2024
Pas encore d'évaluation
L'apprentissage Automatique Octobre 2024
61 pages
TP 2.3 Spark Batch Scala
Pas encore d'évaluation
TP 2.3 Spark Batch Scala
10 pages
TP1 Spark
Pas encore d'évaluation
TP1 Spark
3 pages
Chap 1 BD
Pas encore d'évaluation
Chap 1 BD
17 pages
Guide de Preco Sage 100 Multi Devis Entreprise
Pas encore d'évaluation
Guide de Preco Sage 100 Multi Devis Entreprise
63 pages
Big Data TP 2 RDD (Dataframe)
Pas encore d'évaluation
Big Data TP 2 RDD (Dataframe)
23 pages
Clustering Hiérarchique
Pas encore d'évaluation
Clustering Hiérarchique
17 pages
Qcminfogestion
Pas encore d'évaluation
Qcminfogestion
2 pages
2 Multithreading
Pas encore d'évaluation
2 Multithreading
20 pages
Le Langage de Communication
Pas encore d'évaluation
Le Langage de Communication
66 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
91 pages
Memoire Complet
Pas encore d'évaluation
Memoire Complet
108 pages