0% encontró este documento útil (0 votos)

2 vistas6 páginas

SCALA

Ejercicios SCALA

Cargado por

Julio Lopez-Nunez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

2 vistas6 páginas

SCALA

Ejercicios SCALA

Cargado por

Julio Lopez-Nunez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 6

Guı́a Introductoria a Scala sobre Apache Spark

Dr. Julio Lopez-Nunez

Octubre-2024

Contents
1 Introducción 2
1.1 ¿Qué es Scala? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Lenguajes Compatibles con Spark . . . . . . . . . . . . . . . . . . 2
1.3 Componentes Principales de Apache Spark . . . . . . . . . . . . 2
1.4 Apache Spark SQL . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Conceptos Clave 3
2.1 Resilient Distributed Dataset (RDD) . . . . . . . . . . . . . . . . 3
2.2 DataFrames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 Invariabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.4 Transformaciones y Acciones . . . . . . . . . . . . . . . . . . . . 3
2.5 La función reduceByKey . . . . . . . . . . . . . . . . . . . . . . . 3

3 Ejercicios Prácticos 4
3.1 Ejercicio 1: Crear un RDD . . . . . . . . . . . . . . . . . . . . . 4
3.2 Ejercicio 2: Suma de Elementos de un RDD . . . . . . . . . . . . 4
3.3 Ejercicio 3: Usar reduceByKey para Agrupar Datos . . . . . . . . 4
3.4 Ejercicio 4: Crear un DataFrame desde un RDD . . . . . . . . . 4
3.5 Ejercicio 5: Leer un archivo CSV desde HDFS . . . . . . . . . . . 4

4 Ejercicios Avanzados 5
4.1 Ejercicio 6: Crear una tabla particionada . . . . . . . . . . . . . 5
4.2 Ejercicio 7: Leer un archivo JSON desde HDFS . . . . . . . . . . 5

5 Ejercicios Propuestos (Sin Respuesta) 6

5.1 Nivel Sencillo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5.2 Nivel Medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5.3 Nivel Complejo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1
1 Introducción
Apache Spark es un motor de análisis de datos de propósito general, diseñado
para procesar grandes volúmenes de datos de manera rápida y eﬁciente. Spark
permite ejecutar operaciones en memoria, lo que lo hace signiﬁcativamente más
rápido que otros motores de procesamiento como MapReduce.
En esta guı́a aprenderás cómo trabajar con SCALA sobre Spark, basado en
una arquitectura de Hadoop implementada con Docker. Esta arquitectura se ex-
plica en el repositorio de GitHub de Juliopez (https://github.com/juliopez/Hadoop).

1.1 ¿Qué es Scala?

Scala es un lenguaje de programación que combina caracterı́sticas de la progra-
mación orientada a objetos y la programación funcional. Es el lenguaje más
utilizado para escribir aplicaciones que corren sobre Apache Spark, debido a su
eﬁciencia y compatibilidad con la JVM (Java Virtual Machine).

1.2 Lenguajes Compatibles con Spark

Apache Spark soporta varios lenguajes de programación, como:
Scala

Python (PySpark)

Java

R (SparkR)

1.3 Componentes Principales de Apache Spark

Los componentes principales de la arquitectura de Spark son:
Spark Core: Proporciona las funciones básicas de Spark como la gestión
de memoria, tareas, almacenamiento de datos y recuperación de fallos.
Spark SQL: Permite la ejecución de consultas SQL sobre datos estruc-
turados.

Spark Streaming: Procesamiento de ﬂujos de datos en tiempo real.

MLlib: Librerı́a para aprendizaje automático.

GraphX: Para procesar grafos y realizar análisis gráﬁcos.

2
1.4 Apache Spark SQL
Apache Spark también soporta operaciones SQL. Permite realizar acciones como:
Crear vistas y tablas

Consultar datos usando SELECT

Agrupar, unir y ﬁltrar datos

2 Conceptos Clave
2.1 Resilient Distributed Dataset (RDD)
Un RDD es una colección distribuida de objetos inmutables. Es la abstracción
principal en Spark para el manejo de datos distribuidos y permite aplicar op-
eraciones paralelas.

2.2 DataFrames
Los DataFrames son similares a las tablas en bases de datos relacionales. Pro-
porcionan una abstracción de alto nivel sobre los RDDs, permitiendo manipular
datos tabulares con funciones similares a SQL.

2.3 Invariabilidad
Los RDDs y DataFrames en Spark son inmutables, lo que signiﬁca que una vez
que son creados no pueden ser modiﬁcados. Las transformaciones aplicadas a
un RDD devuelven un nuevo RDD.

2.4 Transformaciones y Acciones

Transformaciones: Operaciones que se aplican a un RDD y generan un nuevo
RDD, como map, filter, y reduceByKey.
Acciones: Operaciones que ejecutan cálculos y devuelven un valor ﬁnal,
como count, collect, y saveAsTextFile.

2.5 La función reduceByKey

reduceByKey es una transformación en Spark que combina valores por clave uti-
lizando una función de reducción (como suma o promedio). Se aplica comúnmente
para agrupar resultados de manera eﬁciente.

3
3 Ejercicios Prácticos
3.1 Ejercicio 1: Crear un RDD
Cree un RDD desde una lista de enteros y aplique una transformación para
ﬁltrar los números pares.
val data = sc . parallelize ( List (1 , 2 , 3 , 4 , 5 , 6))
val evenNumbers = data . filter ( x = > x % 2 = = 0)
evenNumbers . collect () // Resultado : Array (2 , 4 , 6)

3.2 Ejercicio 2: Suma de Elementos de un RDD

Cree un RDD desde una lista de números y utilice la acción reduce para sumar
todos los elementos.
val data = sc . parallelize ( List (1 , 2 , 3 , 4 , 5))
val sum = data . reduce (( a , b ) = > a + b )
println ( sum ) // Resultado : 15

3.3 Ejercicio 3: Usar reduceByKey para Agrupar Datos

Dado un RDD de pares clave-valor, agrupe los valores por clave y calcule la
suma de cada grupo.
val data = sc . parallelize ( List (( " a " , 1) , ( " b " , 1) , ( " a " , 2) , ( " b " , 2)))
val result = data . reduceByKey (( x , y ) = > x + y )
result . collect () // Resultado : Array ((" a " , 3) , (" b " , 3))

3.4 Ejercicio 4: Crear un DataFrame desde un RDD

Cree un DataFrame desde un RDD de pares clave-valor y muestre el contenido.
val data = sc . parallelize ( List (( " Alice " , 20) , ( " Bob " , 25)))
val df = data . toDF ( " name " , " age " )
df . show ()
// + - - - - -+ - - -+
// | name | age |
// + - - - - -+ - - -+
// | Alice | 20|
// | Bob | 25|

3.5 Ejercicio 5: Leer un archivo CSV desde HDFS

Lea un archivo CSV almacenado en HDFS y conviértalo en un DataFrame.
val df = spark . read . option ( " header " , " true " ). csv ( " hdfs : // path / to / file . csv " )
df . show ()

4
4 Ejercicios Avanzados
4.1 Ejercicio 6: Crear una tabla particionada
Cree una tabla Hive particionada por una columna de fecha.
CREATE TABLE logs (
id INT ,
usuario STRING ,
pagina STRING
)
PARTITIONED BY ( fecha STRING )
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ’ , ’;

4.2 Ejercicio 7: Leer un archivo JSON desde HDFS

Lea un archivo JSON desde HDFS y conviértalo en un DataFrame.
val df = spark . read . json ( " hdfs : // path / to / file . json " )
df . show ()

5
5 Ejercicios Propuestos (Sin Respuesta)
5.1 Nivel Sencillo
Crear un RDD desde una lista de strings.

Aplicar una transformación para contar el número de palabras en cada

string.

5.2 Nivel Medio

Crear un DataFrame desde un archivo CSV en HDFS.

Filtrar los registros con un valor especı́ﬁco en una columna.

5.3 Nivel Complejo

Crear una tabla Hive desde un DataFrame y realizar consultas SQL.

Usar reduceByKey para procesar grandes volúmenes de datos.

También podría gustarte

El Salvador 1840-1880panorámica PDF
Aún no hay calificaciones
El Salvador 1840-1880panorámica PDF
17 páginas
Dinámica-Unidad 3-Actividades-406b
100% (1)
Dinámica-Unidad 3-Actividades-406b
22 páginas
Génesis de La Idea de Magnitud y Medida en El Niño
Aún no hay calificaciones
Génesis de La Idea de Magnitud y Medida en El Niño
10 páginas
Mat2-U3-Sesión 02
Aún no hay calificaciones
Mat2-U3-Sesión 02
6 páginas
Reglas Heroquest
100% (1)
Reglas Heroquest
22 páginas
Carlos Negro Aguirre
Aún no hay calificaciones
Carlos Negro Aguirre
4 páginas
Fundamentos de Las Bases de Datos Relacionales
Aún no hay calificaciones
Fundamentos de Las Bases de Datos Relacionales
6 páginas
Mermelada de Poro Poro - Producto
Aún no hay calificaciones
Mermelada de Poro Poro - Producto
24 páginas
Gaceta Oficial Número 40.952 de La República de Venezuela, 26 de Julio de 2016
Aún no hay calificaciones
Gaceta Oficial Número 40.952 de La República de Venezuela, 26 de Julio de 2016
32 páginas
C02 - DataFrame, Transformaciones y Data Sources - v1.0
Aún no hay calificaciones
C02 - DataFrame, Transformaciones y Data Sources - v1.0
53 páginas
Mantenimiento Despulpadora
67% (3)
Mantenimiento Despulpadora
223 páginas
Cuentas Clasificadas
100% (2)
Cuentas Clasificadas
10 páginas
Tema 4 - Clase 5
Aún no hay calificaciones
Tema 4 - Clase 5
47 páginas
Presentacion en PowerPoint Numero 4 S4 Aplicacion Del Sistema de Costos Por Procesos Productivos
Aún no hay calificaciones
Presentacion en PowerPoint Numero 4 S4 Aplicacion Del Sistema de Costos Por Procesos Productivos
38 páginas
Cuadro Comparativo Ciclo de Vida Del Software
Aún no hay calificaciones
Cuadro Comparativo Ciclo de Vida Del Software
4 páginas
TallerUnidad4_BigData
Aún no hay calificaciones
TallerUnidad4_BigData
11 páginas
Desayunos Saludables
0% (1)
Desayunos Saludables
218 páginas
Certificado de Pozo A Tierra 2
Aún no hay calificaciones
Certificado de Pozo A Tierra 2
3 páginas
Formas Normales
Aún no hay calificaciones
Formas Normales
6 páginas
Guia IngenieriaProcesadoMasivoDatos
Aún no hay calificaciones
Guia IngenieriaProcesadoMasivoDatos
10 páginas
Big Data Con Spark 01 - Intro y Primeros Pasos
Aún no hay calificaciones
Big Data Con Spark 01 - Intro y Primeros Pasos
53 páginas
7.spark SQL EAE
Aún no hay calificaciones
7.spark SQL EAE
68 páginas
Presentación Sindrome Del Tunel Cubital
100% (1)
Presentación Sindrome Del Tunel Cubital
23 páginas
Big Data Con Spark 02 - RDDs y Operaciones
Aún no hay calificaciones
Big Data Con Spark 02 - RDDs y Operaciones
51 páginas
4 Reactivos Del Tipo Relación de Columnas
50% (2)
4 Reactivos Del Tipo Relación de Columnas
2 páginas
Big Data Con Apache Spark y Python: de Cero A Experto
Aún no hay calificaciones
Big Data Con Apache Spark y Python: de Cero A Experto
28 páginas
Examenes Upc
Aún no hay calificaciones
Examenes Upc
8 páginas
Análisis de Datos Con Apache Spark
Aún no hay calificaciones
Análisis de Datos Con Apache Spark
66 páginas
6° Grado - Actividad Del 13 de Junio
Aún no hay calificaciones
6° Grado - Actividad Del 13 de Junio
24 páginas
Clase 9 - Base de Datos y Big Data
Aún no hay calificaciones
Clase 9 - Base de Datos y Big Data
28 páginas
Módulo 4. Manejo de Datos Con Spark SQL: Introducción
Aún no hay calificaciones
Módulo 4. Manejo de Datos Con Spark SQL: Introducción
29 páginas
Plantilla programa muestreo suelo
Aún no hay calificaciones
Plantilla programa muestreo suelo
4 páginas
Final Challenge
Aún no hay calificaciones
Final Challenge
3 páginas
Carga Finita e Infinita
75% (4)
Carga Finita e Infinita
2 páginas
PySpark - Sesion 1
100% (1)
PySpark - Sesion 1
29 páginas
Biblia de Spark y SparkSQL 3
Aún no hay calificaciones
Biblia de Spark y SparkSQL 3
179 páginas
Separata 04
Aún no hay calificaciones
Separata 04
23 páginas
Sesión de Inglés Agosto 2024 El Guayo
Aún no hay calificaciones
Sesión de Inglés Agosto 2024 El Guayo
9 páginas
Tema Spark
Aún no hay calificaciones
Tema Spark
10 páginas
Spark 1
Aún no hay calificaciones
Spark 1
44 páginas
00 Presentación 2
Aún no hay calificaciones
00 Presentación 2
33 páginas
Py Spark
Aún no hay calificaciones
Py Spark
32 páginas
Farmacología II PDF
Aún no hay calificaciones
Farmacología II PDF
186 páginas
Introducción A Apache Spark para Empezar A Program... - (PG 162 - 202)
Aún no hay calificaciones
Introducción A Apache Spark para Empezar A Program... - (PG 162 - 202)
41 páginas
Big Data Analytics Spark
Aún no hay calificaciones
Big Data Analytics Spark
55 páginas
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
Aún no hay calificaciones
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
43 páginas
3.1.1.PPT - Presentacion de Spark
Aún no hay calificaciones
3.1.1.PPT - Presentacion de Spark
16 páginas
Actividad 6. Investigación Spark
Aún no hay calificaciones
Actividad 6. Investigación Spark
9 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
24 páginas
2023.2-06a Aspectos Básicos de Spark
Aún no hay calificaciones
2023.2-06a Aspectos Básicos de Spark
27 páginas
Taller de Preparación-Spark-Cloudera
Aún no hay calificaciones
Taller de Preparación-Spark-Cloudera
20 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
11 páginas
4 - Spark PDF
Aún no hay calificaciones
4 - Spark PDF
42 páginas
Clase 4 - Herramientas Big Data Nov 15
Aún no hay calificaciones
Clase 4 - Herramientas Big Data Nov 15
31 páginas
Pyspark 2
Aún no hay calificaciones
Pyspark 2
18 páginas
1.1 Introducción A Spark
0% (1)
1.1 Introducción A Spark
23 páginas
A1 - Mod2 - Unid5 - Procesamiento de Datos en Memoria. Spark Core
Aún no hay calificaciones
A1 - Mod2 - Unid5 - Procesamiento de Datos en Memoria. Spark Core
31 páginas
Tema 4
Aún no hay calificaciones
Tema 4
38 páginas
Introducción A Apache Spark para Empezar A Program... - (PG 81 - 161)
Aún no hay calificaciones
Introducción A Apache Spark para Empezar A Program... - (PG 81 - 161)
81 páginas
Sesión 8 - Introducción A Apache Spark
Aún no hay calificaciones
Sesión 8 - Introducción A Apache Spark
39 páginas
Presentacion Curso Databricks
Aún no hay calificaciones
Presentacion Curso Databricks
27 páginas
Ponentes Core
Aún no hay calificaciones
Ponentes Core
21 páginas
Machine Learning Spark
Aún no hay calificaciones
Machine Learning Spark
65 páginas
Introduction To Spark - ES - Introduccion A Spark
Aún no hay calificaciones
Introduction To Spark - ES - Introduccion A Spark
53 páginas
6 - Spark
Aún no hay calificaciones
6 - Spark
28 páginas
Educación Socioemociona - Tercero Tabla
Aún no hay calificaciones
Educación Socioemociona - Tercero Tabla
2 páginas
Manual Curso AGVD
Aún no hay calificaciones
Manual Curso AGVD
16 páginas
Introducción A Spark
Aún no hay calificaciones
Introducción A Spark
14 páginas
Ecosistema Spark Intro
Aún no hay calificaciones
Ecosistema Spark Intro
87 páginas
S02 ApacheSpark
Aún no hay calificaciones
S02 ApacheSpark
25 páginas
Fase Grado Campo Ejes Articuladores Proyecto El Muro de Las Campeonas y Los Campeones Escenario
Aún no hay calificaciones
Fase Grado Campo Ejes Articuladores Proyecto El Muro de Las Campeonas y Los Campeones Escenario
13 páginas
Apache Spark - Elasticsearch-Apache storm-RSTUDIO
Aún no hay calificaciones
Apache Spark - Elasticsearch-Apache storm-RSTUDIO
16 páginas
BD TP3
Aún no hay calificaciones
BD TP3
6 páginas
Informe #002 - REQUERIMIENTO DE PERSONAL
Aún no hay calificaciones
Informe #002 - REQUERIMIENTO DE PERSONAL
2 páginas
CP Campoverde Cueva Miño Paccha
Aún no hay calificaciones
CP Campoverde Cueva Miño Paccha
13 páginas
Tema 4
Aún no hay calificaciones
Tema 4
5 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Pyspark 3
Aún no hay calificaciones
Pyspark 3
6 páginas
Transnet C Super 26kg 10704
Aún no hay calificaciones
Transnet C Super 26kg 10704
10 páginas
CD - M8 AE1 Contenidos - 2023
Aún no hay calificaciones
CD - M8 AE1 Contenidos - 2023
12 páginas
Mod1 - Introducción Big Data y Python
Aún no hay calificaciones
Mod1 - Introducción Big Data y Python
9 páginas
PDF Definido
Aún no hay calificaciones
PDF Definido
25 páginas
Lesiones Elementales Secundarias
Aún no hay calificaciones
Lesiones Elementales Secundarias
9 páginas
hdfs
Aún no hay calificaciones
hdfs
2 páginas
Apache Spark-Alejandro Palomino
Aún no hay calificaciones
Apache Spark-Alejandro Palomino
54 páginas
Zaharia en Es
Aún no hay calificaciones
Zaharia en Es
7 páginas
Actividad 6. Investigación Spark
Aún no hay calificaciones
Actividad 6. Investigación Spark
9 páginas
Modulo 4 - Caso Practico B
Aún no hay calificaciones
Modulo 4 - Caso Practico B
4 páginas
Examen de Sistemas Hidraulicos Modificado
Aún no hay calificaciones
Examen de Sistemas Hidraulicos Modificado
2 páginas
Practica Azucares Reductores
Aún no hay calificaciones
Practica Azucares Reductores
4 páginas
Resumen Spark
Aún no hay calificaciones
Resumen Spark
2 páginas
Qué Es BigData - Estudio
Aún no hay calificaciones
Qué Es BigData - Estudio
4 páginas

SCALA

Cargado por

SCALA

Cargado por

Guı́a Introductoria a Scala sobre Apache Spark

Dr. Julio Lopez-Nunez

5 Ejercicios Propuestos (Sin Respuesta) 6

1.1 ¿Qué es Scala?

1.2 Lenguajes Compatibles con Spark

1.3 Componentes Principales de Apache Spark

 Spark Streaming: Procesamiento de ﬂujos de datos en tiempo real.

 MLlib: Librerı́a para aprendizaje automático.

 GraphX: Para procesar grafos y realizar análisis gráﬁcos.

 Consultar datos usando SELECT

 Agrupar, unir y ﬁltrar datos

2.4 Transformaciones y Acciones

2.5 La función reduceByKey

3.2 Ejercicio 2: Suma de Elementos de un RDD

3.3 Ejercicio 3: Usar reduceByKey para Agrupar Datos

3.4 Ejercicio 4: Crear un DataFrame desde un RDD

3.5 Ejercicio 5: Leer un archivo CSV desde HDFS

4.2 Ejercicio 7: Leer un archivo JSON desde HDFS

 Aplicar una transformación para contar el número de palabras en cada

5.2 Nivel Medio

 Filtrar los registros con un valor especı́ﬁco en una columna.

5.3 Nivel Complejo

 Usar reduceByKey para procesar grandes volúmenes de datos.

También podría gustarte

Spark Streaming: Procesamiento de ﬂujos de datos en tiempo real.

MLlib: Librerı́a para aprendizaje automático.

GraphX: Para procesar grafos y realizar análisis gráﬁcos.

Consultar datos usando SELECT

Agrupar, unir y ﬁltrar datos

Aplicar una transformación para contar el número de palabras en cada

Filtrar los registros con un valor especı́ﬁco en una columna.

Usar reduceByKey para procesar grandes volúmenes de datos.