Spark para Dummies

Spark es un marco de código abierto para procesar y analizar grandes cantidades de datos. Funciona en memoria para procesar datos más rápido que Hadoop y se puede integrar con sistemas de archivos como HDFS. Spark también se utiliza comúnmente para aplicaciones de aprendizaje automático debido a su velocidad.

Cargado por

jesusdaa1

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

273 vistas6 páginas

Spark para Dummies

Cargado por

jesusdaa1

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 6

SPARK PARA DUMMIES

Spark, al igual que Hadoop, es bsicamente un marco

de desarrollo que proporciona una serie de plataformas interconectadas, sistemas
y estndares para llevar a cabo proyectos de Big Data.
Spark tambin es de cdigo abierto y pertenece a la Apache Software Foundation.
De cdigo abierto quiere decir que el cdigo puede ser utilizado libremente por
cualquier persona; aun ms: puede ser modificado por cualquier persona para
crear otras versiones dirigidas a resolver nuevas problemticas. Los
desarrolladores y las empresas que las producen, estn constantemente refinando
y actualizando los programas, aadiendo nuevas funcionalidades o mayor
eficiencia. Spark fue el proyecto de Apache ms participativo el ao pasado, y no
slo de Apache, sino de todas las aplicaciones de cdigo abierto de Big Data, con
ms de 500 colaboradores en ms de 200 organizaciones.

Segn los expertos, Spark es ms avanzado y ms reciente que Hadoop, y est

diseado para trabajar mediante el procesamiento de fragmentos de datos en
memoria. Esto significa que transfiere los datos de los discos duros fsicos a la
memoria del sistema, donde el procesamiento es mucho ms rpido (hasta 100
veces ms rpido en algunas operaciones).
La plataforma Spark est muy de moda, y lo utilizan muchas grandes empresas
para el almacenamiento y anlisis de enormes cantidades de datos multi-
petabytes, debido a su velocidad: el ao pasado, Spark alcanz un rcord mundial
al completar una prueba de clasificacin de 100 terabytes de datos en 23 minutos,
cuando el rcord anterior era de 71 minutos con Hadoop. Adems, es idneo para
aplicaciones de Machine Learning (Aprendizaje Automtico), una de las prcticas
de mayor crecimiento y ms emocionante dentro de las ciencias de la computacin
(ver post anterior).
Apache Spark est diseado desde sus inicios para ser fcil de instalar y usar
siempre que se tengan ciertos conocimientos de informtica- y para ser utilizado
en mltiples aplicaciones de negocio. Muchos proveedores ofrecen sus propias
versiones (al igual que Hadoop), orientados a industrias concretas,
configuraciones customizadas para proyectos y usos concretos, y servicios de
consultora para su implantacin y funcionamiento .

Spark utiliza la computacin en clster (grupos de mquinas unidas por una red
de alta capacidad, que funcionan como una gran mquina) para obtener una
mayor potencia de clculo y almacenamiento, lo cual se traduce en que puede
utilizar los recursos de muchos procesadores unidos entre s. Es una solucin
escalable, es decir, que si se necesita ms capacidad, slo se tienen que aadir
ms procesadores en el sistema. Con el almacenamiento distribuido, los grandes
ficheros de datos recogidos para el anlisis se almacenan en muchos discos duros
fsicos individuales ms pequeos, lo cual acelera las operaciones de
lectura/escritura, porque la cabeza que lee la informacin de los discos tiene
menos distancia fsica para desplazarse sobre la superficie del disco. Al igual que
con la potencia de procesamiento, se puede aadir ms capacidad de
almacenamiento cuando sea necesario y, adems, utiliza hardware comercial
(discos duros estndar) que mantiene bajos los costes de infraestructura.

A diferencia de Hadoop, Spark no viene con su propio sistema de archivos: en vez

de eso, se puede integrar con muchos sistemas de archivos incluyendo el de
Hadoop HDFS, MongoDB y el sistema S3 de Amazon. Otro elemento diferencial es
Spark Streaming, que permite que las aplicaciones que se desarrollen
realicen anlisis en streaming, datos en tiempo real, redes sociales, ficheros de log,
etc. En las industrias como el marketing, el anlisis en tiempo real proporciona
grandes ventajas; por ejemplo, personalizar los anuncios en base al
comportamiento real del usuario, en lugar de en el comportamiento histrico,
aumentando la posibilidad de obtener una compra.

Una breve introduccin de Apache Spark, el futuro del Big Data, que espero que
resulte til.

Estndar | Publicado en Analytics, Big Data, buisiness intelligence, Data

Science+, Hadoop, http://www.madridschoolofmarketing.es/formacion/area-
master/master-business-intelligence-y-big-data/, Machine Learning, Sin
categora, Spark | Etiquetado Analytics, Big Data, Business
Intelligence, Hadoop, Machine Learning, Spark | 0 Comentarios
07.21.15
por msmksocialmedia

HADOOP FOR DUMMIES

Hadoop es, hoy por hoy, el marco de desarrollo
establecido para implantaciones de Big Data. Se compone de un conjunto de
capacidades reales, escalables y automticas para gestionar el flujo de datos, y
convertir raw data (datos en bruto) en insight (valor).
Su creador fue Doug Cutting y lo don a Apache Software Foundation (organizacin
sin nimo de lucro creada para dar soporte a los desarrollos de Software). Su
nombre y el logo, se lo debe a la mascota de su hijo, un elefante de peluche
llamado Hadoop.

Surge en 2004 a partir de un White Paper de Google que describa su sistema de

ficheros. Doug no tuvo problema en implantarlo y mejorarlo.

Como ya hemos dicho en post anteriores, Hadoop cubre las necesidades bsicas
que tiene el Big Data: almacenamiento y procesado de datos. De ah, que est
basado en dos conceptos:

HDFS (Hadoop Distributed File System): es un sistema de

archivos distribuido, escalable y porttil.
MapReduce: es el modelo de programacin sencillo para dar
soporte a la computacin paralela.

El sistema distribuido de ficheros trabaja sobre grupos de computadoras,

organizadas en lo que se llama un cluster, puede incluir desde una mquina
(nodo), hasta 30.000 segn la web de Apache. Cada mquina puede tener varios
discos.
Hadoop funciona en modo cliente-servidor. Existe un nodo mster que se encarga
de la gestin del almacenamiento y procesado, es decir, de dnde est cada
fichero de datos, de enviar las rdenes de procesado de los datos (Jobs) y de
asegurar que todo queda procesado del modo ms eficiente posible.
Los grandes ficheros de datos de entrada se trocean en tamaos menores (64GB
128GB) y cada trozo se replica al menos tres veces en nodos distintos. As se
comienza el procesamiento en paralelo, y si alguno de los nodos falla, el mster
detecta el fallo y asigna el trabajo a otro nodo disponible.

MapReduce trabaja mediante algoritmos simples de clavevalor . La parte de

Map, asigna la clave a la informacin que estamos buscando. El ejemplo estrella de
los cursos de Hadoop es el algoritmo de contar palabras en un texto. La clave sera
cada palabra, y el valor las veces que aparece. Primero contaramos cada palabra,
siendo el resultado (palabra, 1), despus ordenaramos las palabras y finalmente,
en la fase Reduce, sumaramos las palabras que aparecen repetidas. Vemoslo con
un grfico:

Con este mtodo se ahorra tiempo de transferencia de ficheros, ya que el

almacenamiento y el procesado se realiza en el mismo sitio.

Hadoop trabaja en modo batch, es decir, ejecutando unos procesos tras otros.
Est optimizado para leer cada fichero entero, desde el principio hasta el final, por
ello est destinado a trabajar con pocos ficheros grandes en vez de con muchos
pequeos, porque lo carga en memoria y lo lee de una sola vez.
Por suerte, existe todo un ecosistema para trabajar con Hadoop, y no tener que
escribir todo el cdigo necesario para realizar la asignacin de ficheros, el
procesamiento, etc.

Veamos algunos de los componentes del zoo de Hadoop:

Eclipse: es un entorno de desarrollo integrado, donado por IBM a la comunidad
Apache. Agiliza enormemente el desarrollo de los programas Java.
Sqoop: nos permite conectarnos a cualquier base de datos relacional (que el
acceso mediante una conexin ODBC) e intercambiar datos con nuestro sistema de
ficheros HDFS. Es muy importante poder incorporar fcilmente datos de nuestras
bbdd (datawarehouse, ERPs, etc.) igualmente poder llevar fcilmente el resultado
de un clculo (scoring, segmentacin) a nuestras bases de datos.
Flume: nos permite recuperar informacin de sitios remotos. Mediante un agente
que se ejecuta en el lugar que se producen los datos (fichero de log, Tweeter)
recoge los datos y los importa en HDFS. Es solo de una direccin, no permite
exportar datos de HDFS a otras ubicaciones. Muy til para recuperar informacin
en tiempo real.
Hive: acta como la base de datos de Hadoop. Es un intrprete SQL MapReduce.
Traduce la query a programas Java que realicen los MapReduce. Esto permite
utilizar herramientas de Business Intelligence convencionales (que admitan
conexin ODBC) con los datos de HDFS.
Pig: para trabajar con MapReduce, es necesario programar, tener slidos
conocimientos de Java, saber cmo funciona MapReduce, conocer el problema a
resolver, escribir, probar y mantener el cdigo Para ello es muy beneficioso
disponer de un sistema ms sencillo, que nos abstraiga de la complejidad del
MapReduce. Para ello existe Pig, que facilita el flujo de datos de una manera ms
sencilla. Dispone de su propio lenguaje de programacin llamado Pig Latin.
Hbase: es una base de datos columnar que se ejecuta sobre HDFS. Puede
almacenar grandes cantidades de datos, y acceder a ellos muy rpidamente y
lleva bien el procesamiento incluso cuando hay datos dispersos. Un ejemplo de
base de datos columnar, es como si almacenramos los resultados de ftbol en

una tabla as:

Oozie: Acta como un planificador. Es un motor de workflows, que puede incluir
procesos MapReduce (varios, ya que los procesos MapReduce son simples y por lo
general, hay que encadenar varios para realizar los clculos), scripts de Pig, de
Hive, etc.
Zookeeper: alguien tena que cuidar de tanta fauna Zookeeper acta como
coordinador. Guarda toda la configuracin de los metadatos, realiza los bloqueos
pertinentes si dos procesos deben acceder al mismo fichero, guarda usuarios y
passwords para el acceso a los distintos sitos, etc.
Mahout: es una librera de algortimos de Machine Learning, escritos en Java. Qu
es Machine Learning? Un programa al que no hay que decirle qu debe hacer.
Dedicaremos un post posterior a habla de Machine Learning.
Despus de este ecosistema, ya podemos ponernos a utilizar Hadoop, sin
necesidad de ser expertos en Java os animis?

Estndar | Publicado en Big Data, Data

Science+, Hadoop, http://www.madridschoolofmarketing.es/formacion/area-
master/master-business-intelligence-y-big-data/ | Etiquetado algorithms, Big
Data, Business Intelligence, data mining, Data Scientist, Hadoop | 0 Comentarios

También podría gustarte

Proyecto Baile Urbano Practica
Aún no hay calificaciones
Proyecto Baile Urbano Practica
4 páginas
Sas Examen
Aún no hay calificaciones
Sas Examen
112 páginas
Fundamentos SQL - DML
Aún no hay calificaciones
Fundamentos SQL - DML
17 páginas
Dossier Big Data Data Science Inteligencia Artificial 23 24
Aún no hay calificaciones
Dossier Big Data Data Science Inteligencia Artificial 23 24
32 páginas
Lectura - Bayes Ingenuo
Aún no hay calificaciones
Lectura - Bayes Ingenuo
28 páginas
Capitulo 7 Arquitectura Big Data
100% (1)
Capitulo 7 Arquitectura Big Data
62 páginas
Futuro de Las Bases de Datos
Aún no hay calificaciones
Futuro de Las Bases de Datos
10 páginas
Ciclo de Vida Big Data
Aún no hay calificaciones
Ciclo de Vida Big Data
18 páginas
Técnicas de Procesamiento y Análisis de Datos en Tiempo Real
Aún no hay calificaciones
Técnicas de Procesamiento y Análisis de Datos en Tiempo Real
2 páginas
Minería de Datos Con MongoDB
100% (1)
Minería de Datos Con MongoDB
15 páginas
Latex
Aún no hay calificaciones
Latex
7 páginas
Máster Big Data
100% (1)
Máster Big Data
14 páginas
Ebook Ciencia de Datos Con R
Aún no hay calificaciones
Ebook Ciencia de Datos Con R
27 páginas
Monografia Modelamiento de Base de Datos
Aún no hay calificaciones
Monografia Modelamiento de Base de Datos
75 páginas
Hadoop
Aún no hay calificaciones
Hadoop
15 páginas
Analítica de Datos
Aún no hay calificaciones
Analítica de Datos
50 páginas
NoSQL Apache Cassandra
Aún no hay calificaciones
NoSQL Apache Cassandra
63 páginas
Bootcamp MLOps Codigo Facilito 2024
Aún no hay calificaciones
Bootcamp MLOps Codigo Facilito 2024
27 páginas
O'Reilly Introduction To Cloud Databases Ebook FINAL ESXL
Aún no hay calificaciones
O'Reilly Introduction To Cloud Databases Ebook FINAL ESXL
46 páginas
Ralph Kimball
Aún no hay calificaciones
Ralph Kimball
174 páginas
Soa
100% (1)
Soa
20 páginas
Documentacion de Base de Datos
Aún no hay calificaciones
Documentacion de Base de Datos
5 páginas
Introducción Weka
Aún no hay calificaciones
Introducción Weka
31 páginas
Automatizacion Con Java Docker y Selenium
Aún no hay calificaciones
Automatizacion Con Java Docker y Selenium
18 páginas
7.spark SQL EAE
Aún no hay calificaciones
7.spark SQL EAE
68 páginas
Introducción A Pentaho Business Analytics (ESPAÑOL)
Aún no hay calificaciones
Introducción A Pentaho Business Analytics (ESPAÑOL)
34 páginas
El Data Lake
Aún no hay calificaciones
El Data Lake
7 páginas
Normalizacion
Aún no hay calificaciones
Normalizacion
15 páginas
Componentes de Talend
Aún no hay calificaciones
Componentes de Talend
3 páginas
Buscando A Big Data
Aún no hay calificaciones
Buscando A Big Data
27 páginas
BD Guia de Estudio v6
Aún no hay calificaciones
BD Guia de Estudio v6
144 páginas
Guia de Introduccion para Desarrolladores en Azure
Aún no hay calificaciones
Guia de Introduccion para Desarrolladores en Azure
96 páginas
Análisis y Diseño de Sistemas - Sesion 03 - Modelado de Dominio
Aún no hay calificaciones
Análisis y Diseño de Sistemas - Sesion 03 - Modelado de Dominio
27 páginas
Máster Telefonica en Big Data y Business Analytics - Guía Completa - 8a Edición
Aún no hay calificaciones
Máster Telefonica en Big Data y Business Analytics - Guía Completa - 8a Edición
33 páginas
Scala
Aún no hay calificaciones
Scala
4 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
11 páginas
Sistemas Basados en El Conocimiento
Aún no hay calificaciones
Sistemas Basados en El Conocimiento
45 páginas
Diccionario de Datos 2015 - I
Aún no hay calificaciones
Diccionario de Datos 2015 - I
41 páginas
Taller Big Data
100% (1)
Taller Big Data
6 páginas
Manual de Activación Qlik Sense Desktop
Aún no hay calificaciones
Manual de Activación Qlik Sense Desktop
14 páginas
Bdoo
Aún no hay calificaciones
Bdoo
21 páginas
AWS Data-Lake Ebook ES
Aún no hay calificaciones
AWS Data-Lake Ebook ES
7 páginas
3.1.1.PPT - Presentacion de Spark
Aún no hay calificaciones
3.1.1.PPT - Presentacion de Spark
16 páginas
2.big Data Con Hadoop
Aún no hay calificaciones
2.big Data Con Hadoop
66 páginas
MySQL Presentacion
Aún no hay calificaciones
MySQL Presentacion
30 páginas
Guia # 16 Base de Datos
Aún no hay calificaciones
Guia # 16 Base de Datos
8 páginas
Manual Topicos Avanzados Programacion Java Netbeans
100% (1)
Manual Topicos Avanzados Programacion Java Netbeans
98 páginas
PENTAHO VS Power BI y Gestores Documentales
Aún no hay calificaciones
PENTAHO VS Power BI y Gestores Documentales
4 páginas
Introducción A La Visión Artificial
Aún no hay calificaciones
Introducción A La Visión Artificial
45 páginas
Manual SQL Avanzado
100% (1)
Manual SQL Avanzado
174 páginas
Tesis de Church
Aún no hay calificaciones
Tesis de Church
6 páginas
Bases de Datos Nosql en Entornos Big Data
Aún no hay calificaciones
Bases de Datos Nosql en Entornos Big Data
126 páginas
Fundamentos de Las Bases de Datos Relacionales
Aún no hay calificaciones
Fundamentos de Las Bases de Datos Relacionales
6 páginas
Tarea Semana5 Bryan Villarruel
100% (1)
Tarea Semana5 Bryan Villarruel
16 páginas
Infografía Proceso Ilustrado Verde y Rojo
Aún no hay calificaciones
Infografía Proceso Ilustrado Verde y Rojo
2 páginas
Lambda
Aún no hay calificaciones
Lambda
23 páginas
Ebook - Cómo Instaurar Una Cultura Data Driven en Mi Empresa
Aún no hay calificaciones
Ebook - Cómo Instaurar Una Cultura Data Driven en Mi Empresa
15 páginas
CD - M8 AE1 Contenidos - 2023
Aún no hay calificaciones
CD - M8 AE1 Contenidos - 2023
12 páginas
Apache Hadoop: Introducción 2024 - Aprender BIG DATA
Aún no hay calificaciones
Apache Hadoop: Introducción 2024 - Aprender BIG DATA
1 página
Herramientas Big Data
Aún no hay calificaciones
Herramientas Big Data
31 páginas
Práctica 2.1 Investigación Sobre Hadoop
Aún no hay calificaciones
Práctica 2.1 Investigación Sobre Hadoop
6 páginas
Tissot 141-Es PDF
Aún no hay calificaciones
Tissot 141-Es PDF
14 páginas
Empresa Paxia PDF
Aún no hay calificaciones
Empresa Paxia PDF
9 páginas
Introduccion A RUP
Aún no hay calificaciones
Introduccion A RUP
7 páginas
Novena A San Judas Tadeo
Aún no hay calificaciones
Novena A San Judas Tadeo
12 páginas
BI Mayo 08
100% (2)
BI Mayo 08
259 páginas
La Banca de Mexico
100% (2)
La Banca de Mexico
42 páginas
Rzaii
Aún no hay calificaciones
Rzaii
174 páginas
Maniobras de Leopold
Aún no hay calificaciones
Maniobras de Leopold
25 páginas
1 Proyecto Abpc La Máquina Del Timepo Un Viaje A La Revolución Mexicana
Aún no hay calificaciones
1 Proyecto Abpc La Máquina Del Timepo Un Viaje A La Revolución Mexicana
19 páginas
Experimento Covalente Polar
Aún no hay calificaciones
Experimento Covalente Polar
4 páginas
Caso Arcor
0% (2)
Caso Arcor
3 páginas
Rut 18 de Marzo 2020
Aún no hay calificaciones
Rut 18 de Marzo 2020
2 páginas
Desafio 21 Días Sin Harinas Ni Azúcares Refinados
Aún no hay calificaciones
Desafio 21 Días Sin Harinas Ni Azúcares Refinados
21 páginas
El Hombre y Su Entorno
Aún no hay calificaciones
El Hombre y Su Entorno
2 páginas
Actividades Aula Tema TDAH (AV)
Aún no hay calificaciones
Actividades Aula Tema TDAH (AV)
3 páginas
Beneficio de Las Plantas para Los Seres Humanos
Aún no hay calificaciones
Beneficio de Las Plantas para Los Seres Humanos
10 páginas
Derechos de La Mujer en Costa Rica
Aún no hay calificaciones
Derechos de La Mujer en Costa Rica
3 páginas
Ficha Tema 1 - 3ro - 4to-5to Renovacion Espiritual - II Unidad
Aún no hay calificaciones
Ficha Tema 1 - 3ro - 4to-5to Renovacion Espiritual - II Unidad
4 páginas
Proceso de Verificación Del Estado Del Sistema de Carga
Aún no hay calificaciones
Proceso de Verificación Del Estado Del Sistema de Carga
6 páginas
CICLO CELULAR Interfase y Mitosis
Aún no hay calificaciones
CICLO CELULAR Interfase y Mitosis
4 páginas
Cambio Climatico
Aún no hay calificaciones
Cambio Climatico
25 páginas
Triton 2
Aún no hay calificaciones
Triton 2
2 páginas
Modelo Ramsey
Aún no hay calificaciones
Modelo Ramsey
79 páginas
Industria de La Vela
Aún no hay calificaciones
Industria de La Vela
31 páginas
Capitulo 8 - Diapositivas Corregidas
Aún no hay calificaciones
Capitulo 8 - Diapositivas Corregidas
77 páginas
Programacion Tecnologia Industrial 2 Bach
Aún no hay calificaciones
Programacion Tecnologia Industrial 2 Bach
21 páginas
Solicito Desarchivamiento Melida Margarita
Aún no hay calificaciones
Solicito Desarchivamiento Melida Margarita
2 páginas
Ensayo de Didactica de La Lengua Castellana Ii
Aún no hay calificaciones
Ensayo de Didactica de La Lengua Castellana Ii
7 páginas
Documento 1
Aún no hay calificaciones
Documento 1
2 páginas
Identidad en Cristo
Aún no hay calificaciones
Identidad en Cristo
4 páginas
Caracteristicas de La Edad Media en Lo Politico
86% (7)
Caracteristicas de La Edad Media en Lo Politico
7 páginas
Analisis de Resultados
Aún no hay calificaciones
Analisis de Resultados
9 páginas
Concentración de Una Solución
Aún no hay calificaciones
Concentración de Una Solución
2 páginas
Texto Primario Colectivo
Aún no hay calificaciones
Texto Primario Colectivo
8 páginas
Escribimos Un Triptico Sobre La Familia
100% (3)
Escribimos Un Triptico Sobre La Familia
7 páginas
Contrato de Servicio de Transporte para Excursión
Aún no hay calificaciones
Contrato de Servicio de Transporte para Excursión
2 páginas