0% found this document useful (0 votes)

74 views

Apache Spark Fundamentals: Getting Started

Spark is an open-source cluster computing framework that provides fast and general computation engine for big data. It addresses the limitations of MapReduce by providing features like fast performance, ease of use, and interactive queries. The document provides an overview of Spark including its history and origins from MapReduce, how it addresses the explosion of MapReduce programs, and its core APIs and libraries for SQL, streaming, machine learning and more. It also discusses Spark's stability, adoption, programming languages and resources for learning more.

Uploaded by

Arunachalam Narayanan

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

74 views

Apache Spark Fundamentals: Getting Started

Uploaded by

Arunachalam Narayanan

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 28

Apache Spark Fundamentals

GETTING STARTED

Justin Pihony
DEVELOPER SUPPORT MANAGER @ LIGHTBEND

@JustinPihony
Why?
grep?
http://databricks.com/blog/2014/11/05/
spark-officially-sets-a-new-record-in-large-scale-sorting.html
Big Data
Big Data
Big Code
public class WordCount {
public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(LongWritable key, Text value, Context context) throws IOException,
InterruptedException {
String line = value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while (tokenizer.hasMoreTokens()) {
word.set(tokenizer.nextToken());
context.write(word, one);
}
}
}

public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {

public void reduce(Text key, Iterable<IntWritable> values, Context context)
throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
context.write(key, new IntWritable(sum));
}
}

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

Job job = new Job(conf, "wordcount");

job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);

job.setMapperClass(Map.class);
job.setReducerClass(Reduce.class);

job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);

FileInputFormat.addInputPath(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

job.waitForCompletion(true);
}
}
Big Data
Big Code Tiny Code
public class WordCount {
public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
private final static IntWritable one = new IntWritable(1);
object WordCount{
private Text word = new Text();

public void map(LongWritable key, Text value, Context context) throws IOException, def main(def main(args: Array[String])){
InterruptedException {
String line = value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while (tokenizer.hasMoreTokens()) {
val sparkConf = new SparkConf()
word.set(tokenizer.nextToken());

}
context.write(word, one);
.setAppName("wordcount")
}
}
val sc = new SparkContext(sparkConf)
public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
public void reduce(Text key, Iterable<IntWritable> values, Context context)
throws IOException, InterruptedException {
int sum = 0;
sc.textFile(args(0))
for (IntWritable val : values) {
sum += val.get();
}
context.write(key, new IntWritable(sum));
.flatMap(_.split(" "))
}
}
.countByValue
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
.saveAsTextFile(args(1))
Job job = new Job(conf, "wordcount");

job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
}
job.setMapperClass(Map.class);
job.setReducerClass(Reduce.class); }
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);

FileInputFormat.addInputPath(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

job.waitForCompletion(true);
}
}
Why Spark?

Readability
Expressiveness
Fast
Testability
Interactive
Fault Tolerant
Unify Big Data
Course Overview

§ Basics of Spark § Libraries

§ Core API - SQL
- Streaming
§ Cluster Managers
- MLlib/GraphX
§ Spark Maintenance
§ Troubleshooting /
Optimization
§ Future of Spark
Section
Course Overview
Overview

§ Basics of Spark § Libraries

§ - Hadoop
Core API - SQL
-HistoryManagers
of Spark - Streaming
§ Cluster
- Installation - MLlib/GraphX
§ Spark Maintenance
- Big Data’s Hello World § Troubleshooting /
- Course Prep Optimization
§ Future of Spark
The MapReduce Explosion
A Unified Platform for Big Data

DataFrames/Datasets

MLlib
Spark Spark GraphX
(machine
SQL Streaming (graph)
learning)

Spark Core
The History of Spark
BSD Open Source

Spark Paper Apache Spark 2.x

Top Level
MapReduce databricks

2004 2006 2009 2010 2011 2013 2014 2016

databricks ==
Stability

https://spark.apache.org/releases/spark-release-MAJOR-MINOR-REVISION.html
Stability

https://github.com/apache/spark/pull/6841
Stability
Who Is Using Spark?

Yahoo!
Spark Languages
Spark Languages
Big Data
Big Data
Big Data
Course Notes

#
Spark Logistics

Experimental Developer API

Alpha Component
Resources
§ https://amplab.cs.berkeley.edu/for-big-data-moores-law-means-better-decisions/

§ https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

§ http://aadrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-
cluster.html
§ https://spark.apache.org
- /documentation.html

- /docs/latest/

- /community.html

- /examples.html

§ Learning Spark: Lightning-Fast Big Data Analysis by Holden Karau, Andy Konwinski,
Patrick Wendell, Matei Zaharia

§ https://github.com/apache/spark
Summary

§ Why
§ MapReduce Explosion
§ Spark’s History
§ Installation
§ Hello Big Data!
§ Additional Resources

Goal Statement
No ratings yet
Goal Statement
1 page
Pentaho Data Integration Fundamentals: Course Code DI1000 7.0
No ratings yet
Pentaho Data Integration Fundamentals: Course Code DI1000 7.0
10 pages
Configuring Icecast On Linux
100% (1)
Configuring Icecast On Linux
3 pages
Apache Spark - DataFrames and Spark SQL
100% (2)
Apache Spark - DataFrames and Spark SQL
146 pages
CS246 TA Session: Hadoop Tutorial: Peyman Kazemian 1/11/2011
No ratings yet
CS246 TA Session: Hadoop Tutorial: Peyman Kazemian 1/11/2011
13 pages
"Analytics Using Apache Spark": (Lightening Fast Cluster Computing)
No ratings yet
"Analytics Using Apache Spark": (Lightening Fast Cluster Computing)
99 pages
Exp-11
No ratings yet
Exp-11
4 pages
Big Data Practical 2
No ratings yet
Big Data Practical 2
11 pages
To Count Using Map and Reduce Program: Wordcount - Java
No ratings yet
To Count Using Map and Reduce Program: Wordcount - Java
2 pages
WordCount Program Hadoop Task 2
No ratings yet
WordCount Program Hadoop Task 2
7 pages
Java CustomWritables
No ratings yet
Java CustomWritables
6 pages
Prácticas Bigdata: 1. Lanzar Un Proceso Mapreduce Contra El Cluster
No ratings yet
Prácticas Bigdata: 1. Lanzar Un Proceso Mapreduce Contra El Cluster
3 pages
Apache Spark
No ratings yet
Apache Spark
22 pages
579 BDA Week-04
No ratings yet
579 BDA Week-04
1 page
✅ PART 1- Install Java and Hadoop on Ubuntu
No ratings yet
✅ PART 1- Install Java and Hadoop on Ubuntu
4 pages
02-Wordcount Mapreduce
No ratings yet
02-Wordcount Mapreduce
5 pages
BDA Exp Removed Removed
No ratings yet
BDA Exp Removed Removed
33 pages
Classcreation
No ratings yet
Classcreation
2 pages
Customer - 3.java: Import Import Import Import Import Import Import Import
No ratings yet
Customer - 3.java: Import Import Import Import Import Import Import Import
15 pages
DSBDA GRP B Print
No ratings yet
DSBDA GRP B Print
21 pages
3 MapReduce program ex code
No ratings yet
3 MapReduce program ex code
14 pages
Parallel Programming With Spark: Matei Zaharia
No ratings yet
Parallel Programming With Spark: Matei Zaharia
40 pages
Map Reduce Example
No ratings yet
Map Reduce Example
6 pages
2025Oracle Java Lead DSA SystemDesign CheatSheet
No ratings yet
2025Oracle Java Lead DSA SystemDesign CheatSheet
4 pages
Wordcount
No ratings yet
Wordcount
3 pages
ADA Lab Manual
No ratings yet
ADA Lab Manual
34 pages
Creating Data Access Object (DAO) Design Pattern
No ratings yet
Creating Data Access Object (DAO) Design Pattern
3 pages
Spark SQL Meetup - 4-8-2012
No ratings yet
Spark SQL Meetup - 4-8-2012
27 pages
big_data_lab[1]
No ratings yet
big_data_lab[1]
52 pages
Execute Java Map Reduce Sample Using Eclipse
No ratings yet
Execute Java Map Reduce Sample Using Eclipse
9 pages
Spark PPT
No ratings yet
Spark PPT
55 pages
Annagrame
No ratings yet
Annagrame
3 pages
Web-Scale Data Processing: Christopher Olston and Many Others
No ratings yet
Web-Scale Data Processing: Christopher Olston and Many Others
32 pages
MR Progs For Self Excercise
No ratings yet
MR Progs For Self Excercise
14 pages
Spark RDD Dataframes SQL
No ratings yet
Spark RDD Dataframes SQL
3 pages
Practical-11
No ratings yet
Practical-11
3 pages
049
No ratings yet
049
2 pages
Word Count Program
No ratings yet
Word Count Program
2 pages
Consuming An Input File: Michael Hoffman
No ratings yet
Consuming An Input File: Michael Hoffman
18 pages
Module10-BigData Guide v1.0
No ratings yet
Module10-BigData Guide v1.0
6 pages
Big Data Lab
No ratings yet
Big Data Lab
12 pages
Week-8 de
No ratings yet
Week-8 de
9 pages
Data Access With Spring Boot
No ratings yet
Data Access With Spring Boot
11 pages
Prerequisites: Single Node Setup Cluster Setup
No ratings yet
Prerequisites: Single Node Setup Cluster Setup
5 pages
Databricks - Spark Streaming
No ratings yet
Databricks - Spark Streaming
55 pages
Map Reduce
No ratings yet
Map Reduce
4 pages
Practical 2-3
No ratings yet
Practical 2-3
3 pages
Running Jar Program
No ratings yet
Running Jar Program
3 pages
MapReduce and Yarn
No ratings yet
MapReduce and Yarn
39 pages
Pyspark-1 6 1
No ratings yet
Pyspark-1 6 1
32 pages
Hadoop and Map Reduce
No ratings yet
Hadoop and Map Reduce
27 pages
Coding Ajax
No ratings yet
Coding Ajax
83 pages
DSBDA manual
No ratings yet
DSBDA manual
54 pages
Source Code for Wordcount
No ratings yet
Source Code for Wordcount
3 pages
Practical 3bcbs
No ratings yet
Practical 3bcbs
5 pages
Spark SQL
No ratings yet
Spark SQL
24 pages
Hibernate Framework: An ORM Tool
No ratings yet
Hibernate Framework: An ORM Tool
21 pages
Answers Java Part 1
No ratings yet
Answers Java Part 1
18 pages
MapReduce Exam 2019 - Solved Paper
No ratings yet
MapReduce Exam 2019 - Solved Paper
25 pages
CSF443 Lab-Report Nimish Shandilya 1000016934
No ratings yet
CSF443 Lab-Report Nimish Shandilya 1000016934
17 pages
DBMS Mini Project Report
No ratings yet
DBMS Mini Project Report
15 pages
Index SN. Program Date Signature 1. 2. 3. 4.: Write A Program To Copy The Content of One File To Another
No ratings yet
Index SN. Program Date Signature 1. 2. 3. 4.: Write A Program To Copy The Content of One File To Another
6 pages
Core Java Programming Book
From Everand
Core Java Programming Book
Manish Soni
No ratings yet
Payment_hollidays_&_deferred_payments
No ratings yet
Payment_hollidays_&_deferred_payments
3 pages
Ajo Thomas - SOP - NEU
No ratings yet
Ajo Thomas - SOP - NEU
1 page
AjoThomas Resume FT 1
No ratings yet
AjoThomas Resume FT 1
1 page
Lor Asu DP
No ratings yet
Lor Asu DP
1 page
Padmapriyan@ssn - Edu.in: Confidential Letter of Recommendation
No ratings yet
Padmapriyan@ssn - Edu.in: Confidential Letter of Recommendation
1 page
Navin Resume 080218
No ratings yet
Navin Resume 080218
2 pages
SalRro PDF
No ratings yet
SalRro PDF
1 page
Brochure MSC 2018 PDF
No ratings yet
Brochure MSC 2018 PDF
56 pages
Alumni Meet 2020 - 04-01-2020
No ratings yet
Alumni Meet 2020 - 04-01-2020
1 page
Corona Safety PDF
No ratings yet
Corona Safety PDF
3 pages
Bus ID No.: E-5484: Passenger Information
No ratings yet
Bus ID No.: E-5484: Passenger Information
1 page
Automatic Milk Collection System PDF
No ratings yet
Automatic Milk Collection System PDF
2 pages
Assumption2 PDF
No ratings yet
Assumption2 PDF
1 page
0 Vishnupriya CV
No ratings yet
0 Vishnupriya CV
5 pages
EN Infoblatt Studienfinanzierung Mar2018
No ratings yet
EN Infoblatt Studienfinanzierung Mar2018
4 pages
Clean in Place Guide Lines
No ratings yet
Clean in Place Guide Lines
8 pages
ISLR Seventh Printing PDF
No ratings yet
ISLR Seventh Printing PDF
6 pages
Data Science Interview Questions
100% (2)
Data Science Interview Questions
55 pages
Simon Business School: Full-Time MS Programs
No ratings yet
Simon Business School: Full-Time MS Programs
17 pages
Your Payment Has Been Successfully Processed.: Result Location
No ratings yet
Your Payment Has Been Successfully Processed.: Result Location
1 page
John Student: Umbai Ndia
No ratings yet
John Student: Umbai Ndia
1 page
Education: 2720, Brown Avenue, Durham, NC 27705 (352) - 792-7127
No ratings yet
Education: 2720, Brown Avenue, Durham, NC 27705 (352) - 792-7127
1 page
Lee Lancaster: Candidate For Master of Arts in Mental Health Counseling
No ratings yet
Lee Lancaster: Candidate For Master of Arts in Mental Health Counseling
2 pages
Operating System Module III
No ratings yet
Operating System Module III
22 pages
MAS OS X - Digital Performer 5
No ratings yet
MAS OS X - Digital Performer 5
1 page
Java Keywords list.
No ratings yet
Java Keywords list.
53 pages
Impact of Cloud Computing On IT Industry: A Review & Analysis
No ratings yet
Impact of Cloud Computing On IT Industry: A Review & Analysis
5 pages
VSpace Server 8.1.1.5 Release Notes 150206
No ratings yet
VSpace Server 8.1.1.5 Release Notes 150206
4 pages
3.4 Navigate The Operating System TEST
No ratings yet
3.4 Navigate The Operating System TEST
3 pages
Nom Netbackup Services
No ratings yet
Nom Netbackup Services
418 pages
Advanced Transaction Processing
No ratings yet
Advanced Transaction Processing
53 pages
Read Me!!
No ratings yet
Read Me!!
2 pages
Eegame Logcat
No ratings yet
Eegame Logcat
6 pages
Amf Aut T2772
No ratings yet
Amf Aut T2772
57 pages
Technology In Action Complete 14th Edition Evans Test Bank - Download Today For Unlimited Reading
100% (4)
Technology In Action Complete 14th Edition Evans Test Bank - Download Today For Unlimited Reading
46 pages
LY IR6500 v.2 Description Manual
0% (1)
LY IR6500 v.2 Description Manual
6 pages
GGGFFGFG
No ratings yet
GGGFFGFG
4 pages
Prolific Systems & Technologies Pvt. LTD.
No ratings yet
Prolific Systems & Technologies Pvt. LTD.
77 pages
RUT 02449 VDR 100G3 G3S Operation and Users Manual
100% (1)
RUT 02449 VDR 100G3 G3S Operation and Users Manual
80 pages
Naas: Network-As-A-Service in The Cloud
No ratings yet
Naas: Network-As-A-Service in The Cloud
6 pages
6.CC Lab-Manual
No ratings yet
6.CC Lab-Manual
19 pages
T.Y.B.sc. Computer Science 30june
No ratings yet
T.Y.B.sc. Computer Science 30june
53 pages
Project Report
No ratings yet
Project Report
72 pages
1.fundemental of Networking
No ratings yet
1.fundemental of Networking
45 pages
CH 9 Spreadsheet Notes
83% (6)
CH 9 Spreadsheet Notes
3 pages
UID Merged Compressed PDF
No ratings yet
UID Merged Compressed PDF
665 pages
QMS-WI-OMS-11 Modbus Device Checking and Fault Tracing
No ratings yet
QMS-WI-OMS-11 Modbus Device Checking and Fault Tracing
2 pages
Radio Hisky X 6s
No ratings yet
Radio Hisky X 6s
14 pages
Computer Science Terms Dictionary Glossary
No ratings yet
Computer Science Terms Dictionary Glossary
7 pages
3.2.1.8 Packet Tracer - Configuring RIPv2 Instructions - ILM
No ratings yet
3.2.1.8 Packet Tracer - Configuring RIPv2 Instructions - ILM
3 pages
Renamed Conditional Jumps: COAL-CS-255-A - 2
No ratings yet
Renamed Conditional Jumps: COAL-CS-255-A - 2
5 pages

Apache Spark Fundamentals: Getting Started

Uploaded by

Apache Spark Fundamentals: Getting Started

Uploaded by

Apache Spark Fundamentals

public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {

public static void main(String[] args) throws Exception {

Job job = new Job(conf, "wordcount");

FileInputFormat.addInputPath(job, new Path(args[0]));

FileInputFormat.addInputPath(job, new Path(args[0]));

§ Basics of Spark § Libraries

§ Basics of Spark § Libraries

Spark Paper Apache Spark 2.x

2004 2006 2009 2010 2011 2013 2014 2016

Experimental Developer API

You might also like