4 Hadoop Ecosystem

Uploaded by

Vipul Khandke

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views16 pages

4 Hadoop Ecosystem

Uploaded by

Vipul Khandke

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 16

Hadoop Ecosystem

CSE412 Big Data and Large Scale

Mr P 1
Computing
Balasubramanian
Hadoop Ecosystem …
Cont.

• HBase is a Column-based NoSQL database.

• Runs on top of HDFS and can handle any type of data.
• It allows for real-time processing and random read/write operations
in the data.
• Pig was developed for analysing large datasets and overcomes the
difficulty to write map and reduce functions.
• It consists of two components: Pig Latin and Pig Engine.
• Pig Latin is the Scripting Language that is similar to SQL.
• Pig Engine is the execution engine on which Pig Latin runs.

• Hive is a distributed data warehouse system developed by

Facebook.
• It allows for easy reading, writing, and managing files on HDFS.
• It has its own querying language for the purpose known as Hive
Querying Language (HQL)
• This makes it very easy for programmers to write MR functions
using simple HQL queries.
Hadoop Ecosystem …
Cont.

• Spark built on Scala but supports varied applications written in

Java, Python, etc.
• In-memory processing – faster Real-time processing.
 Spark Core is the main execution engine for Spark
 Spark SQL allows for querying structured data stored in
DataFrames or Hive tables
 Streaming enables Spark to handle real-time data.
 MLlib is a scalable machine learning library that will enable
you to perform data science
 GraphX is a graph computation engine that enables users to
interactively build, transform, and reason about graph-
structured data at scale
• Kafka is distributed and has in-built partitioning, replication, and
fault-tolerance.
• It can handle streaming data and also allows businesses to analyze
data in real-time.
• Kafka is suitable for real-time data streaming use cases, such as
clickstream analysis, fraud detection, and real-time analytics.
Hadoop Ecosystem …
Cont.

BML 521 Big Data Management and

Mr P 4
Processing
Balasubramanian
Apache Pig
• Abstraction over MR.
• Tool/platform used to analyse large sets of
data
• Pig used with Hadoop  perform all DML.
• Pig provides a high-level language known as
Pig Latin.
• Pig Latin  Various operators  Programmers
can develop their own functions for reading,
writing, and processing data.
Apache PIG History
• In 2006, Apache Pig developed as a
research project at Yahoo  to create and
execute MR jobs on large dataset.
• In 2007, Apache Pig was open sourced via
Apache incubator.
• In 2008, the first release of Apache Pig
came out.
• In 2010, Apache Pig graduated as an
Apache top-level project.
Convert to MR
• All scripts are internally converted to MR
tasks.
• Apache Pig  Pig Engine that accepts the
Pig Latin scripts as input and converts
those scripts into MapReduce jobs.
Easy !!!
• Programmers can perform MR tasks easily -
complex codes in Java.
• Multi-query approach - reducing the length
of codes.
• An operation require 200 LoC in Java done
with 10 LoC in Apache Pig.
• Pig reduces development time 16 x times
Pig Latin Code -
Wordcount
8 Lines of code in Pig latin

BML 521 Big Data Management and

9
Processing
PIG VS MR
Applications of PIG
• To process huge data sources such as
web logs.

• To perform data processing for

search platforms.

• To process time sensitive data loads.

Features of PIG
Rich set of operators: To perform
operations like join, sort, filter, etc.
Ease of programming: Like SQL
Optimization opportunities: Tasks in Pig -
optimize their execution automatically, focus
on semantics
Extensibility: Using existing operators,
users can develop their own functions to
read, process, write data.
Features of PIG
• UDF’s: Pig provides the facility to create
User-defined Functions in other programming
languages and invoke or embed them in Pig
Scripts.
• Handles all kinds of data:
• It stores the results in HDFS.
PIG Architecture and
Components
Comparision

BML 521 Big Data Management and

Mr P 15
Processing
Balasubramanian
Thank You

BML 521 Big Data Management and

Mr P 16
Processing
Balasubramanian

Bda Unit Iv Notes
No ratings yet
Bda Unit Iv Notes
32 pages
Big Data Unit-5
No ratings yet
Big Data Unit-5
81 pages
U5 Big Data Aktu
No ratings yet
U5 Big Data Aktu
32 pages
Notes 5 Unit Big Data
No ratings yet
Notes 5 Unit Big Data
23 pages
Apache Pig - A Data Flow Framework Based On Hadoop Map Reduce
No ratings yet
Apache Pig - A Data Flow Framework Based On Hadoop Map Reduce
6 pages
BigData Unit 4
No ratings yet
BigData Unit 4
13 pages
Pig and Pig Latin
No ratings yet
Pig and Pig Latin
16 pages
Notes - 5 Unit Big Data
No ratings yet
Notes - 5 Unit Big Data
22 pages
Unit 4 Bba
No ratings yet
Unit 4 Bba
10 pages
Big Data Analytics: Apache Pig
No ratings yet
Big Data Analytics: Apache Pig
52 pages
5 PIG and HIVE
No ratings yet
5 PIG and HIVE
81 pages
Bda Unit 4 060115 Big Data Analytics Unit 4
No ratings yet
Bda Unit 4 060115 Big Data Analytics Unit 4
19 pages
Unit 5 Bda
No ratings yet
Unit 5 Bda
42 pages
Apache Pig in Nosql Databases
No ratings yet
Apache Pig in Nosql Databases
5 pages
Pig Latin: Simplifying Hadoop for All
No ratings yet
Pig Latin: Simplifying Hadoop for All
9 pages
Pig
No ratings yet
Pig
61 pages
Bda Unit 4 060115 Big Data Analytics Unit 4
No ratings yet
Bda Unit 4 060115 Big Data Analytics Unit 4
19 pages
Big Data Module V Notes
No ratings yet
Big Data Module V Notes
26 pages
Notes UNIT 5 Bigdata
No ratings yet
Notes UNIT 5 Bigdata
18 pages
BDA Unit5
No ratings yet
BDA Unit5
36 pages
Big Data Applications: Pig & Hive
No ratings yet
Big Data Applications: Pig & Hive
29 pages
Apache PIG
No ratings yet
Apache PIG
41 pages
Bda Unit 4 060115 Big Data Analytics Unit 4
No ratings yet
Bda Unit 4 060115 Big Data Analytics Unit 4
19 pages
Unit 5 (Pig, Hive, Hbase)
No ratings yet
Unit 5 (Pig, Hive, Hbase)
18 pages
Unit 5
No ratings yet
Unit 5
39 pages
BDA Unit 5-1
No ratings yet
BDA Unit 5-1
29 pages
Unit IV - Big Data Programming
No ratings yet
Unit IV - Big Data Programming
17 pages
Unit 5 Short
No ratings yet
Unit 5 Short
14 pages
Da 450 Slide Guide - Odt
No ratings yet
Da 450 Slide Guide - Odt
80 pages
Unit-4 Bigdata Analytics: What Is Apache Pig?
No ratings yet
Unit-4 Bigdata Analytics: What Is Apache Pig?
47 pages
Unit 4 Hadoop Eco System PDF
No ratings yet
Unit 4 Hadoop Eco System PDF
78 pages
Big Data Notes Pig
No ratings yet
Big Data Notes Pig
38 pages
Big Data Unit-5
No ratings yet
Big Data Unit-5
9 pages
Unit 4 Apachepig 210825041412
No ratings yet
Unit 4 Apachepig 210825041412
16 pages
UNIT 5 Complete Notes
No ratings yet
UNIT 5 Complete Notes
21 pages
Unit V-Apache Pig
No ratings yet
Unit V-Apache Pig
10 pages
Unit V Notes
No ratings yet
Unit V Notes
17 pages
Unit - V PIG Hadoop & Big Data: Pig Latin. This Language Provides Various Operators Using Which Programmers
No ratings yet
Unit - V PIG Hadoop & Big Data: Pig Latin. This Language Provides Various Operators Using Which Programmers
9 pages
Unit-V Pig Programming
No ratings yet
Unit-V Pig Programming
123 pages
05a Pig
No ratings yet
05a Pig
52 pages
BDA-2 Hadoop
No ratings yet
BDA-2 Hadoop
28 pages
Unit 5-1
No ratings yet
Unit 5-1
8 pages
Big Data Processing with Pig
No ratings yet
Big Data Processing with Pig
12 pages
Big Data Frameworks for Students
No ratings yet
Big Data Frameworks for Students
32 pages
Big Data Processing with Hive & Pig
No ratings yet
Big Data Processing with Hive & Pig
18 pages
BDP U4
No ratings yet
BDP U4
58 pages
BDA-Unit 5-Notes
No ratings yet
BDA-Unit 5-Notes
36 pages
Big Data - Unit 5 - Frame Works - Mini Xerox - Easy Read
No ratings yet
Big Data - Unit 5 - Frame Works - Mini Xerox - Easy Read
23 pages
Notes
No ratings yet
Notes
19 pages
Unit-5 (1) BD
No ratings yet
Unit-5 (1) BD
18 pages
Notes Unit 5 Bigdata
No ratings yet
Notes Unit 5 Bigdata
19 pages
Unit No. 8
No ratings yet
Unit No. 8
24 pages
BD 5
No ratings yet
BD 5
28 pages
Notes of Aktu Btech 3 Yr Big Data
No ratings yet
Notes of Aktu Btech 3 Yr Big Data
15 pages
PIG A Big Data Processor
No ratings yet
PIG A Big Data Processor
49 pages
Apache Pig: Simplified Data Processing
No ratings yet
Apache Pig: Simplified Data Processing
8 pages
Unit 5
No ratings yet
Unit 5
24 pages
Hadoop Big Data: Pig, Hive, HBase
No ratings yet
Hadoop Big Data: Pig, Hive, HBase
17 pages
Apache Pig
No ratings yet
Apache Pig
21 pages
IOE 421 Deep Learning-Assignment-2
No ratings yet
IOE 421 Deep Learning-Assignment-2
1 page
5 Decision Tree
No ratings yet
5 Decision Tree
26 pages
Hive Part 2
No ratings yet
Hive Part 2
47 pages
Hive Table Session
No ratings yet
Hive Table Session
23 pages
Naive Bayes
No ratings yet
Naive Bayes
25 pages
Map Reduce
No ratings yet
Map Reduce
37 pages
R Statements - 04
No ratings yet
R Statements - 04
21 pages
Hive Updated
No ratings yet
Hive Updated
18 pages
ID3 Decision Tree Guide
No ratings yet
ID3 Decision Tree Guide
30 pages
Linear Regression
No ratings yet
Linear Regression
12 pages
3.1 K Nearest Neighbour Classifier
No ratings yet
3.1 K Nearest Neighbour Classifier
24 pages
R Operators - 03
No ratings yet
R Operators - 03
26 pages
MLR - R and R2
No ratings yet
MLR - R and R2
17 pages
R Basics - 02
No ratings yet
R Basics - 02
34 pages
R Functions - 06
No ratings yet
R Functions - 06
26 pages
R Data Structures - 07 - 3
No ratings yet
R Data Structures - 07 - 3
35 pages
R DataPreprocessing
No ratings yet
R DataPreprocessing
23 pages
R Data Structures - 07 - 2
No ratings yet
R Data Structures - 07 - 2
18 pages
R Loops - 05
No ratings yet
R Loops - 05
16 pages
R Data Structures - 07 - 1
No ratings yet
R Data Structures - 07 - 1
30 pages
LR Assumptions - 05
No ratings yet
LR Assumptions - 05
12 pages
Ch01 ICS422 04
No ratings yet
Ch01 ICS422 04
84 pages
R Data Structures - 07 - 4
No ratings yet
R Data Structures - 07 - 4
27 pages
MLR Multicollinearlty, Categorical Variable
No ratings yet
MLR Multicollinearlty, Categorical Variable
48 pages
Residual Analysis and Test - 02
No ratings yet
Residual Analysis and Test - 02
37 pages
Multiple Linear Regression - Excel
No ratings yet
Multiple Linear Regression - Excel
14 pages
Ch01 ICS422 02
No ratings yet
Ch01 ICS422 02
39 pages
Ch01 ICS422 01
No ratings yet
Ch01 ICS422 01
42 pages
Ch01 ICS422 03
No ratings yet
Ch01 ICS422 03
46 pages
Niagra AX 3.x RDBMS
No ratings yet
Niagra AX 3.x RDBMS
42 pages
MySQL Basics for Linux Engineers
No ratings yet
MySQL Basics for Linux Engineers
3 pages
Ashwini Nerkar-Data Analyst
No ratings yet
Ashwini Nerkar-Data Analyst
1 page
Syntax Reviewer
No ratings yet
Syntax Reviewer
6 pages
HANA IO Savepoints 1.00.71+
No ratings yet
HANA IO Savepoints 1.00.71+
6 pages
Shefali Naik - Concept of Database Management System-Pearson (2014)
No ratings yet
Shefali Naik - Concept of Database Management System-Pearson (2014)
259 pages
ETL Mapping Document
No ratings yet
ETL Mapping Document
2 pages
1.2 DBMS
No ratings yet
1.2 DBMS
17 pages
ETL Process for Data Warehousing
No ratings yet
ETL Process for Data Warehousing
9 pages
E-Learning Data Mining Insights
No ratings yet
E-Learning Data Mining Insights
9 pages
Top SEO Tool
No ratings yet
Top SEO Tool
1 page
St. Xavier'S College: Database Management System Lab Assignment #2
No ratings yet
St. Xavier'S College: Database Management System Lab Assignment #2
7 pages
Wait Events
No ratings yet
Wait Events
5 pages
600 DBMS MCQs
100% (2)
600 DBMS MCQs
50 pages
Practical File Grade 12 Set 2
No ratings yet
Practical File Grade 12 Set 2
7 pages
Prioritytrees
No ratings yet
Prioritytrees
22 pages
Log
No ratings yet
Log
66 pages
Amadeus
No ratings yet
Amadeus
9 pages
IRS Syllabus
No ratings yet
IRS Syllabus
2 pages
Performance Comparison of Django Querysets and Elasticsearch
No ratings yet
Performance Comparison of Django Querysets and Elasticsearch
20 pages
May Issue - International Journal of Data Mining & Knowledge Management Process (IJDKP)
No ratings yet
May Issue - International Journal of Data Mining & Knowledge Management Process (IJDKP)
2 pages
Guide To Metadata-Driven Data Integration
No ratings yet
Guide To Metadata-Driven Data Integration
9 pages
Dbms Question Bank
100% (1)
Dbms Question Bank
4 pages
System Analysis and Design Practical Guide
0% (2)
System Analysis and Design Practical Guide
13 pages
Define Master and Transaction File
No ratings yet
Define Master and Transaction File
4 pages
Advanced Excel Certification Guide
No ratings yet
Advanced Excel Certification Guide
4 pages
UNIT 5 File Organization in DBMS
No ratings yet
UNIT 5 File Organization in DBMS
22 pages
Relational Database 2
No ratings yet
Relational Database 2
5 pages
Raport XI-XII Sem 1-2 2017 - 2018
No ratings yet
Raport XI-XII Sem 1-2 2017 - 2018
221 pages
Security Real-Time Data Auditing With Extended Oracle Change Data Capture
No ratings yet
Security Real-Time Data Auditing With Extended Oracle Change Data Capture
6 pages

4 Hadoop Ecosystem

Uploaded by

4 Hadoop Ecosystem

Uploaded by

Hadoop Ecosystem

CSE412 Big Data and Large Scale

• HBase is a Column-based NoSQL database.

• Hive is a distributed data warehouse system developed by

• Spark built on Scala but supports varied applications written in

BML 521 Big Data Management and

BML 521 Big Data Management and

• To perform data processing for

• To process time sensitive data loads.

BML 521 Big Data Management and

BML 521 Big Data Management and

You might also like