0% found this document useful (0 votes)

66 views9 pages

Pyspark Optimization

The document outlines various optimization techniques for PySpark, including the Catalyst Optimizer, Tungsten Engine, and methods for partitioning, join optimization, caching, and file storage. Each technique is explained with its importance, use cases, code examples, and pro tips for effective implementation. It emphasizes best practices such as avoiding UDFs, using DataFrame APIs, and optimizing data layouts for improved performance.

Uploaded by

Akash Nahak

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

66 views9 pages

Pyspark Optimization

Uploaded by

Akash Nahak

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

PySpark Optimization Techniques

1. Catalyst Optimizer
2. Tungsten Engine
3. Partitioning & Data Layout
4. Join Optimization
5. Caching & Persistence
6. File Format & Storage Optimizations
7. Execution Engine Tuning
8. Code-Level Optimizations

1. Catalyst Optimizer
Technique: Catalyst Query Optimization

Why it matters:Automatically rewrites logical queries into efficient physical plans using rules like
predicate pushdown, constant folding, and projection pruning.
Use Case:ETL pipeline filtering large user datasets by status and date range — Catalyst reorders and
optimizes the filters.

Code Example:

df = spark.read.parquet("/data/users") df = df.filter(col("status") ==
"active").select("user_id", "email")

Pro Tip:Avoid using UDFs too early — they’re black-boxes for Catalyst and block many
optimizations.

2. Tungsten
Technique: Tungsten In-Memory Optimization
Why it matters:Optimizes memory layout using off-heap storage and bytecode generation to reduce
JVM overhead.
Use Case:Running ML models or iterative processing on large datasets, where JVM GC and object
creation cost is high.
Code Example:Tungsten is internal; you benefit automatically with DataFrame APIs.
Pro Tip:Stick to high-level APIs (DataFrame, Dataset). Avoid RDD unless necessary.

3. Partitioning & Data Layout

Technique: Partition Pruning

Why it matters:Reduces data scanned by skipping partitions not needed for query.
Use Case:Monthly-partitioned sales data — analyzing only month=06.
Code Example:

df = spark.read.parquet("/data/sales") df_filtered = df.filter("month = 6")

Pro Tip:Make sure your filter column matches partition column name. Use
spark.sql.sources.partitionOverwriteMode=dynamic when overwriting.

Technique: Column Pruning

Why it matters:Only reads required columns, reducing I/O.

Use Case:Processing audit logs with 100+ columns but reporting on 3.
Code Example:

df.select("user_id", "event_time", "action").show()

Pro Tip:Avoid using select("*") in production code.

Technique: Repartitioning & Coalescing

Why it matters:Controls the number of partitions — avoids shuffles or small file problems.
Use Case:Before writing large files to HDFS or S3.
Code Example:
df = df.repartition(10) # increase and shuffle df = df.coalesce(1) # reduce
partitions (no shuffle)

Pro Tip:Use coalesce() for write performance; use repartition() before joins to optimize shuffle.

4. Join Optimization
Technique: Broadcast Join

Why it matters:Avoids shuffle when one table is small (fits in memory) — replicates it to all
executors.
Use Case:Joining a 1 crore transaction table with a small reference table (states list).
Code Example:

from pyspark.sql.functions import broadcast df = large_df.join(broadcast(small_df),

"state_id")

Pro Tip:Works best for tables < 10MB. Set threshold via: spark.sql.autoBroadcastJoinThreshold

Technique: Skew Join Handling

Why it matters:Some keys (like India) may appear too frequently, causing skewed joins and slow
tasks.
Use Case:Customer table has 80% records from Maharashtra.
Code Example (AQE):

spark.conf.set("spark.sql.adaptive.skewJoin.enabled", True)

Pro Tip:If AQE doesn’t help, manually add “salting”:

from pyspark.sql.functions import concat, col, rand skewed_df =
df.withColumn("salted_key", concat(col("key"), (rand() * 10).cast("int")))

5. Caching & Persistence

Technique: Cache / Persist

Why it matters:Prevents recomputation of expensive intermediate results used multiple times.

Use Case:ML pipelines where features are reused across models.
Code Example:

df.cache() # or df.persist(StorageLevel.MEMORY_AND_DISK)

Pro Tip:Always unpersist() after use to release memory.

6. File Format & Storage Optimizations

Technique: Columnar Formats (Parquet / ORC)

Why it matters:Supports predicate pushdown, compression, and column pruning.

Use Case:Storing customer transactions for analytics.
Code Example:

df.write.mode("overwrite").parquet("/output/path")

Pro Tip:Avoid CSV for large-scale data — it’s row-based and not optimized for Spark.

Technique: Optimal File Sizing

Why it matters:Too many small files slow down job planning and reading.
Use Case:Streaming data saved with 1000 tiny files per batch.
Code Example:

df.coalesce(10).write.mode("overwrite").parquet("/data/cleaned")
Pro Tip:Aim for file sizes between 128MB and 1GB per file.

Technique: Bucketing

Why it matters:Helps Spark do hash joins more efficiently.

Use Case:Joining historical tables on customer_id.
Code Example:

df.write.bucketBy(50, "customer_id").sortBy("customer_id").saveAsTable("bucketed_data")

Pro Tip:Works best when both tables are bucketed on the same column and number of buckets.

7. Execution Engine Tuning

Technique: Adaptive Query Execution (AQE)

Why it matters:Spark adjusts physical plan at runtime (e.g., for skewed joins).
Use Case:Queries with unknown cardinality and potential skew.
Code Example:

spark.conf.set("spark.sql.adaptive.enabled", True)

Pro Tip:Enabled by default in Spark 3.x+. Combine with skew join and dynamic partition coalescing.

Technique: Cost-Based Optimization (CBO)

Why it matters:Helps Spark reorder joins more effectively using statistics.

Use Case:Star schema with fact and many dimension tables.
Code Example:

ANALYZE TABLE customers COMPUTE STATISTICS

Pro Tip:Enable:

spark.conf.set("spark.sql.cbo.enabled", True)
8. Code-Level Optimizations
Technique: Avoid UDFs Where Possible

Why it matters:UDFs block Catalyst and Tungsten optimizations.

Use Case:Data cleaning or parsing logic.
Bad:

from pyspark.sql.functions import udf udf_upper = udf(lambda x: x.upper())

df.withColumn("name_upper", udf_upper("name"))

Good:

df.withColumn("name_upper", upper(col("name")))

Pro Tip:Use Spark SQL functions (F.*) — they’re optimized internally.

Summary Cheat Sheet

Category Optimization Technique Tip

Catalyst Logical/Physical Plan Optimization Avoid early UDFs

Tungsten In-memory layout, CPU tuning Use DataFrame API

Filter on partition
Partitioning Partition Pruning, Column Pruning
column

Joins Broadcast Join, Skew Handling Enable AQE

Storage Parquet, Bucketing, Coalesce Avoid small files

Execution AQE, CBO, Stats Collection Combine for best results

Coding Practices Avoid UDFs, Use Built-in Functions More Catalyst wins

PySpark Performance Optimization PDF
No ratings yet
PySpark Performance Optimization PDF
7 pages
Apache Spark - Optimization Techniques
No ratings yet
Apache Spark - Optimization Techniques
7 pages
Spark Optimisation
No ratings yet
Spark Optimisation
7 pages
Partition Pruning
No ratings yet
Partition Pruning
2 pages
Spark Optimization 1741826797
No ratings yet
Spark Optimization 1741826797
7 pages
Spark All Optimizations & Code
No ratings yet
Spark All Optimizations & Code
25 pages
Code Optimization in Spark
No ratings yet
Code Optimization in Spark
4 pages
PySpark Optimization Techniques For Data Engineers
No ratings yet
PySpark Optimization Techniques For Data Engineers
1 page
Spark Optimisation Techniques
No ratings yet
Spark Optimisation Techniques
3 pages
Deloitte & EY Data Engineer Interview Questions
No ratings yet
Deloitte & EY Data Engineer Interview Questions
26 pages
A Practical Troubleshooting Guide For Apache Spark
No ratings yet
A Practical Troubleshooting Guide For Apache Spark
5 pages
IBM PySpark CheatSheet
No ratings yet
IBM PySpark CheatSheet
2 pages
Advance Spark
No ratings yet
Advance Spark
8 pages
Performance Tuning Spark UI
No ratings yet
Performance Tuning Spark UI
37 pages
Top 10 Production-Grade Reusable PySpark Scripts For Data Engineers - by Mayurkumar Surani - May, 2025 - Medium
No ratings yet
Top 10 Production-Grade Reusable PySpark Scripts For Data Engineers - by Mayurkumar Surani - May, 2025 - Medium
14 pages
Spark QA
No ratings yet
Spark QA
34 pages
PySpark Code Quality Guide
No ratings yet
PySpark Code Quality Guide
4 pages
Minimize PySpark Shuffle Operations
No ratings yet
Minimize PySpark Shuffle Operations
4 pages
Spark Optimization Case Study Cleaned
No ratings yet
Spark Optimization Case Study Cleaned
7 pages
PySpark All Query
No ratings yet
PySpark All Query
22 pages
Pyspark 12 Questions
No ratings yet
Pyspark 12 Questions
8 pages
Optimizing 1TB Data Handling Using PySpark 3p
No ratings yet
Optimizing 1TB Data Handling Using PySpark 3p
3 pages
ApacheSpark Top 10 QnA
No ratings yet
ApacheSpark Top 10 QnA
33 pages
PySpark Cheatsheet
100% (1)
PySpark Cheatsheet
12 pages
Spark SQL Optimization - Real Case Studies
No ratings yet
Spark SQL Optimization - Real Case Studies
18 pages
Data Engineer Interview
No ratings yet
Data Engineer Interview
23 pages
Mock Interview 1741841409
No ratings yet
Mock Interview 1741841409
9 pages
Optimizing 1 TB Data in Pyspark
No ratings yet
Optimizing 1 TB Data in Pyspark
4 pages
Spark - Out of Memory Exception Handling
No ratings yet
Spark - Out of Memory Exception Handling
3 pages
Data Engineers Cheat Sheet - 21 Must-Know PySpark Questions
No ratings yet
Data Engineers Cheat Sheet - 21 Must-Know PySpark Questions
16 pages
Spark Tips 1716698498
No ratings yet
Spark Tips 1716698498
7 pages
Data Wrangling and EDA with PySpark
No ratings yet
Data Wrangling and EDA with PySpark
10 pages
Data Engineering Part - 2
No ratings yet
Data Engineering Part - 2
21 pages
Senior Data Engineer Qs
No ratings yet
Senior Data Engineer Qs
7 pages
Spark Optimization for Developers
No ratings yet
Spark Optimization for Developers
3 pages
PySpark Cheat Sheet
No ratings yet
PySpark Cheat Sheet
6 pages
Spark Driver Role & Data Skew Solutions
No ratings yet
Spark Driver Role & Data Skew Solutions
33 pages
PySpark Tutorial: From Basics to Advanced
No ratings yet
PySpark Tutorial: From Basics to Advanced
102 pages
Q1. Difference Between Cache and Pe
No ratings yet
Q1. Difference Between Cache and Pe
13 pages
Spark Big Data Tuning Guide
100% (1)
Spark Big Data Tuning Guide
20 pages
Databricks Performance Tuning
No ratings yet
Databricks Performance Tuning
54 pages
Pyspark
100% (1)
Pyspark
48 pages
Pyspark Cheat Sheet PDF
No ratings yet
Pyspark Cheat Sheet PDF
1 page
Optimization Databricks
No ratings yet
Optimization Databricks
10 pages
Execr
No ratings yet
Execr
4 pages
PySpark DataFrame Operations Guide
No ratings yet
PySpark DataFrame Operations Guide
10 pages
PySpark DataFrame Operations Guide
No ratings yet
PySpark DataFrame Operations Guide
10 pages
Complete Data Engineer Interview Guide
No ratings yet
Complete Data Engineer Interview Guide
3 pages
Databricks Best Practices
No ratings yet
Databricks Best Practices
25 pages
Py Spark
No ratings yet
Py Spark
7 pages
Spark Class 2
No ratings yet
Spark Class 2
37 pages
ETL Processes Using PySpark
80% (5)
ETL Processes Using PySpark
7 pages
Etl Commands For Pyspark
No ratings yet
Etl Commands For Pyspark
8 pages
Complete Spark & Azure Databricks Interview Guide - Claude
No ratings yet
Complete Spark & Azure Databricks Interview Guide - Claude
46 pages
Most Asked Interview Questions in Top MNC'S: 1. A. Partitioning Caching Broadcasting
No ratings yet
Most Asked Interview Questions in Top MNC'S: 1. A. Partitioning Caching Broadcasting
4 pages
Spark DataFrame Best Practices
No ratings yet
Spark DataFrame Best Practices
10 pages
Aqe 1729101916
No ratings yet
Aqe 1729101916
3 pages
Myinterview Qs
No ratings yet
Myinterview Qs
9 pages
Lecture 5 - Computer-Assisted Audit Tools and Techniques
100% (1)
Lecture 5 - Computer-Assisted Audit Tools and Techniques
6 pages
Management Micro-Project Report - Suraj
No ratings yet
Management Micro-Project Report - Suraj
26 pages
DebuggingUVM PDF
No ratings yet
DebuggingUVM PDF
58 pages
Bca 4 Sem Software Engineering 10066 Dec 2020
No ratings yet
Bca 4 Sem Software Engineering 10066 Dec 2020
2 pages
Jazz/CLM Installation Guide
No ratings yet
Jazz/CLM Installation Guide
60 pages
QCM Bigdata 1 Exampdf
No ratings yet
QCM Bigdata 1 Exampdf
7 pages
ISO/IEC 27001:2022 Compliance Overview
No ratings yet
ISO/IEC 27001:2022 Compliance Overview
23 pages
Types of Hackers Explained
No ratings yet
Types of Hackers Explained
2 pages
Basic Data Structure Programs in C
0% (1)
Basic Data Structure Programs in C
1 page
Shashank Gupta Updated Resume
No ratings yet
Shashank Gupta Updated Resume
1 page
Oracle EAM SQL Statements
No ratings yet
Oracle EAM SQL Statements
9 pages
CH 03-01 Data Preprocessing
No ratings yet
CH 03-01 Data Preprocessing
27 pages
Data Analytics and Reporting - Notes Unit 1 and 2
No ratings yet
Data Analytics and Reporting - Notes Unit 1 and 2
11 pages
Cloud Security Knowledge
No ratings yet
Cloud Security Knowledge
95 pages
CyberArk Vault Management and Security Features
No ratings yet
CyberArk Vault Management and Security Features
11 pages
Encapsulation - Questions
No ratings yet
Encapsulation - Questions
3 pages
FortiCloud 24.1 Concept - Guide
No ratings yet
FortiCloud 24.1 Concept - Guide
29 pages
Aws Architecting Solutions
No ratings yet
Aws Architecting Solutions
21 pages
MCA Exam Schedule April 2011
No ratings yet
MCA Exam Schedule April 2011
3 pages
Azure Data Factory Guide
0% (1)
Azure Data Factory Guide
2,982 pages
Unit 1 2 3 4 5 Question Bank
No ratings yet
Unit 1 2 3 4 5 Question Bank
7 pages
Project - Automating Workloads With ARM Templates: Exercise 1: Define The Network
100% (2)
Project - Automating Workloads With ARM Templates: Exercise 1: Define The Network
22 pages
Azure Data Engineer E2E Project 1
No ratings yet
Azure Data Engineer E2E Project 1
21 pages
Adventure Works Work Book
No ratings yet
Adventure Works Work Book
100 pages
Indian Railways Bill Generation Software
No ratings yet
Indian Railways Bill Generation Software
10 pages
Introduction to Programming Basics
No ratings yet
Introduction to Programming Basics
12 pages
Installation and User's Guide: IBM Spectrum Protect Plus
No ratings yet
Installation and User's Guide: IBM Spectrum Protect Plus
131 pages
UCSF Contingency Plan Procedures
No ratings yet
UCSF Contingency Plan Procedures
11 pages
S4H - 496 Test Automation Tool For SAP S4HANA Cloud
100% (1)
S4H - 496 Test Automation Tool For SAP S4HANA Cloud
26 pages
Bank Management System Guide
100% (1)
Bank Management System Guide
58 pages

Pyspark Optimization

Uploaded by

Pyspark Optimization

Uploaded by

PySpark Optimization Techniques

3. Partitioning & Data Layout

df = spark.read.parquet("/data/sales") df_filtered = df.filter("month = 6")

Technique: Column Pruning

Why it matters:Only reads required columns, reducing I/O.

df.select("user_id", "event_time", "action").show()

Pro Tip:Avoid using select("*") in production code.

Technique: Repartitioning & Coalescing

from pyspark.sql.functions import broadcast df = large_df.join(broadcast(small_df),

Technique: Skew Join Handling

Pro Tip:If AQE doesn’t help, manually add “salting”:

5. Caching & Persistence

Why it matters:Prevents recomputation of expensive intermediate results used multiple times.

Pro Tip:Always unpersist() after use to release memory.

6. File Format & Storage Optimizations

Why it matters:Supports predicate pushdown, compression, and column pruning.

Technique: Optimal File Sizing

Why it matters:Helps Spark do hash joins more efficiently.

7. Execution Engine Tuning

Technique: Cost-Based Optimization (CBO)

Why it matters:Helps Spark reorder joins more effectively using statistics.

ANALYZE TABLE customers COMPUTE STATISTICS

Why it matters:UDFs block Catalyst and Tungsten optimizations.

from pyspark.sql.functions import udf udf_upper = udf(lambda x: x.upper())

Pro Tip:Use Spark SQL functions (F.*) — they’re optimized internally.

Summary Cheat Sheet

Catalyst Logical/Physical Plan Optimization Avoid early UDFs

Tungsten In-memory layout, CPU tuning Use DataFrame API

Joins Broadcast Join, Skew Handling Enable AQE

Storage Parquet, Bucketing, Coalesce Avoid small files

Execution AQE, CBO, Stats Collection Combine for best results

You might also like