0% found this document useful (0 votes)

103 views7 pages

EDA Cheat Sheet

This cheat sheet provides a comprehensive overview of Exploratory Data Analysis (EDA) techniques using Pandas, covering data loading, inspection, cleaning, transformation, visualization, and statistical analysis. It includes practical code snippets for various operations such as handling missing data, merging datasets, and performing advanced queries. Additionally, it addresses memory optimization, performance tuning, and integration with other libraries for enhanced data manipulation and visualization.

Uploaded by

brahmarapper

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

103 views7 pages

EDA Cheat Sheet

Uploaded by

brahmarapper

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

#_ Exploratory Data Analysis (EDA) with Pandas [CheatSheet]

1. Data Loading

● Read CSV File: df = pd.read_csv('filename.csv')

● Read Excel File: df = pd.read_excel('filename.xlsx')
● Read from SQL Database: df = pd.read_sql(query, connection)

2. Basic Data Inspection

● Display Top Rows: df.head()

● Display Bottom Rows: df.tail()
● Display Data Types: df.dtypes
● Summary Statistics: df.describe()
● Display Index, Columns, and Data: df.info()

3. Data Cleaning

● Check for Missing Values: df.isnull().sum()

● Fill Missing Values: df.fillna(value)
● Drop Missing Values: df.dropna()
● Rename Columns: df.rename(columns={'old_name': 'new_name'})
● Drop Columns: df.drop(columns=['column_name'])

4. Data Transformation

● Apply Function: df['column'].apply(lambda x: function(x))

● Group By and Aggregate: df.groupby('column').agg({'column': 'sum'})
● Pivot Tables: df.pivot_table(index='column1', values='column2',
aggfunc='mean')
● Merge DataFrames: pd.merge(df1, df2, on='column')
● Concatenate DataFrames: pd.concat([df1, df2])

5. Data Visualization Integration

● Histogram: df['column'].hist()
● Boxplot: df.boxplot(column=['column1', 'column2'])

By: Waleed Mousa

Manoj Pandey
● Scatter Plot: df.plot.scatter(x='col1', y='col2')
● Line Plot: df.plot.line()
● Bar Chart: df['column'].value_counts().plot.bar()

6. Statistical Analysis

● Correlation Matrix: df.corr()

● Covariance Matrix: df.cov()
● Value Counts: df['column'].value_counts()
● Unique Values in Column: df['column'].unique()
● Number of Unique Values: df['column'].nunique()

7. Indexing and Selection

● Select Column: df['column']

● Select Multiple Columns: df[['col1', 'col2']]
● Select Rows by Position: df.iloc[0:5]
● Select Rows by Label: df.loc[0:5]
● Conditional Selection: df[df['column'] > value]

8. Data Formatting and Conversion

● Convert Data Types: df['column'].astype('type')

● String Operations: df['column'].str.lower()
● Datetime Conversion: pd.to_datetime(df['column'])
● Setting Index: df.set_index('column')

9. Advanced Data Transformation

● Lambda Functions: df.apply(lambda x: x + 1)

● Pivot Longer/Wider Format: df.melt(id_vars=['col1'])
● Stack/Unstack: df.stack(), df.unstack()
● Cross Tabulations: pd.crosstab(df['col1'], df['col2'])

10. Handling Time Series Data

● Set Datetime Index: df.set_index(pd.to_datetime(df['date']))

● Resampling Data: df.resample('M').mean()

By: Waleed Mousa

Manoj Pandey
● Rolling Window Operations: df.rolling(window=5).mean()

11. File Export

● Write to CSV: df.to_csv('filename.csv')

● Write to Excel: df.to_excel('filename.xlsx')
● Write to SQL Database: df.to_sql('table_name', connection)

12. Data Exploration Techniques

● Profile Report (with pandas-profiling): from pandas_profiling import

ProfileReport; ProfileReport(df)
● Pairplot (with seaborn): import seaborn as sns; sns.pairplot(df)
● Heatmap for Correlation (with seaborn): sns.heatmap(df.corr(),
annot=True)

13. Advanced Data Queries

● Query Function: df.query('column > value')

● Filtering with isin: df[df['column'].isin([value1, value2])]

14. Memory Optimization

● Reducing Memory Usage: df.memory_usage(deep=True)

● Change Data Types to Save Memory: df['column'].astype('category')

15. Multi-Index Operations

● Creating MultiIndex: df.set_index(['col1', 'col2'])

● Slicing on MultiIndex: df.loc[(slice('index1_start', 'index1_end'),
slice('index2_start', 'index2_end'))]

16. Data Merging Techniques

● Outer Join: pd.merge(df1, df2, on='column', how='outer')

● Inner Join: pd.merge(df1, df2, on='column', how='inner')
● Left Join: pd.merge(df1, df2, on='column', how='left')
● Right Join: pd.merge(df1, df2, on='column', how='right')

By: Waleed Mousa

Manoj Pandey
17. Dealing with Duplicates

● Finding Duplicates: df.duplicated()

● Removing Duplicates: df.drop_duplicates()

18. Custom Operations with Apply

● Custom Apply Functions: df.apply(lambda row:

custom_func(row['col1'], row['col2']), axis=1)

19. Handling Large Datasets

● Chunking Large Files: pd.read_csv('large_file.csv', chunksize=1000)

● Iterating Through Data Chunks: for chunk in pd.read_csv('file.csv',
chunksize=500): process(chunk)

20. Integration with Matplotlib for Custom Plots

● Custom Plotting: import matplotlib.pyplot as plt; df.plot();

plt.show()

21. Specialized Data Types Handling

● Working with Categorical Data: df['column'].astype('category')

● Dealing with Sparse Data: pd.arrays.SparseArray(df['column'])

22. Performance Tuning

● Using Swifter for Faster Apply: import swifter;

df['column'].swifter.apply(lambda x: func(x))
● Parallel Processing with Dask: import dask.dataframe as dd; ddf =
dd.from_pandas(df, npartitions=10)

23. Visualization Enhancement

● Customize Plot Style: plt.style.use('ggplot')

● Histogram with Bins Specification: df['column'].hist(bins=20)
● Boxplot Grouped by Category: df.boxplot(column='num_column',
by='cat_column')

By: Manoj
Waleed Mousa
Pandey
24. Advanced Grouping and Aggregation

● Group by Multiple Columns: df.groupby(['col1', 'col2']).mean()

● Aggregate with Multiple Functions: df.groupby('col').agg(['mean',
'sum'])
● Transform Function: df.groupby('col').transform(lambda x: x -
x.mean())

25. Time Series Specific Operations

● Time-Based Grouping: df.groupby(pd.Grouper(key='date_col',

freq='M')).sum()
● Shifting Series for Lag Analysis: df['column'].shift(1)
● Resample Time Series Data: df.resample('M', on='date_col').mean()

26. Text Data Specific Operations

● String Contains: df[df['column'].str.contains('substring')]

● String Split: df['column'].str.split(' ', expand=True)
● Regular Expression Extraction: df['column'].str.extract(r'(regex)')

27. Data Normalization and Standardization

● Min-Max Normalization: (df['column'] - df['column'].min()) /

(df['column'].max() - df['column'].min())
● Z-Score Standardization: (df['column'] - df['column'].mean()) /
df['column'].std()

28. Working with JSON and XML

● Reading JSON: df = pd.read_json('filename.json')

● Reading XML: df = pd.read_xml('filename.xml')

29. Advanced File Handling

● Read CSV with Specific Delimiter: df = pd.read_csv('filename.csv',

delimiter=';')
● Writing to JSON: df.to_json('filename.json')

By: Waleed Mousa

Manoj Pandey
30. Dealing with Missing Data

● Interpolate Missing Values: df['column'].interpolate()

● Forward Fill Missing Values: df['column'].ffill()
● Backward Fill Missing Values: df['column'].bfill()

31. Data Reshaping

● Wide to Long Format: pd.wide_to_long(df, ['col'], i='id_col',

j='year')
● Long to Wide Format: df.pivot(index='id_col', columns='year',
values='col')

32. Categorical Data Operations

● Convert Column to Categorical: df['column'] =

df['column'].astype('category')
● Order Categories: df['column'].cat.set_categories(['cat1', 'cat2'],
ordered=True)

33. Advanced Indexing

● Reset Index: df.reset_index(drop=True)

● Set Multiple Indexes: df.set_index(['col1', 'col2'])
● MultiIndex Slicing: df.xs(key='value', level='level_name')

34. Efficient Computations

● Use of eval() for Efficient Operations: df.eval('col1 + col2')

● Query Method for Filtering: df.query('col1 < col2')

35. Integration with SciPy and StatsModels

● Linear Regression (with statsmodels): import statsmodels.api as

sm; sm.OLS(y, X).fit()
● Kurtosis and Skewness (with SciPy): from scipy.stats import
kurtosis, skew; kurtosis(df['column']), skew(df['column'])

By: Manoj
WaleedPandey
Mousa
36. Handling Large Data Efficiently

● Dask Integration for Large Data: import dask.dataframe as dd; ddf =

dd.from_pandas(df, npartitions=10)
● Sampling Data for Quick Insights: df.sample(n=1000)

37. Advanced Data Merging

● SQL-like Joins: pd.merge(df1, df2, how='left', on='col')

● Concatenating Along a Different Axis: pd.concat([df1, df2],
axis=1)

38. Profiling Data for Quick Insights

● Using Pandas Profiling for Quick Analysis: from pandas_profiling

import ProfileReport; report = ProfileReport(df)

39. Working with External Data Sources

● Reading Data from HTML: dfs = pd.read_html('http://example.com')

● Connecting to a SQL Database: from sqlalchemy import create_engine;
engine = create_engine('sqlite:///db.sqlite'); df =
pd.read_sql('SELECT * FROM table_name', engine)

40. Data Quality Checks

● Assert Statement for Data Validation: assert

df.notnull().all().all(), "There are missing values in the
dataframe"

By: Manoj
Waleed Mousa
Pandey

Pandas Handbook
No ratings yet
Pandas Handbook
33 pages
An Introduction To R
No ratings yet
An Introduction To R
212 pages
Python Interview Questions
No ratings yet
Python Interview Questions
8 pages
Data Cleaning 1728415892
No ratings yet
Data Cleaning 1728415892
10 pages
Python Cheat Sheet For Data Analysis
No ratings yet
Python Cheat Sheet For Data Analysis
2 pages
Exploratory Data Analysis
100% (1)
Exploratory Data Analysis
209 pages
Pandas vs PySpark: Data Operations
No ratings yet
Pandas vs PySpark: Data Operations
3 pages
EDA Assignment
No ratings yet
EDA Assignment
15 pages
Data Science Guide: Concepts & Roles
100% (1)
Data Science Guide: Concepts & Roles
67 pages
Regression Project
100% (1)
Regression Project
60 pages
Customer Data Analysis & Feature Engineering
No ratings yet
Customer Data Analysis & Feature Engineering
35 pages
Big Data Technology
100% (1)
Big Data Technology
10 pages
Sent-Machine Learning For Data Science
100% (1)
Sent-Machine Learning For Data Science
463 pages
Data Science Portfolio For Success
No ratings yet
Data Science Portfolio For Success
100 pages
New Ebook Guide To AI Data Science
No ratings yet
New Ebook Guide To AI Data Science
50 pages
Pandas Data Wrangling Cheat Sheet
100% (2)
Pandas Data Wrangling Cheat Sheet
6 pages
Data Analyst Cheatsheet - For - Kuhtfe
No ratings yet
Data Analyst Cheatsheet - For - Kuhtfe
6 pages
Python For Finance - The Complete Beginner's Guide - by Behic Guven - Jul, 2020 - Towards Data Science PDF
100% (1)
Python For Finance - The Complete Beginner's Guide - by Behic Guven - Jul, 2020 - Towards Data Science PDF
12 pages
Pant D. Statistics For Data Scientists and Analysts... Using Python 2025
No ratings yet
Pant D. Statistics For Data Scientists and Analysts... Using Python 2025
508 pages
Power BI Field List Icon Updates
No ratings yet
Power BI Field List Icon Updates
3 pages
Lesson 1 - Course - Introduction
No ratings yet
Lesson 1 - Course - Introduction
9 pages
Duckdb Docs
No ratings yet
Duckdb Docs
721 pages
IT Semester Curriculum Overview
No ratings yet
IT Semester Curriculum Overview
191 pages
Pandas Cheat Sheet PDF
67% (3)
Pandas Cheat Sheet PDF
1 page
Data Science in E-Commerce - Report - Writing
100% (1)
Data Science in E-Commerce - Report - Writing
18 pages
Data Visualisation Using Pyplot
No ratings yet
Data Visualisation Using Pyplot
20 pages
Free Data Science Courses & Certs
No ratings yet
Free Data Science Courses & Certs
2 pages
Data Science Design
No ratings yet
Data Science Design
299 pages
Data Analysis With Pandas - Introduction To Pandas Cheatsheet - Codecademy PDF
100% (1)
Data Analysis With Pandas - Introduction To Pandas Cheatsheet - Codecademy PDF
3 pages
DAX Cheat Sheet for Power BI
No ratings yet
DAX Cheat Sheet for Power BI
10 pages
Security and Privacy Issues in Recommender Systems
100% (1)
Security and Privacy Issues in Recommender Systems
15 pages
Dealing With Missing Data in Python Pandas
100% (1)
Dealing With Missing Data in Python Pandas
14 pages
SQL Functions
100% (1)
SQL Functions
16 pages
Keras Cheat Sheet Python
No ratings yet
Keras Cheat Sheet Python
1 page
Fundamentals of Data Engineering Concepts
No ratings yet
Fundamentals of Data Engineering Concepts
219 pages
Data Science Full Roadmap
No ratings yet
Data Science Full Roadmap
2 pages
Python-Linear Regression
No ratings yet
Python-Linear Regression
72 pages
Cleaning Dirty Data With Pandas & Python - DevelopIntelligence Blog PDF
No ratings yet
Cleaning Dirty Data With Pandas & Python - DevelopIntelligence Blog PDF
8 pages
6 XG Boost - Jupyter Notebook
100% (1)
6 XG Boost - Jupyter Notebook
3 pages
Real Estate ML Project Guide
No ratings yet
Real Estate ML Project Guide
20 pages
Python Data Visualization Guide
No ratings yet
Python Data Visualization Guide
16 pages
Python Codin
No ratings yet
Python Codin
4 pages
Power BI Interview Questions at Deloitte
0% (1)
Power BI Interview Questions at Deloitte
6 pages
Py Spark
No ratings yet
Py Spark
427 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
Pandas Trampas
No ratings yet
Pandas Trampas
9 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Cheat Sheet - Pandas
No ratings yet
Cheat Sheet - Pandas
6 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Pandas Dataframe Cheat Sheet
No ratings yet
Pandas Dataframe Cheat Sheet
3 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Pandas Operations Guide
No ratings yet
Pandas Operations Guide
6 pages
Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Pandas Dataframe All Operations 1735471870
No ratings yet
Pandas Dataframe All Operations 1735471870
4 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
Pandas For Python Pro Level Cheat Sheet
No ratings yet
Pandas For Python Pro Level Cheat Sheet
14 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
60 pages
Northwind Analysis
No ratings yet
Northwind Analysis
11 pages
PHP and Laravel Quiz Questions
No ratings yet
PHP and Laravel Quiz Questions
6 pages
CS405 Assignment 2 Solution Spring 2024
No ratings yet
CS405 Assignment 2 Solution Spring 2024
6 pages
DBMS MCQ
No ratings yet
DBMS MCQ
21 pages
Snowflake Sample Resume3
No ratings yet
Snowflake Sample Resume3
4 pages
MINI PROJECT DB Restricted PDF
No ratings yet
MINI PROJECT DB Restricted PDF
33 pages
openBIM Standards Guide
No ratings yet
openBIM Standards Guide
24 pages
Assignment03 DBS (Rooha)
No ratings yet
Assignment03 DBS (Rooha)
20 pages
Wa0000
No ratings yet
Wa0000
29 pages
Top 22 Windows Server Interview Questions
No ratings yet
Top 22 Windows Server Interview Questions
5 pages
Programing in Python
No ratings yet
Programing in Python
28 pages
ODBC API Reference Guide
No ratings yet
ODBC API Reference Guide
196 pages
NOSQL
No ratings yet
NOSQL
15 pages
Es 243 Biology For Engineers Assignment-2: Question-1
No ratings yet
Es 243 Biology For Engineers Assignment-2: Question-1
23 pages
Base de Datos
No ratings yet
Base de Datos
17 pages
DHIS2 Developer Manual v2.17 Guide
No ratings yet
DHIS2 Developer Manual v2.17 Guide
164 pages
DBMS MCQ
No ratings yet
DBMS MCQ
59 pages
Lec 6
No ratings yet
Lec 6
30 pages
Sap Hana Sqlscript Reference (Sap Hana Platform 2.0 Sps 00)
No ratings yet
Sap Hana Sqlscript Reference (Sap Hana Platform 2.0 Sps 00)
172 pages
Krishnaik06 The-Grand-Complete-Data-Science-Materials
No ratings yet
Krishnaik06 The-Grand-Complete-Data-Science-Materials
45 pages
Restrictions To Perform DML Operations On Views
No ratings yet
Restrictions To Perform DML Operations On Views
3 pages
How To Install Oracle Solaris Cluster On Solaris 11
No ratings yet
How To Install Oracle Solaris Cluster On Solaris 11
4 pages
AZ 104 August 2023
No ratings yet
AZ 104 August 2023
5 pages
Excel Project Sales Data Analysis GC
No ratings yet
Excel Project Sales Data Analysis GC
33 pages
214 Lecture 3
No ratings yet
214 Lecture 3
43 pages
Differences Between Database and Data Warehouse: Database
No ratings yet
Differences Between Database and Data Warehouse: Database
2 pages
SS3 Data Processing Pre-WAEC
100% (3)
SS3 Data Processing Pre-WAEC
5 pages
Professional Microsoft SQL Server 2014 Integration Services 1st Edition Brian Knight Latest PDF 2025
No ratings yet
Professional Microsoft SQL Server 2014 Integration Services 1st Edition Brian Knight Latest PDF 2025
132 pages
Datastage Answers
No ratings yet
Datastage Answers
3 pages
Intervención Emocional en Cuidados Paliativos, Modelos y Protocolos Primera Parte
100% (5)
Intervención Emocional en Cuidados Paliativos, Modelos y Protocolos Primera Parte
60 pages