0% found this document useful (0 votes)

185 views18 pages

Pandas Guide for Beginners

Uploaded by

srinivas.nath.jobs

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

185 views18 pages

Pandas Guide for Beginners

Uploaded by

srinivas.nath.jobs

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 18

PANDAS

CHEATSHEET
A Beginners Guide

@apexiq.ai
Introduction
What is Pandas?
Pandas is a free library for Python that makes it easy to work with data. It
provides two main data structures: Series (like a list) and DataFrame (like a
table or spreadsheet). With Pandas, you can easily organize, analyze, and
manipulate data.

Why use Pandas?

User-Friendly: It has a simple and clear syntax, making it easy to learn
and use.
Data Handling: You can easily read and write data in different formats,
like CSV or Excel.
Data Manipulation: It offers powerful tools to filter, group, and reshape
your data quickly.
Integration: Pandas works well with other libraries like Matplotlib for
plotting graphs and Scikit-learn for machine learning.

Installation
To install Pandas, open your terminal or command prompt and type:
!pip install pandas

If you’re using Anaconda, you can install it by typing:

!conda install pandas

@apexiq.ai
1. Loading Data
Loading data is the first step in any data analysis workflow. Pandas provides
several functions to read data from various file formats.

Import:
Import Pandas library:
import pandas as pd

Load CSV File:

df = pd.read_csv('file.csv')

Load Excel File:

df = pd.read_excel('file.xlsx')
or
df = pd.read_excel('file.xlsx', sheet_name='Sheet1')

Load JSON File:

df = pd.read_json('file.json')

@apexiq.ai
2. Viewing Data
After loading the data, it’s important to inspect it to understand its structure
and content. Pandas provides several methods for this.

View First N Rows:

df.head(n=5)

View Last N Rows:

df.tail(n=5)

Random Sample of Rows:

df.sample(n=5)

Summary of DataFrame:

Display information about the DataFrame (data types, non-null counts)

df.info()

Display descriptive statistics for numerical columns (count, mean, std, min,
max)

df.describe()

@apexiq.ai
3. Selecting Data
Selecting specific data from a DataFrame is crucial for analysis. Pandas allows
you to select columns and rows easily.

Select Column by Name:

Access a single column by name

df['column_name']

Access multiple columns by names (returns a DataFrame)

df[['col1', 'col2']]

Select Rows by Index:

Access the first row by integer index (position)

df.iloc[0]

Access the first row by label (if index is not integer)

df.loc[0]

Select Rows with Conditions:

Filter rows based on condition (e.g., column_name > value)

filtered_df = df[df['column_name'] > value]

@apexiq.ai
4. Modifying Data
Modifying data in a DataFrame is essential for preparing your dataset for
analysis.

Add New Column:

Create a new column that is double the values of an existing column

df['new_column'] = df['existing_column'] * 2

Rename Columns:
Rename a specific column

df.rename(columns={'old_name': 'new_name'}, inplace=True)

Drop Columns:

Drop specified column(s)

df.drop(columns=['column_to_drop'], inplace=True)

@apexiq.ai
5. Handling Missing Values
Dealing with missing values is crucial to ensure the integrity of your analysis.

Check for Missing Values:

Count of missing values in each column

df.isnull().sum()

Drop Rows with Missing Values:

Drop any row with NaN values

df.dropna(inplace=True)

Drop rows where a specific column is NaN

df.dropna(subset=['column_name'], inplace=True)

Fill Missing Values:

Fill NaN with a specified value (e.g., zero)

df.fillna(value=0, inplace=True)

Forward fill to propagate the last valid observation forward

df.fillna(method='ffill', inplace=True)

@apexiq.ai
6. Removing Duplicates
Dealing with missing values is crucial to ensure the integrity of your analysis.

Remove Duplicate Rows:

Remove duplicate rows based on all columns

df.drop_duplicates(inplace=True)

Remove duplicates based on specific column(s)

df.drop_duplicates(subset=['col1'], inplace=True)

@apexiq.ai
7. Sorting Data
Sorting data is essential for analysis and presentation. You can sort your
DataFrame by one or more columns.

Sort by One Column:

Sort in ascending order

df.sort_values(by='column_name', ascending=True, inplace=True)

Sort in descending order

df.sort_values(by='column_name', ascending=False, inplace=True)

Sort by Multiple Columns:

Sort by col1 ascending and col2 descending

df.sort_values(by=['col1', 'col2'], ascending=[True, False], inplace=True)

@apexiq.ai
8. Grouping and Aggregating Data
Grouping data allows you to perform operations on subsets of your data.

Group By One Column:

Group data by specified column(s)

grouped = df.groupby('column_name')

Aggregate Functions on Grouped Data:

Sum of grouped values in a specific column

grouped['value_column'].sum()

Mean of grouped values in a specific column

grouped['value_column'].mean()

Multiple aggregations
agg_df = grouped.agg({'value_column': ['sum', 'mean'], 'another_column':
'count'})

@apexiq.ai
9. Merging and Joining DataFrames
Combining multiple DataFrames is often necessary when working with related
datasets.

Merge Two DataFrames:

Merge on key column(s)

merged_df = pd.merge(df1, df2, on='key_column')

Outer Join Two DataFrames:

Outer join to include all records from both DataFrames

merged_outer = pd.merge(df1, df2, how='outer', on='key_column')

Concatenate Two DataFrames:

Concatenate along rows (axis=0)

concat_df = pd.concat([df1, df2], axis=0)

Concatenate along columns (axis=1)

concat_cols_df = pd.concat([df1, df2], axis=1)

@apexiq.ai
10. Applying Functions
You can apply custom functions to your DataFrame or Series to manipulate or
transform data.

Using apply() on DataFrame:

Apply a function to each element in a column

df['new_col'] = df['existing_col'].apply(lambda x: x + 1)

Using apply() on Series:

Square each element in the Series
s = pd.Series([1, 2, 3])
s_squared = s.apply(lambda x: x**2)

Using map() for Element-wise Operations:

Map values based on a dictionary

df['new_col'] = df['existing_col'].map({1: 'A', 2: 'B'})

@apexiq.ai
11. String Methods
Pandas provides string methods that allow you to perform vectorized string
operations on Series.

Converting Strings to Lowercase:

Convert all strings in the column to lowercase

df['string_column'] = df['string_column'].str.lower()

Checking for Substrings:

Check if 'text' is in each string

df['contains_text'] = df['string_column'].str.contains('text')

Replacing Substrings:
Replace 'old' with 'new' in strings

df['string_column'] = df['string_column'].str.replace('old', 'new')

@apexiq.ai
12. Advanced Data Manipulation
Advanced data manipulation techniques allow for more complex
transformations and reshaping of your DataFrame.

Melt Function:
The melt() function is used to transform wide-format data into long-format
data.

df_melted = pd.melt(df, id_vars=['id'], value_vars=['col1', 'col2'])

Pivot Function:
The pivot() function reshapes the DataFrame by specifying index, columns,
and values.

df_pivot = df.pivot(index='date', columns='category', values='value')

Stack and Unstack:

Stack: Convert columns into rows (long format).

stacked_df = df.stack()

Unstack: Convert rows back into columns (wide format).

unstacked_df = stacked_df.unstack()

@apexiq.ai
13. Creating and Using Pivot Tables
Pivot tables allow you to summarize data in a flexible way.

Creating a Pivot Table:

Create a pivot table with specified values, index, columns, and aggregation
function

df_melted = pd.melt(df, id_vars=['id'], value_vars=['col1', 'col2'])

Pivot Function:
The pivot() function reshapes the DataFrame by specifying index, columns,
and values.

pivot_table = df.pivot_table(values='value', index='index_col',

columns='column_col', aggfunc='sum')

Pivot Table with Multiple Aggregations:

Create a pivot table with multiple aggregation functions (sum and mean)

pivot_table_multi = df.pivot_table(values='value', index='index_col', aggfunc=

[np.sum, np.mean])

@apexiq.ai
14. Working with Categorical Data
Pandas provides support for categorical data, which can improve performance
and memory usage.

Convert Column to Categorical:

Convert a column to categorical type

df['category_column'] = df['category_column'].astype('category')

Get Categories and Their Codes:

Get unique categories

pivot_table = df.pivot_table(values='value', index='index_col',

columns='column_col', aggfunc='sum')

Get integer codes for categories

codes = df['category_column'].cat.codes

Using Categorical Data for Grouping:

Group by categorical column and count occurrences

grouped = df.groupby('category_column').size()

@apexiq.ai
15. Handling Date and Time Data
Pandas provides powerful tools for working with date and time data, making it
easy to manipulate and analyze time series.

Convert Strings to Datetime:

Convert to datetime format

df['date_column'] = pd.to_datetime(df['date_column'])

Extracting Date Components:

Extract year

df['year'] = df['date_column'].dt.year

Extract month

df['month'] = df['date_column'].dt.month

Extract day

df['day'] = df['date_column'].dt.day

Setting a Date Column as Index:

Set date_column as the index

df.set_index('date_column', inplace=True)

@apexiq.ai
LIKE FOLLOW SHARE

THANK YOU!

@apexiq.ai

Pandas
No ratings yet
Pandas
13 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
UN CO2 Data Analysis with Pandas
No ratings yet
UN CO2 Data Analysis with Pandas
28 pages
Pandas
No ratings yet
Pandas
2 pages
1-Pandas Cheat Sheet
No ratings yet
1-Pandas Cheat Sheet
7 pages
2.1 Importing Python Data
No ratings yet
2.1 Importing Python Data
1 page
Pandas Notes Design
No ratings yet
Pandas Notes Design
5 pages
Pandas
No ratings yet
Pandas
30 pages
Module1-Cheat-Sheet-LINE PLOT
No ratings yet
Module1-Cheat-Sheet-LINE PLOT
3 pages
12 IP Notes On Series
No ratings yet
12 IP Notes On Series
5 pages
Pandas Methods
No ratings yet
Pandas Methods
6 pages
Top 50 Pandas Interview Questions and Answers (2024)
No ratings yet
Top 50 Pandas Interview Questions and Answers (2024)
34 pages
Data Analysis With Pandas - Aggregates in Pandas Cheatsheet - Codecademy
100% (1)
Data Analysis With Pandas - Aggregates in Pandas Cheatsheet - Codecademy
2 pages
Pandas Notes
No ratings yet
Pandas Notes
6 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Pandas
No ratings yet
Pandas
14 pages
Pandas Guide for Data Analysts
No ratings yet
Pandas Guide for Data Analysts
9 pages
Booting, BIOS, UEFI & OS Basics
100% (1)
Booting, BIOS, UEFI & OS Basics
53 pages
Chapter - 6 Dictionary
100% (2)
Chapter - 6 Dictionary
25 pages
Pandas
No ratings yet
Pandas
27 pages
Unit - 1 - Python Pandas
No ratings yet
Unit - 1 - Python Pandas
176 pages
Pandas Notes Basic To Advance
No ratings yet
Pandas Notes Basic To Advance
21 pages
Project PPT
No ratings yet
Project PPT
47 pages
CS505-P Update Mcqs FinalTerm by Vu Topper RM
100% (1)
CS505-P Update Mcqs FinalTerm by Vu Topper RM
18 pages
Best-Practice Order Management: Automation With SAP Solutions
No ratings yet
Best-Practice Order Management: Automation With SAP Solutions
15 pages
1 - Interactive Data Visualization With Bokeh
No ratings yet
1 - Interactive Data Visualization With Bokeh
31 pages
PDF Sample Download - Google Search
No ratings yet
PDF Sample Download - Google Search
2 pages
Pandas Guide for Data Science
No ratings yet
Pandas Guide for Data Science
42 pages
Ipl Data Anlysis
No ratings yet
Ipl Data Anlysis
20 pages
Pandas Notes
No ratings yet
Pandas Notes
44 pages
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
Block 1-Data Handling Using Pandas DataFrame
No ratings yet
Block 1-Data Handling Using Pandas DataFrame
17 pages
Importance of ICT in Education
No ratings yet
Importance of ICT in Education
13 pages
HTML Cheat Sheet - Copie
No ratings yet
HTML Cheat Sheet - Copie
9 pages
AI Boost for YouTube Long-Form Videos
No ratings yet
AI Boost for YouTube Long-Form Videos
26 pages
Pandas 6 1716219621
No ratings yet
Pandas 6 1716219621
17 pages
Class 6 Pandas
No ratings yet
Class 6 Pandas
13 pages
HTML Tutorial
No ratings yet
HTML Tutorial
42 pages
18 Pandas
No ratings yet
18 Pandas
33 pages
HTML-Notes 1
No ratings yet
HTML-Notes 1
27 pages
Pandas Cheat Sheet for Data Science
No ratings yet
Pandas Cheat Sheet for Data Science
5 pages
Python Data Analysis Basics
No ratings yet
Python Data Analysis Basics
246 pages
Python Pandas Tutorial - The Ultimate Guide For Beginner
No ratings yet
Python Pandas Tutorial - The Ultimate Guide For Beginner
32 pages
Data Manipulation With Pandas
No ratings yet
Data Manipulation With Pandas
19 pages
Pandas Series and DataFrame Guide
No ratings yet
Pandas Series and DataFrame Guide
87 pages
REAA Student Course Booklet (FNS Courses)
No ratings yet
REAA Student Course Booklet (FNS Courses)
17 pages
DAX Cheat Sheet for Power BI
No ratings yet
DAX Cheat Sheet for Power BI
10 pages
Journal of Clinical and Diagnostic Research
No ratings yet
Journal of Clinical and Diagnostic Research
6 pages
Pandas
No ratings yet
Pandas
4 pages
Python Notes For Beginners (Autosaved)
No ratings yet
Python Notes For Beginners (Autosaved)
52 pages
ML Lab1 Python Panda
No ratings yet
ML Lab1 Python Panda
9 pages
B Entry Point Specification v2 1 March2011 20110406011840641
No ratings yet
B Entry Point Specification v2 1 March2011 20110406011840641
50 pages
EDA Cheatsheet - Class Note
No ratings yet
EDA Cheatsheet - Class Note
29 pages
HANA SmartDataAccess SQL 1.00.60+
No ratings yet
HANA SmartDataAccess SQL 1.00.60+
9 pages
Data Science Python Cheat Sheet
No ratings yet
Data Science Python Cheat Sheet
25 pages
CHP 8 Pandas
No ratings yet
CHP 8 Pandas
49 pages
TOC MCQs
No ratings yet
TOC MCQs
84 pages
SAVVAS Handout EBBasic Teacher Self-Registration 1568647168 1591308488
No ratings yet
SAVVAS Handout EBBasic Teacher Self-Registration 1568647168 1591308488
19 pages
HTML
No ratings yet
HTML
12 pages
Pandas Course Slides
No ratings yet
Pandas Course Slides
90 pages
Unit-I: Introduction To HTML
No ratings yet
Unit-I: Introduction To HTML
221 pages
Arius Deterministic Formula Functions
No ratings yet
Arius Deterministic Formula Functions
28 pages
Pandas
No ratings yet
Pandas
8 pages
Algorithm Analysis & Time Complexity
No ratings yet
Algorithm Analysis & Time Complexity
27 pages
UNIT - 3 Pandas
No ratings yet
UNIT - 3 Pandas
21 pages
Pandas DataFrame Cheat Sheet
No ratings yet
Pandas DataFrame Cheat Sheet
6 pages
Actifio On Vault Configuration
No ratings yet
Actifio On Vault Configuration
34 pages
XII-IP - Data Visualisation
No ratings yet
XII-IP - Data Visualisation
65 pages
Spring Boot
No ratings yet
Spring Boot
29 pages
The Racers Life
No ratings yet
The Racers Life
74 pages
HTML Note Imp HTML
No ratings yet
HTML Note Imp HTML
165 pages
Data Structures 2
No ratings yet
Data Structures 2
17 pages
1-Getting Started With WebRTC
No ratings yet
1-Getting Started With WebRTC
9 pages
Sound Characteristics and Purposes
No ratings yet
Sound Characteristics and Purposes
4 pages
Unit-1 Python Pandas
No ratings yet
Unit-1 Python Pandas
56 pages
Pandas
No ratings yet
Pandas
86 pages
CFree5: Enabling C++11 Support
No ratings yet
CFree5: Enabling C++11 Support
8 pages
Teaching Notes 4 Asal It
No ratings yet
Teaching Notes 4 Asal It
10 pages
40 NumPy and Pandas Interview Questions With Answers 1740141557
No ratings yet
40 NumPy and Pandas Interview Questions With Answers 1740141557
6 pages
Tutorial Cut - Ts - Sample (Avidemux)
No ratings yet
Tutorial Cut - Ts - Sample (Avidemux)
2 pages
Itu-T: Framework of The Web of Things
No ratings yet
Itu-T: Framework of The Web of Things
30 pages
HP Latex 700 W Printer: Win High-Value Jobs, Equipped With White Ink, and Sharpen Your Sustainability Edge With HP Latex
No ratings yet
HP Latex 700 W Printer: Win High-Value Jobs, Equipped With White Ink, and Sharpen Your Sustainability Edge With HP Latex
2 pages
MYRKOS - Portable DGA Chromatograph
No ratings yet
MYRKOS - Portable DGA Chromatograph
6 pages
Pandas in Python 16sept2022
No ratings yet
Pandas in Python 16sept2022
8 pages
IDLAR Mar 24-31,25
No ratings yet
IDLAR Mar 24-31,25
2 pages
Naukri RAJATPANDEY (3y 4m)
No ratings yet
Naukri RAJATPANDEY (3y 4m)
4 pages
Pandas
No ratings yet
Pandas
41 pages
Sample Questions For Midterm Exam - CSE215 (Sec 19) - Spring2024
No ratings yet
Sample Questions For Midterm Exam - CSE215 (Sec 19) - Spring2024
2 pages
Mobile Computing Thesis PDF
100% (2)
Mobile Computing Thesis PDF
4 pages
International Indian School, Riyadh WORKSHEET (2020-2021) Grade - Xii - Informatics Practices - Second Term
No ratings yet
International Indian School, Riyadh WORKSHEET (2020-2021) Grade - Xii - Informatics Practices - Second Term
9 pages

Pandas Guide for Beginners

Uploaded by

Pandas Guide for Beginners

Uploaded by

PANDAS

Why use Pandas?

If you’re using Anaconda, you can install it by typing:

Load CSV File:

Load Excel File:

Load JSON File:

View First N Rows:

View Last N Rows:

Random Sample of Rows:

Display information about the DataFrame (data types, non-null counts)

Select Column by Name:

Access multiple columns by names (returns a DataFrame)

Select Rows by Index:

Access the first row by label (if index is not integer)

Select Rows with Conditions:

Filter rows based on condition (e.g., column_name > value)

filtered_df = df[df['column_name'] > value]

Add New Column:

df.rename(columns={'old_name': 'new_name'}, inplace=True)

Drop specified column(s)

Check for Missing Values:

Drop Rows with Missing Values:

Drop rows where a specific column is NaN

Fill Missing Values:

Forward fill to propagate the last valid observation forward

Remove Duplicate Rows:

Remove duplicate rows based on all columns

Remove duplicates based on specific column(s)

Sort by One Column:

df.sort_values(by='column_name', ascending=True, inplace=True)

Sort in descending order

df.sort_values(by='column_name', ascending=False, inplace=True)

Sort by Multiple Columns:

df.sort_values(by=['col1', 'col2'], ascending=[True, False], inplace=True)

Group By One Column:

Aggregate Functions on Grouped Data:

Mean of grouped values in a specific column

Merge Two DataFrames:

merged_df = pd.merge(df1, df2, on='key_column')

Outer Join Two DataFrames:

merged_outer = pd.merge(df1, df2, how='outer', on='key_column')

Concatenate Two DataFrames:

concat_df = pd.concat([df1, df2], axis=0)

Concatenate along columns (axis=1)

concat_cols_df = pd.concat([df1, df2], axis=1)

Using apply() on DataFrame:

Using apply() on Series:

Using map() for Element-wise Operations:

df['new_col'] = df['existing_col'].map({1: 'A', 2: 'B'})

Converting Strings to Lowercase:

Checking for Substrings:

df['string_column'] = df['string_column'].str.replace('old', 'new')

df_melted = pd.melt(df, id_vars=['id'], value_vars=['col1', 'col2'])

df_pivot = df.pivot(index='date', columns='category', values='value')

Stack and Unstack:

Unstack: Convert rows back into columns (wide format).

Creating a Pivot Table:

df_melted = pd.melt(df, id_vars=['id'], value_vars=['col1', 'col2'])

pivot_table = df.pivot_table(values='value', index='index_col',

Pivot Table with Multiple Aggregations:

pivot_table_multi = df.pivot_table(values='value', index='index_col', aggfunc=

Convert Column to Categorical:

Get Categories and Their Codes:

pivot_table = df.pivot_table(values='value', index='index_col',

Get integer codes for categories

Using Categorical Data for Grouping:

Convert Strings to Datetime:

Extracting Date Components:

Setting a Date Column as Index:

You might also like