0% found this document useful (0 votes)

36 views12 pages

Python Machine Learning Workflow Guide

Uploaded by

shoaib

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

36 views12 pages

Python Machine Learning Workflow Guide

Uploaded by

shoaib

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

MACHINE LEARNING

CHEAT SHEET (THE PYTHON WORKFLOW)

a quick guide for beginners &

intermediate | Python + Scikit-learn

Replace 'target_column' with your

dataset’s target variable
Import Libraries

# Data Manipulation
import pandas as pd
import numpy as np

# Visualization
import seaborn as sns
import [Link] as plt

# Preprocessing & Scaling

from [Link] import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split

# Regression Metrics
from [Link] import (
mean_squared_error, mean_absolute_error, r2_score )

# Classification Metrics
from [Link] import (
accuracy_score, recall_score, f1_score, confusion_matrix,
classification_report )

ModuleNotFoundError: No module named '<library_name>'

!pip install pandas numpy seaborn

matplotlib scikit-learn
Data Loading & Exploration

# Load Dataset
df = pd.read_csv('your_file.csv')

# Basic info & stats

print([Link]())
print([Link]())

# Unique values for categorical columns

for col in df.select_dtypes(include='object').columns:
print(df[col].value_counts())

# Missing values
print([Link]().sum())

# Numeric columns -> median

for col in df.select_dtypes(include='number').columns:
df[col].fillna(df[col].median(), inplace=True)

# Categorical columns -> mode

for col in df.select_dtypes(include='object').columns:
df[col].fillna(df[col].mode()[0], inplace=True)

Median handles skewed data (ignores outliers).

Drop records if missing % is very low (<5%).
Splitting & Encoding

# Separate Feature (X) and Target (y)

# Replace target_column with actual target column
X = [Link]('target_column', axis=1)
y = df['target_column']

# Split data to 80-20 for training & testing

# This is done before scaling & encoding to prevent data leakage
X_train, X_test, y_train, y_test = train_test_split( X, y,
test_size=0.2, random_state=42 )

# Encoding - Turning words to numbers

numeric_cols = X_train.select_dtypes(include=[Link]).columns
categorical_cols = X_train.select_dtypes(include='object').columns

# Option 1: One-Hot Encoding

# drop_first=True prevents multicollinearity in your dummy variables
X_train_encoded = pd.get_dummies(X_train[categorical_cols],
drop_first=True)
X_test_encoded = pd.get_dummies(X_test[categorical_cols],
drop_first=True)

Use One-Hot if categories <80;

otherwise, apply Label Encoding.
Encoding & Scaling

# Align columns after one-hot encoding

# Ensure order is the same
train_cols = X_train_encoded.columns
test_cols = X_test_encoded.columns
missing_in_test = set(train_cols) - set(test_cols)

for c in missing_in_test:
X_test_encoded[c] = 0

X_test_encoded = X_test_encoded[train_cols]

# Scaling - Resizing number sizes

scaler = StandardScaler()

X_train_scaled =
[Link](scaler.fit_transform(X_train[numeric_cols]),
columns=numeric_cols, index=X_train.index)

X_test_scaled =
[Link]([Link](X_test[numeric_cols]),
columns=numeric_cols, index=X_test.index)

Features play uneven without scaling -

Standard or MinMax keeps the game fair.
Visualizing

# Combine scaled numeric and encoded categorical features

X_train_final = [Link]([X_train_scaled, X_train_encoded], axis=1)
X_test_final = [Link]([X_test_scaled, X_test_encoded], axis=1)

# Histograms & Boxplots

for col in numeric_cols:
[Link](figsize=(12,4))
[Link](1,2,1)
[Link](X_train[col], kde=True)
[Link](f'Histogram of {col}')

[Link](1,2,2)
[Link](x=X_train[col])
[Link](f'Boxplot of {col}')
[Link]()

# Correlation heatmap
[Link](figsize=(12,8))
[Link](X_train.corr(numeric_only = True), annot=True,
cmap='coolwarm')
[Link]('Correlation Heatmap')
[Link]()

Avoid multicollinearity: If correlation > 0.8,

drop one feature to reduce redundancy.
Regression Model

from sklearn.linear_model import LinearRegression

from [Link] import DecisionTreeRegressor
from [Link] import RandomForestRegressor,
GradientBoostingRegressor
from [Link] import KNeighborsRegressor

# Models
reg_models = {
'Linear Regression': LinearRegression(),
'Decision Tree': DecisionTreeRegressor(max_depth=7),
'Random Forest': RandomForestRegressor(n_estimators=100),
'Gradient Boosting': GradientBoostingRegressor(n_estimators=100),
'KNN': KNeighborsRegressor(metric="manhattan", n_neighbors=20)
}

# Helper functions
pct = lambda x: f"{x*100:.2f}%"
rnd = lambda x: f"{x:.2f}"

# Store Results
results = []

More estimators in Random Forest ≠

always better; watch compute cost.
Regression Model CONT...

# Build Models
for name, model in reg_models.items():
[Link](X_train_final, y_train)
train_r2 = [Link](X_train_final, y_train)

y_pred = [Link](X_test_final)

test_r2 = r2_score(y_test, y_pred)

mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)

[Link]({
'Model': name,
'Train R²': pct(train_r2),
'Test R²': pct(test_r2),
'MAE': rnd(mae),
'MSE': rnd(mse)
})

# Convert to DataFrame for comparison

results_df = [Link](results)
print(results_df)

Overfitting alert - high Train R²

but low Test R² is a red flag.
Classification Model

from sklearn.linear_model import LogisticRegression

from [Link] import DecisionTreeClassifier
from [Link] import RandomForestClassifier,
GradientBoostingClassifier
from [Link] import KNeighborsClassifier
from [Link] import accuracy_score, recall_score, f1_score,
confusion_matrix, classification_report
import pandas as pd

# Models
clf_models = {
'Logistic Regression': LogisticRegression(max_iter=1000),
'Decision Tree': DecisionTreeClassifier(max_depth=7),
'Random Forest': RandomForestClassifier(n_estimators=100),
'Gradient Boosting': GradientBoostingClassifier(n_estimators=100),
'KNN': KNeighborsClassifier(metric="manhattan", n_neighbors=20)
}

# Helper functions
pct = lambda x: f"{x*100:.2f}%" # format as percentage

# Store results
results = {}

Tree models handle non-linear splits well;

Logistic works best on linear boundaries.
Classification Model CONT...

# Build Models
for name, model in clf_models.items():
[Link](X_train_final, y_train)

train_acc = [Link](X_train_final, y_train)

y_pred = [Link](X_test_final)

test_acc = accuracy_score(y_test, y_pred)

recall = recall_score(y_test, y_pred, average="macro")
f1 = f1_score(y_test, y_pred, average="macro")

results[name] = {
'Train Accuracy': pct(train_acc),
'Test Accuracy': pct(test_acc),
'Recall': pct(recall),
'F1 Score': pct(f1),
'Confusion Matrix': confusion_matrix(y_test, y_pred),
'Classification Report': classification_report(y_test, y_pred)
}

Use Precision-Recall tradeoff to explore

class imbalance solutions.
Classification Model CONT...

# Convert results to DataFrame for comparison

summary = [Link]([
{
'Model': name,
'Train Accuracy': metrics['Train Accuracy'],
'Test Accuracy': metrics['Test Accuracy'],
'Recall': metrics['Recall'],
'F1 Score': metrics['F1 Score']
}
for name, metrics in [Link]()
])

print(summary)

# If you also want to print confusion matrices & reports

for name, metrics in [Link]():
print(f"\n{name}")
print("Confusion Matrix:\n", metrics["Confusion Matrix"])
print("Classification Report:\n", metrics["Classification Report"])

ROC & AUC help compare

classifiers beyond raw accuracy.
THANKS FOR READING
I hope this sheet makes your ML journey a bit easier

Here are good add-ons

Handle class imbalance with SMOTE

Remove irrelevant features to improve performance
Cross-Validation for robust evaluation
Hyperparameter tuning matters - e.g. n_neighbors in
KNN, learning_rate in Gradient Boosting

Shared for learning – connect on LinkedIn @Harsh_Bang if helpful

Sasi Motors Spam Detection Algorithm
No ratings yet
Sasi Motors Spam Detection Algorithm
24 pages
Machine Learning Models in Python
No ratings yet
Machine Learning Models in Python
14 pages
Personalized Cancer Diagnosis Analysis
No ratings yet
Personalized Cancer Diagnosis Analysis
100 pages
Data Preprocessing and Model Evaluation Techniques
No ratings yet
Data Preprocessing and Model Evaluation Techniques
12 pages
FIND-S and ID3 Algorithm Implementations
No ratings yet
FIND-S and ID3 Algorithm Implementations
9 pages
Oracle Certified MSE Lab Assignments
No ratings yet
Oracle Certified MSE Lab Assignments
15 pages
S3 Data Processing and Classification
No ratings yet
S3 Data Processing and Classification
25 pages
Data Classification with Python Lab
No ratings yet
Data Classification with Python Lab
11 pages
KNN Classifier Implementation in Python
No ratings yet
KNN Classifier Implementation in Python
7 pages
Kaggle Course Notes Overview
No ratings yet
Kaggle Course Notes Overview
87 pages
Car Evaluation Data Analysis
No ratings yet
Car Evaluation Data Analysis
12 pages
Model Evaluation for Expense Prediction
No ratings yet
Model Evaluation for Expense Prediction
5 pages
Medical Data Analysis and Modeling
No ratings yet
Medical Data Analysis and Modeling
6 pages
Overfitting and Underfitting in ML
No ratings yet
Overfitting and Underfitting in ML
10 pages
Hands-On Data Preprocessing in Python
No ratings yet
Hands-On Data Preprocessing in Python
9 pages
Student Data Cleaning and Analysis
No ratings yet
Student Data Cleaning and Analysis
30 pages
Data Preprocessing and Modeling Techniques
No ratings yet
Data Preprocessing and Modeling Techniques
25 pages
Business Report on CART-RF-ANN Models
No ratings yet
Business Report on CART-RF-ANN Models
4 pages
Anomaly Detection with PCA and Random Forest
No ratings yet
Anomaly Detection with PCA and Random Forest
5 pages
Machine Learning Evaluation Cheat Sheet
No ratings yet
Machine Learning Evaluation Cheat Sheet
7 pages
CatBoost for Electricity Theft Detection
No ratings yet
CatBoost for Electricity Theft Detection
9 pages
Machine Learning Techniques Overview
No ratings yet
Machine Learning Techniques Overview
15 pages
Wine Quality Prediction Models Analysis
No ratings yet
Wine Quality Prediction Models Analysis
4 pages
Data Analysis and Visualization Techniques
No ratings yet
Data Analysis and Visualization Techniques
13 pages
Titanic Data Analysis with Python
No ratings yet
Titanic Data Analysis with Python
20 pages
Machine Learning Strategies Overview
No ratings yet
Machine Learning Strategies Overview
59 pages
Supervised Learning with Scikit-Learn
No ratings yet
Supervised Learning with Scikit-Learn
67 pages
Machine Learning Algorithms Overview
No ratings yet
Machine Learning Algorithms Overview
9 pages
AIML Internship: Machine Learning Basics
No ratings yet
AIML Internship: Machine Learning Basics
3 pages
Machine Learning Lab Manual for AI&DS
No ratings yet
Machine Learning Lab Manual for AI&DS
30 pages
Machine Learning Model Implementations
No ratings yet
Machine Learning Model Implementations
23 pages
Heart Disease ML Model Evaluation Guide
No ratings yet
Heart Disease ML Model Evaluation Guide
5 pages
ML PDF
No ratings yet
ML PDF
30 pages
Machine Learning Preprocessing Techniques
No ratings yet
Machine Learning Preprocessing Techniques
6 pages
Regression Analysis Cheat Sheet
No ratings yet
Regression Analysis Cheat Sheet
9 pages
Data Analysis and Model Training Guide
No ratings yet
Data Analysis and Model Training Guide
7 pages
Label Binarization Limitations in ML
No ratings yet
Label Binarization Limitations in ML
17 pages
Scikit-Learn Cheat Sheet for ML Tools
No ratings yet
Scikit-Learn Cheat Sheet for ML Tools
11 pages
Data Imputation and Scaling Techniques
No ratings yet
Data Imputation and Scaling Techniques
5 pages
Heart Disease Prediction with SVM
No ratings yet
Heart Disease Prediction with SVM
2 pages
Bank Term Deposit Classification Guide
No ratings yet
Bank Term Deposit Classification Guide
3 pages
Gradient Boosting for Electricity Theft Detection
No ratings yet
Gradient Boosting for Electricity Theft Detection
10 pages
K-Medoids Clustering with PyClustering
No ratings yet
K-Medoids Clustering with PyClustering
18 pages
CatBoost with Auto Class Weights
No ratings yet
CatBoost with Auto Class Weights
12 pages
DataFrame Encoding and Model Scoring
No ratings yet
DataFrame Encoding and Model Scoring
59 pages
Model Building in Machine Learning
No ratings yet
Model Building in Machine Learning
6 pages
Linear Regression (Code)
No ratings yet
Linear Regression (Code)
9 pages
Data Preprocessing for Machine Learning
No ratings yet
Data Preprocessing for Machine Learning
46 pages
Loan Data Analysis with Random Forest
No ratings yet
Loan Data Analysis with Random Forest
8 pages
Apriori Algorithm for Association Rules
No ratings yet
Apriori Algorithm for Association Rules
4 pages
Scikit-learn Cheat Sheet Guide
No ratings yet
Scikit-learn Cheat Sheet Guide
2 pages
Titanic Akshaya
No ratings yet
Titanic Akshaya
12 pages
Linear & Logistic Regression Programs
No ratings yet
Linear & Logistic Regression Programs
17 pages
Evaluación de Modelos de Aprendizaje Automático
No ratings yet
Evaluación de Modelos de Aprendizaje Automático
5 pages
Personal Loan Analysis with Machine Learning
100% (1)
Personal Loan Analysis with Machine Learning
15 pages
Data Preprocessing Techniques in Python
No ratings yet
Data Preprocessing Techniques in Python
44 pages
Machine Learning Practical Guide
No ratings yet
Machine Learning Practical Guide
29 pages
Mercedes-Benz Sustainable Manufacturing
0% (1)
Mercedes-Benz Sustainable Manufacturing
16 pages
IT Manager with ERP and Data Science Expertise
No ratings yet
IT Manager with ERP and Data Science Expertise
2 pages
AI & ML 2nd Test Results
No ratings yet
AI & ML 2nd Test Results
4 pages
AI Framework for Supply Chain Optimization
No ratings yet
AI Framework for Supply Chain Optimization
6 pages
IT Project Manager Resume Overview
No ratings yet
IT Project Manager Resume Overview
1 page
Regression Analysis in Inferential Stats
No ratings yet
Regression Analysis in Inferential Stats
68 pages
Steve Humble - Quantitative Analysis of Questionnaires - Techniques To Explore Structures and Relationships-Routledge - Taylor & Francis Group (2020)
No ratings yet
Steve Humble - Quantitative Analysis of Questionnaires - Techniques To Explore Structures and Relationships-Routledge - Taylor & Francis Group (2020)
234 pages
Master in Statistics and Data Science
No ratings yet
Master in Statistics and Data Science
6 pages
NPTEL Assignment 11 Overview and Details
No ratings yet
NPTEL Assignment 11 Overview and Details
3 pages
ANOVA Analysis of Group Variances
No ratings yet
ANOVA Analysis of Group Variances
7 pages
Understanding Linear Regression in ML
No ratings yet
Understanding Linear Regression in ML
18 pages
Critique of Ridge Regression Methods
No ratings yet
Critique of Ridge Regression Methods
6 pages
Financial Time Series Analysis Techniques
No ratings yet
Financial Time Series Analysis Techniques
18 pages
Specification Error in OLS Analysis
No ratings yet
Specification Error in OLS Analysis
33 pages
Machine Learning Syllabus 21CSC305P
No ratings yet
Machine Learning Syllabus 21CSC305P
2 pages
Nonlinear Regression Models Overview
No ratings yet
Nonlinear Regression Models Overview
10 pages
Simple Regression Model Overview
No ratings yet
Simple Regression Model Overview
52 pages
Econometrics I Course Overview
100% (1)
Econometrics I Course Overview
2 pages
Solutions for Multicollinearity Issues
No ratings yet
Solutions for Multicollinearity Issues
11 pages
OPM 1560 Demand Forecast Analysis
No ratings yet
OPM 1560 Demand Forecast Analysis
22 pages
Misconceptions in Linear Regression
No ratings yet
Misconceptions in Linear Regression
12 pages
Introduction To Mediation Models With The PROCESS Marco in SPSS
No ratings yet
Introduction To Mediation Models With The PROCESS Marco in SPSS
47 pages
SmartPLS 4 Analysis Report Summary
No ratings yet
SmartPLS 4 Analysis Report Summary
291 pages
Data Scaling Effects on OLS Statistics
100% (3)
Data Scaling Effects on OLS Statistics
9 pages
Badigi's Lab Assignment on Correlation
No ratings yet
Badigi's Lab Assignment on Correlation
10 pages
Sensitivity vs Specificity Analysis
No ratings yet
Sensitivity vs Specificity Analysis
16 pages
Rfit: Robust Rank-Based Linear Models
No ratings yet
Rfit: Robust Rank-Based Linear Models
8 pages
BSF Report on Airline Customer Satisfaction
No ratings yet
BSF Report on Airline Customer Satisfaction
12 pages
Econometrics Exercises Overview
No ratings yet
Econometrics Exercises Overview
2 pages
Excel Regression Analysis Report
No ratings yet
Excel Regression Analysis Report
2 pages
Random Forests: Concepts and R Code
100% (1)
Random Forests: Concepts and R Code
4 pages
Predictive Analytics Course Summary
No ratings yet
Predictive Analytics Course Summary
32 pages
Understanding Ensemble Learning Techniques
No ratings yet
Understanding Ensemble Learning Techniques
6 pages
Feature Selection vs Dimensionality Reduction
No ratings yet
Feature Selection vs Dimensionality Reduction
6 pages
Simple Linear Regression Analysis Guide
No ratings yet
Simple Linear Regression Analysis Guide
12 pages