0% found this document useful (0 votes)

14 views7 pages

EDA Techniques and Python Code Guide

Module-1 covers Exploratory Data Analysis (EDA), emphasizing the importance of summarizing, visualizing, and understanding data. It includes definitions, measures of location and variability, and practical examples with Python code for calculations and visualizations. The module serves as a foundational resource for statistical inference and machine learning techniques.

Uploaded by

adithyakl689

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views7 pages

EDA Techniques and Python Code Guide

Uploaded by

adithyakl689

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

MODULE–1: EXPLORATORY DATA ANALYSIS (EDA)

(As per VTU syllabus – Chapter 1)

These notes combine theory + numerical problems + code snippets in an exam-oriented format,
suitable for 5, 8, and 10 mark answers.

1. INTRODUCTION TO EXPLORATORY DATA ANALYSIS

Exploratory Data Analysis (EDA) is the process of summarizing, visualizing, and understanding data
before applying advanced statistical or machine learning techniques. The main goals of EDA are: - To
understand the central tendency of data - To measure variability or spread - To identify outliers and
anomalies - To study relationships between variables

EDA relies heavily on robust statistics and visual tools rather than strict probabilistic assumptions.

2. ESTIMATES OF LOCATION

2.1 Definition

Estimates of location describe the central or typical value around which the data is distributed.

2.2 Measures of Location

(a) Mean

• Arithmetic average of all observations

• Formula:
n
1
ˉ=
x ∑ xi
n i=1

• Sensitive to outliers

Use: Symmetric data without extreme values

(b) Median

• Middle value of ordered data

• Robust to outliers

1
Use: Skewed distributions (income, house prices)

(c) Trimmed Mean

• Mean after removing a fixed percentage of lowest and highest values

• Provides balance between mean and median

(d) Weighted Mean

• Assigns different importance (weights) to observations

• Formula:

∑ wi xi
ˉw =
x
∑ wi

(e) Weighted Median

• Median considering weights

• Highly robust

2.3 Numerical Problem (10 Marks)

Problem: Given the data: 20, 22, 25, 27, 28, 30, 32, 35, 150

Find: 1. Mean 2. Median 3. 10% Trimmed Mean

Solution: - Mean = 41 - Median = 28 - Trimmed Mean ≈ 28.43

Conclusion: Median is the best measure due to presence of outlier.

2.4 Python Code

import numpy as np
from scipy import stats

data = [20,22,25,27,28,30,32,35,150]
print([Link](data))
print([Link](data))
print(stats.trim_mean(data, 0.1))

2
3. ESTIMATES OF VARIABILITY

3.1 Definition

Variability measures the spread or dispersion of data around its center.

3.2 Measures of Variability

(a) Range

• Difference between maximum and minimum

• Very sensitive to outliers

(b) Variance

• Average of squared deviations from mean

• Formula:

ˉ )2
∑(xi − x
s2 =
n−1

(c) Standard Deviation

• Square root of variance

• Same unit as data

(d) Mean Absolute Deviation

• Average of absolute deviations

(e) Median Absolute Deviation (MAD)

• Median of absolute deviations from median

• Highly robust

(f) Interquartile Range (IQR)

• Difference between Q3 and Q1

• Resistant to outliers

3
3.3 Numerical Problem

Problem: Data: 2, 4, 6, 8, 10

Results: - Variance = 10 - Standard deviation = 3.16 - IQR = 4

3.4 Python Code

import numpy as np

data = [2,4,6,8,10]
print([Link](data, ddof=1))
print([Link](data, ddof=1))

4. EXPLORING DATA DISTRIBUTIONS

4.1 Purpose

To understand: - Shape - Skewness - Spread - Outliers

4.2 Visualization Techniques

(a) Boxplot

• Shows median, quartiles, IQR, outliers

• Textbook Figure: Fig 1-2

(b) Histogram

• Frequency distribution using bins

• Textbook Figure: Fig 1-3

(c) Density Plot

• Smoothed histogram
• Textbook Figure: Fig 1-4

4.3 Interpretation Problem

If histogram has long right tail → positively skewed

4
Mean > Median

4.4 Python Code

import [Link] as plt

[Link](data)
[Link]()

5. EXPLORING BINARY AND CATEGORICAL DATA

5.1 Binary Data

• Two outcomes (Yes/No, 0/1)

5.2 Categorical Data

• Multiple categories (Grade, Gender, Department)

5.3 Summary Measures

• Proportions
• Percentages
• Mode

5.4 Expected Value

EV = ∑ pi xi

5.5 Numerical Problem

Expected profit = ₹250

5.6 Python Code

values = [1000, 500, 0]

prob = [0.1, 0.3, 0.6]
print(sum(v*p for v,p in zip(values, prob)))

5
6. EXPLORING TWO OR MORE VARIABLES

6.1 Correlation

• Measures linear relationship

• Range: −1 to +1

6.2 Scatter Plot

• Visual relationship between two variables

• Textbook Figure: Fig 1-7

6.3 Correlation Matrix

• Pairwise correlations
• Textbook Figure: Fig 1-6

6.4 Large Dataset Visualization

• Hexagonal binning (Fig 1-8)

• Contour plots (Fig 1-9)

6.5 Categorical vs Numeric

• Boxplots (Fig 1-10)

• Violin plots (Fig 1-11)

6.6 Numerical Problem

Perfect positive correlation → r = +1

6.7 Python Code

import numpy as np
x = [1,2,3,4]
y = [2,4,6,8]
print([Link](x, y)[0][1])

6
7. IMPORTANT VTU EXAM POINTS
• Write definition + formula + example
• Draw one neat diagram if applicable
• Always give one-line interpretation
• For code: logic > syntax perfection

8. SUMMARY
Module-1 focuses on understanding data before modeling. It builds the foundation for all further
statistical inference and machine learning techniques.

✔ END OF MODULE–1 (COMPLETE & EXAM-READY)

Estimation of Location and Variability
No ratings yet
Estimation of Location and Variability
50 pages
Exploratory Data Analysis Techniques
No ratings yet
Exploratory Data Analysis Techniques
51 pages
ADS Lab Manual-Exp1
No ratings yet
ADS Lab Manual-Exp1
7 pages
Understanding Outliers and EDA in Statistics
No ratings yet
Understanding Outliers and EDA in Statistics
11 pages
Day 7
No ratings yet
Day 7
10 pages
Understanding Outliers in Statistics
No ratings yet
Understanding Outliers in Statistics
16 pages
Exploratory Data Analysis Techniques
No ratings yet
Exploratory Data Analysis Techniques
110 pages
Central Tendency and Data Analysis Insights
No ratings yet
Central Tendency and Data Analysis Insights
26 pages
Stats For DS - Unit 1
No ratings yet
Stats For DS - Unit 1
42 pages
Exploratory Data Analysis Techniques
No ratings yet
Exploratory Data Analysis Techniques
55 pages
EDA: Key Stats & Visualizations Guide
No ratings yet
EDA: Key Stats & Visualizations Guide
15 pages
Understanding Data and Statistics Basics
No ratings yet
Understanding Data and Statistics Basics
11 pages
Data Analytics and Visualization Techniques
No ratings yet
Data Analytics and Visualization Techniques
18 pages
Understanding Descriptive Statistics
No ratings yet
Understanding Descriptive Statistics
29 pages
Kome Default
No ratings yet
Kome Default
15 pages
ML Design Module2 2025-26
No ratings yet
ML Design Module2 2025-26
23 pages
Unit 3 B-Exploratory Data Analysis (EDA) - Insights
No ratings yet
Unit 3 B-Exploratory Data Analysis (EDA) - Insights
47 pages
Exploratory Data Analysis Techniques
No ratings yet
Exploratory Data Analysis Techniques
42 pages
Descriptive Statistic: Types of Descriptive Statistics
No ratings yet
Descriptive Statistic: Types of Descriptive Statistics
10 pages
Data Analysis and Exercises Overview
No ratings yet
Data Analysis and Exercises Overview
148 pages
Data Science: Key Concepts & Techniques
No ratings yet
Data Science: Key Concepts & Techniques
33 pages
Business Statistics: Central Tendency & Variation
No ratings yet
Business Statistics: Central Tendency & Variation
33 pages
Dap Assignment
No ratings yet
Dap Assignment
12 pages
Understanding Statistical Analysis Basics
No ratings yet
Understanding Statistical Analysis Basics
50 pages
Unit 2 DataScience
No ratings yet
Unit 2 DataScience
22 pages
EDA Techniques for Data Analysis
No ratings yet
EDA Techniques for Data Analysis
25 pages
Data Types and Measures of Central Tendency
No ratings yet
Data Types and Measures of Central Tendency
25 pages
Statistical Measures in Data Analysis
No ratings yet
Statistical Measures in Data Analysis
70 pages
Understanding Exploratory Data Analysis
No ratings yet
Understanding Exploratory Data Analysis
4 pages
Descriptive Statistics: Key Measures Explained
No ratings yet
Descriptive Statistics: Key Measures Explained
16 pages
Data Exploration and EDA Techniques
No ratings yet
Data Exploration and EDA Techniques
45 pages
Mean, Median, and Mode Explained
No ratings yet
Mean, Median, and Mode Explained
4 pages
Introduction to Exploratory Data Analysis
No ratings yet
Introduction to Exploratory Data Analysis
12 pages
Understanding Exploratory Data Analysis
No ratings yet
Understanding Exploratory Data Analysis
41 pages
Statistical Data Descriptions and Visuals
No ratings yet
Statistical Data Descriptions and Visuals
26 pages
Discriptive Statistics
No ratings yet
Discriptive Statistics
50 pages
Data Exploration Fundamentals
No ratings yet
Data Exploration Fundamentals
40 pages
Data Analysis Techniques Overview
No ratings yet
Data Analysis Techniques Overview
49 pages
Advanced Statistical Methods Overview
100% (2)
Advanced Statistical Methods Overview
10 pages
Analyzing Friend Counts Statistics
No ratings yet
Analyzing Friend Counts Statistics
19 pages
Mean, Median, Mode in Grouped Data
No ratings yet
Mean, Median, Mode in Grouped Data
11 pages
Understanding Exploratory Data Analysis
No ratings yet
Understanding Exploratory Data Analysis
101 pages
Business Statistics Lecture Notes
No ratings yet
Business Statistics Lecture Notes
69 pages
Data Analysis Techniques Overview
No ratings yet
Data Analysis Techniques Overview
7 pages
Descriptive Statistics Overview
No ratings yet
Descriptive Statistics Overview
5 pages
Key Concepts in Data Science and Statistics
No ratings yet
Key Concepts in Data Science and Statistics
6 pages
Data Science Fundamentals Explained
No ratings yet
Data Science Fundamentals Explained
44 pages
Statistical Analysis Basics and Applications
No ratings yet
Statistical Analysis Basics and Applications
52 pages
Unit 5
No ratings yet
Unit 5
5 pages
Applied Machine Learning Lab Manual
No ratings yet
Applied Machine Learning Lab Manual
40 pages
Lecture01
No ratings yet
Lecture01
76 pages
Key Features of MATLAB Applications
No ratings yet
Key Features of MATLAB Applications
4 pages
Dsa Unit 3 MCQ
No ratings yet
Dsa Unit 3 MCQ
11 pages
Data Exploration and Visualization Techniques
No ratings yet
Data Exploration and Visualization Techniques
38 pages
DM Questions
No ratings yet
DM Questions
12 pages
Key Statistical Concepts for Data Science
No ratings yet
Key Statistical Concepts for Data Science
12 pages
Understanding Data Types and Attributes
No ratings yet
Understanding Data Types and Attributes
90 pages
UNIT_3_CSE273
No ratings yet
UNIT_3_CSE273
36 pages
Descriptive Statistics: Central Tendency & Dispersion
No ratings yet
Descriptive Statistics: Central Tendency & Dispersion
10 pages
GRE Computer Science Test Syllabus
100% (1)
GRE Computer Science Test Syllabus
2 pages
Advanced Mathematics Exam Guide
No ratings yet
Advanced Mathematics Exam Guide
4 pages
Space Truss Analysis and Design
No ratings yet
Space Truss Analysis and Design
41 pages
JEE Main 2025 Chapter-Wise Weightage
No ratings yet
JEE Main 2025 Chapter-Wise Weightage
4 pages
Notes On Randomized Algorithms: James Aspnes March 3rd, 2020
No ratings yet
Notes On Randomized Algorithms: James Aspnes March 3rd, 2020
453 pages
Tour Group Ranking via Credible Reviews
No ratings yet
Tour Group Ranking via Credible Reviews
36 pages
Correlation Analysis and Interpretation
No ratings yet
Correlation Analysis and Interpretation
3 pages
Cryogenic Multilayer Insulation Analysis
No ratings yet
Cryogenic Multilayer Insulation Analysis
90 pages
Geometry Handbook Overview
No ratings yet
Geometry Handbook Overview
75 pages
Holt Algebra 1 - Chapter 05 Test PDF
No ratings yet
Holt Algebra 1 - Chapter 05 Test PDF
8 pages
Understanding Regression Analysis
No ratings yet
Understanding Regression Analysis
22 pages
Class XII Mathematics Pre-Board Exam 2024-25
No ratings yet
Class XII Mathematics Pre-Board Exam 2024-25
7 pages
The First Mechanical Calculating Machine
No ratings yet
The First Mechanical Calculating Machine
13 pages
Operations Research Course Overview
No ratings yet
Operations Research Course Overview
1 page
AI & ML Concepts and Applications
No ratings yet
AI & ML Concepts and Applications
2 pages
Class 10 Linear Equations Graphs Guide
No ratings yet
Class 10 Linear Equations Graphs Guide
1 page
Quadratic Equations Lesson Plan
No ratings yet
Quadratic Equations Lesson Plan
12 pages
Risk Assessment in Project Management
No ratings yet
Risk Assessment in Project Management
3 pages
AP Calculus: Fundamental Theorem Guide
No ratings yet
AP Calculus: Fundamental Theorem Guide
16 pages
Essential Aptitude Unit 5
No ratings yet
Essential Aptitude Unit 5
24 pages
RMS Class 6 Syllabus 2025 Overview
No ratings yet
RMS Class 6 Syllabus 2025 Overview
18 pages
Particle Packing in Concrete Proportioning
No ratings yet
Particle Packing in Concrete Proportioning
9 pages
Naïve Bayes and Decision Trees Overview
No ratings yet
Naïve Bayes and Decision Trees Overview
29 pages
Time and the Block Universe Theory
100% (1)
Time and the Block Universe Theory
9 pages
Understanding Continuous Random Variables
No ratings yet
Understanding Continuous Random Variables
24 pages
Electronic Structure Basic Theory and Practical Methods 2nd Edition Richard M. Martin eBook digital handbook
100% (3)
Electronic Structure Basic Theory and Practical Methods 2nd Edition Richard M. Martin eBook digital handbook
63 pages
Circle Measurement Worksheet
No ratings yet
Circle Measurement Worksheet
13 pages
Corner Column Failure in 14-Story RC Building
No ratings yet
Corner Column Failure in 14-Story RC Building
29 pages
Violin Plate and Corpus Mode Analysis
No ratings yet
Violin Plate and Corpus Mode Analysis
19 pages
2017 MTH6142 Complex Networks Exam
No ratings yet
2017 MTH6142 Complex Networks Exam
4 pages

EDA Techniques and Python Code Guide

Uploaded by

EDA Techniques and Python Code Guide

Uploaded by

MODULE–1: EXPLORATORY DATA ANALYSIS (EDA)

(As per VTU syllabus – Chapter 1)

1. INTRODUCTION TO EXPLORATORY DATA ANALYSIS

2.2 Measures of Location

• Arithmetic average of all observations

Use: Symmetric data without extreme values

• Middle value of ordered data

(c) Trimmed Mean

• Mean after removing a fixed percentage of lowest and highest values

(d) Weighted Mean

• Assigns different importance (weights) to observations

(e) Weighted Median

• Median considering weights

2.3 Numerical Problem (10 Marks)

Find: 1. Mean 2. Median 3. 10% Trimmed Mean

Solution: - Mean = 41 - Median = 28 - Trimmed Mean ≈ 28.43

Conclusion: Median is the best measure due to presence of outlier.

2.4 Python Code

Variability measures the spread or dispersion of data around its center.

3.2 Measures of Variability

• Difference between maximum and minimum

• Average of squared deviations from mean

(c) Standard Deviation

• Square root of variance

(d) Mean Absolute Deviation

• Average of absolute deviations

(e) Median Absolute Deviation (MAD)

• Median of absolute deviations from median

(f) Interquartile Range (IQR)

• Difference between Q3 and Q1

Results: - Variance = 10 - Standard deviation = 3.16 - IQR = 4

3.4 Python Code

4. EXPLORING DATA DISTRIBUTIONS

To understand: - Shape - Skewness - Spread - Outliers

4.2 Visualization Techniques

• Shows median, quartiles, IQR, outliers

• Frequency distribution using bins

(c) Density Plot

4.3 Interpretation Problem

If histogram has long right tail → positively skewed

4.4 Python Code

import [Link] as plt

5. EXPLORING BINARY AND CATEGORICAL DATA

5.1 Binary Data

• Two outcomes (Yes/No, 0/1)

5.2 Categorical Data

• Multiple categories (Grade, Gender, Department)

5.3 Summary Measures

5.4 Expected Value

5.5 Numerical Problem

Expected profit = ₹250

5.6 Python Code

values = [1000, 500, 0]

• Measures linear relationship

6.2 Scatter Plot

• Visual relationship between two variables

6.3 Correlation Matrix

6.4 Large Dataset Visualization

• Hexagonal binning (Fig 1-8)

6.5 Categorical vs Numeric

• Boxplots (Fig 1-10)

6.6 Numerical Problem

Perfect positive correlation → r = +1

6.7 Python Code

✔ END OF MODULE–1 (COMPLETE & EXAM-READY)

You might also like