0% found this document useful (0 votes)

26 views15 pages

Data Science

The document outlines a series of practical exercises in data processing and analysis, including handling missing values, feature scaling, hypothesis testing, ANOVA, linear regression, logistic regression, K-means clustering, PCA, and data visualization. Each practical includes specific code examples using Python and R for various tasks, demonstrating techniques for data manipulation and statistical analysis. The exercises aim to provide hands-on experience with essential data science methods.

Uploaded by

harshusin96

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

26 views15 pages

Data Science

Uploaded by

harshusin96

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Practical no.

Aim: Perform basic data pre-processing tasks such as handling missing values and outliers.

Code:-

For missing values:-

import pandas as pd
data = pd.read_csv("/content/[Link]")
df = [Link](data)
# Checking for missing values using isnull()
missing_values = [Link]()
print(missing_values)

For missing values by boolean:-

bool_series = [Link](data["Gender"])
missing_gender_data = data[bool_series]
print(missing_gender_data)
For missing values:-

missing_values = [Link]()
print(missing_values)

For non missing values:-

non_missing_values = [Link]()
print(non_missing_values)
Practical no. 2

Aim: Apply feature scaling techniques like standardization and normalizationto numerical
features.

Code:-
from [Link] import StandardScaler, MinMaxScaler
import pandas as pd
# Data
df = [Link]({'Age': [25, 45, 35, 50, 23], 'Income': [50000, 120000, 80000,
110000, 75000]})
# Standardization
df_standardized = [Link]()
df_standardized[['Age', 'Income']] = StandardScaler().fit_transform(df[['Age',
'Income']])
# Normalization
df_normalized = [Link]()
df_normalized[['Age', 'Income']] = MinMaxScaler().fit_transform(df[['Age', 'Income']])
print("Standardized:\n", df_standardized, "\n")
print("Normalized:\n", df_normalized)

Output:-
Practical no. 3

Aim: To perform practical of Hypothesis Testing.

Code:-
x=c(6.2,6.6,7.1,7.4,7.6,7.9,8,8.3,8.4,8.5,8.6,8.8,8.8,9.1,9.2,9.4,9.4,9.7,9.9,10.2,10.4,10.8,11.3,11.9)
[Link](x-9,alternative="[Link]",[Link]=0.95)
x=c(418,421,421,422,425,427,431,434,437,439,446,447,448,453,454,463,465)
y=c(429,430,430,431,436,437,440,441,445,446,447)
test2<-[Link](x,y,alternative="[Link]",mu=0,[Link]=F,[Link]=0.95)
test2

Output:-
Practical no. 4

Aim: To perform practical of Analysis of Varience.

Code:-
y1 <- c(18.2, 20.1, 17.6, 16.8, 18.8, 19.7, 19.1)
y2 <- c(17.4, 18.7, 19.1, 16.4, 15.9, 18.4, 17.7)
y3 <- c(15.2, 18.8, 17.7, 16.5, 15.9, 17.1, 16.7)
y <- c(y1, y2, y3)
group <- factor(rep(1:3, each = length(y1)))
tapply(y, group, stem)
tmpfn <- function(x) {
list(sum = sum(x), mean = mean(x), var = var(x), n = length(x))
}
tapply(y, group, tmpfn)
data <- [Link](y = y, group = group)
fit <- lm(y ~ group, data)
anova_fit <- anova(fit)
df <- anova_fit[,"Df"]
names(df) <- c("trt", "err")
df
alpha <- c(0.05, 0.01)
qf(alpha, df["trt"], df["err"], [Link] = FALSE)
anova_fit["Residuals", "Sum Sq"]
anova_fit["Residuals", "Sum Sq"] / qchisq(c(0.025, 0.975), df["err"], [Link] = FALSE)

Output:-
Practical No. 5

Aim: Practical of Simple/Multiple Linear Regression.

Code:-
height <- c(102,117,105,141,135,115,138,114,137,100,131,119,115,121,113)
weight <- c(61,46,62,54,60,69,51,50,46,64,48,56,64,48,59)
student <- lm(weight ~ height)
student
predict(student, [Link] (height = 199), interval="confidence")
plot(student)

Output:-
Practical No. 6

Aim: To perform practicals of Logistics Regression.

Code:-
# Load dataset
library(datasets)
ir_data <- iris
head(ir_data)
str(ir_data)
levels(ir_data$Species)

# Check for missing values

sum([Link](ir_data))

# Subset the data for two species and 100 observations

ir_data <- ir_data[1:100, ]

# Split data into training and testing sets

[Link](100)
samp <- sample(1:100, 80)
ir_test <- ir_data[samp, ]
ir_ctrl <- ir_data[-samp, ]

# Install and load libraries for visualization

if (!require("ggplot2")) [Link]("ggplot2", dependencies = TRUE)
library(ggplot2)

if (!require("GGally")) [Link]("GGally", dependencies = TRUE)

library(GGally)

# Pair plot for test data

ggpairs(ir_test)

# Logistic regression: Predict Species using [Link]

y <- [Link](ir_test$Species == "setosa") # Convert Species to binary
x <- ir_test$[Link]
glfit <- glm(y ~ x, family = "binomial")
summary(glfit)

# Predict on control data

newdata <- [Link](x = ir_ctrl$[Link])
predicted_val <- predict(glfit, newdata, type = "response")

# Combine predictions with control data

prediction <- [Link](
[Link] = ir_ctrl$[Link],
[Link] = ir_ctrl$Species,
[Link] = predicted_val
)
print(prediction)

# Plot predictions
qplot(
prediction$[Link],
round(prediction$[Link]),
col = prediction$[Link],
xlab = "Sepal Length",
ylab = "Prediction using Logistic Regression"
)

Output:-
Practical No. 7

Aim: K- Means Clustering.

Code:-
data(iris)
names(iris)
new_data<-subset(iris,select = c(-Species))
new_data
cl<-kmeans(new_data,3)
cl
data<-new_data
wss<-sapply(1:15,function(k){kmeans(data,k)$[Link]})
wss
plot(1:15,wss,type="b",pch=19,frame=FALSE,xlab="Number of clustersK",ylab ="Total within-clusters sums of
squares")
library(cluster)
clusplot(new_data,cl$cluster,color=TRUE,shade=TRUE, labels=2,lines=0)
cl$cluster
cl$centers
"agglomarative clustering"
clusters<-hclust(dist(iris[,3:4]))
plot(clusters)
clusterCut<-cutree(clusters,3)
table(clusterCut,iris$Species)

Output:-
Practical No. 8

Aim: Principal Component Analysis (PCA)

Code:-
data_iris <- iris[1:4]
cov_data <- cov(data_iris)
print(cov_data) # Print covariance matrix to check
Eigen_data <- eigen(cov_data)
print(Eigen_data$values) # Print eigenvalues to check
PCA_data <- princomp(data_iris, cor = FALSE) # Set cor=FALSE instead of "False"
summary(PCA_data) # Print summary to ensure PCA ran correctly
model2 <- PCA_data$loadings[, 1]
print(model2) # Print the first principal component
model2_scores <- [Link](data_iris) %*% model2
print(head(model2_scores)) # Print the first few PCA scores
if (!require(e1071)) [Link]("e1071", dependencies = TRUE)
library(e1071)
mod1 <- naiveBayes(iris[, 1:4], iris[, 5])
mod2 <- naiveBayes(model2_scores, iris[, 5])
table(predict(mod1, iris[, 1:4]), iris[, 5])
table(predict(mod2, model2_scores), iris[, 5])

Output:-
Practical No. 9

Aim: Data Visualization and Storytelling.

Code:-

import seaborn as sns

import [Link] as plt
# Data
x = [15, 20, 25, 30, 35, 40]
y = [150, 180, 220, 250, 270, 300]
# Scatter plot
[Link](x=x, y=y)
[Link]('Sales vs Advertising Spend')
[Link]()

Output:-

WEEK
No ratings yet
WEEK
17 pages
BDA MSC It
No ratings yet
BDA MSC It
35 pages
BDA Lab Manual (12 Weeks)
No ratings yet
BDA Lab Manual (12 Weeks)
22 pages
Bi 5to 8
No ratings yet
Bi 5to 8
6 pages
R Practicals
No ratings yet
R Practicals
32 pages
Da Lab File 2
No ratings yet
Da Lab File 2
13 pages
Final Data Lab
No ratings yet
Final Data Lab
21 pages
Toc ch1
No ratings yet
Toc ch1
9 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
7708 - MBA PredAnanBigDataNov21
No ratings yet
7708 - MBA PredAnanBigDataNov21
11 pages
Da Thoery
No ratings yet
Da Thoery
24 pages
DS File Et C1 23
No ratings yet
DS File Et C1 23
15 pages
Data Science Lab Manual
No ratings yet
Data Science Lab Manual
32 pages
BAN5
No ratings yet
BAN5
2 pages
R Assignment
No ratings yet
R Assignment
8 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
Datamining 2
No ratings yet
Datamining 2
54 pages
Datamining Lab Record
No ratings yet
Datamining Lab Record
36 pages
Data Scinece Practical File
No ratings yet
Data Scinece Practical File
23 pages
DA Programs
No ratings yet
DA Programs
44 pages
Ds
No ratings yet
Ds
2 pages
Machine Learning Algorithms Guide
No ratings yet
Machine Learning Algorithms Guide
34 pages
Ds
No ratings yet
Ds
2 pages
Lecture 9 Machine Learning Using Caret API Updated
No ratings yet
Lecture 9 Machine Learning Using Caret API Updated
46 pages
TYCS Practical
No ratings yet
TYCS Practical
26 pages
R Programming Practical Exercises
No ratings yet
R Programming Practical Exercises
13 pages
Da 06-10
No ratings yet
Da 06-10
14 pages
Aml Lab
No ratings yet
Aml Lab
6 pages
Bda Assign
No ratings yet
Bda Assign
15 pages
ML Updated File
No ratings yet
ML Updated File
36 pages
ML File - Merged
No ratings yet
ML File - Merged
24 pages
Saurabh
No ratings yet
Saurabh
22 pages
DATAMINING
No ratings yet
DATAMINING
24 pages
DM Lab Practical Examination Report
No ratings yet
DM Lab Practical Examination Report
18 pages
Datamining
No ratings yet
Datamining
20 pages
Record
No ratings yet
Record
23 pages
Da Rec
No ratings yet
Da Rec
29 pages
Unit1 ML Programs
No ratings yet
Unit1 ML Programs
5 pages
Final Practical
No ratings yet
Final Practical
53 pages
Aman DA 111
No ratings yet
Aman DA 111
14 pages
ISYE6501 Homework 2
No ratings yet
ISYE6501 Homework 2
11 pages
Prathamesh KRAI
No ratings yet
Prathamesh KRAI
38 pages
Objects Oriented Programming OOP
No ratings yet
Objects Oriented Programming OOP
66 pages
Codes
No ratings yet
Codes
14 pages
Iris Dataset Linear Regression Guide
No ratings yet
Iris Dataset Linear Regression Guide
4 pages
Data Analysis of Dirty Iris Dataset
No ratings yet
Data Analysis of Dirty Iris Dataset
19 pages
Objects Oriented Programming OOP
No ratings yet
Objects Oriented Programming OOP
67 pages
Data Analytics Programs
No ratings yet
Data Analytics Programs
12 pages
R Program
No ratings yet
R Program
22 pages
Handling The Dataset Using R - Word
No ratings yet
Handling The Dataset Using R - Word
54 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Model Lab
No ratings yet
Model Lab
6 pages
Ex. No.: 01 Working With Numpy Arrays
No ratings yet
Ex. No.: 01 Working With Numpy Arrays
30 pages
R and Python Programming Exercises
100% (1)
R and Python Programming Exercises
24 pages
決策樹 R程式練習
No ratings yet
決策樹 R程式練習
11 pages
DA Manual - Part B
No ratings yet
DA Manual - Part B
13 pages
Codes and Its Interpretation of All The Modules
No ratings yet
Codes and Its Interpretation of All The Modules
4 pages
7406HW02 1
No ratings yet
7406HW02 1
3 pages
Made 103
No ratings yet
Made 103
4 pages
Bhrigu Nandi Nadi Diploma - Class 17 Astro Vaibhav Gupta
100% (1)
Bhrigu Nandi Nadi Diploma - Class 17 Astro Vaibhav Gupta
9 pages
Alexander Romance
No ratings yet
Alexander Romance
6 pages
13 DISS Institute of Philippine Culture's Study On Philippine Values
No ratings yet
13 DISS Institute of Philippine Culture's Study On Philippine Values
13 pages
Witold Płotka - From Psychology To Phenomenology (And Back Again)
No ratings yet
Witold Płotka - From Psychology To Phenomenology (And Back Again)
27 pages
Methods of Philosophizing
No ratings yet
Methods of Philosophizing
19 pages
The Lake Isle of Innisfree The Snake and The Mirror - Handwritten Notes (English (Language & Literature) )
No ratings yet
The Lake Isle of Innisfree The Snake and The Mirror - Handwritten Notes (English (Language & Literature) )
14 pages
Drama Musikal Tangled
No ratings yet
Drama Musikal Tangled
4 pages
Acid-Catalyzed Solvent-Free Synthesis of 2-Arylbenzimidazoles Under MW J Mol Cat 2007
No ratings yet
Acid-Catalyzed Solvent-Free Synthesis of 2-Arylbenzimidazoles Under MW J Mol Cat 2007
4 pages
Learning Preferences of 21st Century Students
No ratings yet
Learning Preferences of 21st Century Students
11 pages
BB Project - Testicular Attack Catalogue (All)
No ratings yet
BB Project - Testicular Attack Catalogue (All)
12 pages
( ) 4.be A Smart Spender (02) - ( ) 3 (25 ) (Q)
No ratings yet
( ) 4.be A Smart Spender (02) - ( ) 3 (25 ) (Q)
8 pages
EGP Paper 1 Essay Marking Rubric Bands 5 To 0 Assessment Objectives 5 Pages
No ratings yet
EGP Paper 1 Essay Marking Rubric Bands 5 To 0 Assessment Objectives 5 Pages
6 pages
Prevailing Prayer by Pr. Jane
No ratings yet
Prevailing Prayer by Pr. Jane
13 pages
Economic Analysis of Cadbury Assignment
No ratings yet
Economic Analysis of Cadbury Assignment
15 pages
ThepsychotherapyinAtharva 3
No ratings yet
ThepsychotherapyinAtharva 3
11 pages
Come As You Are - Lyrics & Chords
No ratings yet
Come As You Are - Lyrics & Chords
3 pages
VERSACE
No ratings yet
VERSACE
11 pages
Reading Comprehension: Rules of The Game: Editada
No ratings yet
Reading Comprehension: Rules of The Game: Editada
9 pages
Knitted Trapper Hat With Visuals
No ratings yet
Knitted Trapper Hat With Visuals
5 pages
ECD A Term 1 Scheme of Work
No ratings yet
ECD A Term 1 Scheme of Work
90 pages
Blood Vessels: The Human Transport System: Sbi3U
No ratings yet
Blood Vessels: The Human Transport System: Sbi3U
15 pages
India Physical Map PDF
No ratings yet
India Physical Map PDF
31 pages
Question Bank PB
No ratings yet
Question Bank PB
4 pages
8 Principles of Effective Communication
No ratings yet
8 Principles of Effective Communication
3 pages
Evolution of Consumerism in India
No ratings yet
Evolution of Consumerism in India
39 pages
A Doll's House: Timeless Feminism
No ratings yet
A Doll's House: Timeless Feminism
5 pages
Overall Optimal Design of Structures
No ratings yet
Overall Optimal Design of Structures
8 pages
Race in North America Origin and Evolution of A Worldview Fourth Edition Audrey Smedley Latest Ebook PDF 2025
No ratings yet
Race in North America Origin and Evolution of A Worldview Fourth Edition Audrey Smedley Latest Ebook PDF 2025
66 pages
Class XI Political Science Quiz
No ratings yet
Class XI Political Science Quiz
17 pages

Data Science

Uploaded by

Data Science

Uploaded by

Practical no.

For missing values:-

For missing values by boolean:-

For non missing values:-

Aim: To perform practical of Hypothesis Testing.

Aim: To perform practical of Analysis of Varience.

Aim: Practical of Simple/Multiple Linear Regression.

Aim: To perform practicals of Logistics Regression.

# Check for missing values

# Subset the data for two species and 100 observations

# Split data into training and testing sets

# Install and load libraries for visualization

if (!require("GGally")) [Link]("GGally", dependencies = TRUE)

# Pair plot for test data

# Logistic regression: Predict Species using [Link]

# Predict on control data

# Combine predictions with control data

Aim: K- Means Clustering.

Aim: Principal Component Analysis (PCA)

Aim: Data Visualization and Storytelling.

import seaborn as sns

You might also like