0% found this document useful (0 votes)

39 views5 pages

Practical 6 Encoding (Tanvir)

Practical_6_Encoding : DSV

Uploaded by

vhoratanvir1610

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

39 views5 pages

Practical 6 Encoding (Tanvir)

Practical_6_Encoding : DSV

Uploaded by

vhoratanvir1610

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

DATA SCIENCE AND VISUALIZATION 12202080501060

202046707

Practical 6:
Perform encoding of categorical variables in the given dataset.

Introduction:

In data preprocessing, categorical variables need to be transformed into numerical

representations so that machine learning algorithms can process them effectively. This
practical demonstrates how to apply One-Hot Encoding, Label Encoding, and
preprocessing techniques such as scaling, normalization, and handling missing values. The
dataset used contains student details, including gender, city, mobile, semester marks, and
more.

Code:

from [Link] import ColumnTransformer

from [Link] import OneHotEncoder

import numpy as np

import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/DSV
/Dataset_(12202080501060)/student_dataset_with_missing_values.csv')

df = [Link](['Name', 'Enrollment'], axis=1)

X = [Link][:, :-1].values

y = [Link][:, -1].values

gender_col_index = [Link].get_loc('Gender')

city_col_index = [Link].get_loc('City')

mobile_col_index = [Link].get_loc('Mobile')

GCET
DATA SCIENCE AND VISUALIZATION 12202080501060
202046707

from [Link] import make_column_transformer

from [Link] import SimpleImputer

from [Link] import FunctionTransformer

numeric_transformer = SimpleImputer(strategy='mean')

categorical_transformer = OneHotEncoder(handle_unknown='ignore')

ct = make_column_transformer(

(categorical_transformer, [gender_col_index, city_col_index]),

(numeric_transformer, [mobile_col_index]),

remainder='passthrough'

X = ct.fit_transform(X)

X = [Link]() if hasattr(X, 'toarray') else X

print("Data after encoding 'Gender' and 'City' and handling 'Mobile':")

print(X[:5])

from [Link] import LabelEncoder

GCET
DATA SCIENCE AND VISUALIZATION 12202080501060
202046707

le = LabelEncoder()

y = le.fit_transform(y)

print(y)

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 7)

X_train

X_test

y_train

y_test

from [Link] import StandardScaler

sc = StandardScaler()

X_train_numeric = X_train[:, 8:]

X_test_numeric = X_test[:, 8:]

GCET
DATA SCIENCE AND VISUALIZATION 12202080501060
202046707

X_train_scaled = sc.fit_transform(X_train_numeric)

X_test_scaled = [Link](X_test_numeric)

print("Scaled X_train (numerical columns):")

print(X_train_scaled)

from [Link] import Normalizer

from [Link] import SimpleImputer

import numpy as np

nm = Normalizer()

numerical_cols_indices = slice(8, None)

imputer_numerical = SimpleImputer(missing_values=[Link], strategy='mean')

GCET
DATA SCIENCE AND VISUALIZATION 12202080501060
202046707

X_train[:, numerical_cols_indices] = imputer_numerical.fit_transform(X_train[:,

numerical_cols_indices])

X_test[:, numerical_cols_indices] = imputer_numerical.transform(X_test[:,

numerical_cols_indices])

X_train[:, numerical_cols_indices] = nm.fit_transform(X_train[:, numerical_cols_indices])

X_test[:, numerical_cols_indices] = [Link](X_test[:, numerical_cols_indices])

print("Numerical columns normalized after imputation.")

print(X_train)

Important Points:

1. One-Hot Encoding is used for categorical variables like Gender and City.

2. Label Encoding is applied on the target variable.

3. Missing values in numerical columns are handled using mean imputation.

4. StandardScaler normalizes numerical values to a common scale.

5. Normalizer ensures feature vectors have unit norm.

Conclusion:
Encoding categorical variables is a crucial step in data preprocessing. It allows machine
learning models to interpret categorical data effectively. In this practical, we successfully
encoded categorical features, handled missing values, and applied scaling and
normalization to numerical data, preparing the dataset for model building.

GCET

Lecture 5 Encoding
No ratings yet
Lecture 5 Encoding
35 pages
Machine Learning
No ratings yet
Machine Learning
81 pages
Exp 6
No ratings yet
Exp 6
9 pages
Dealing With Categorical
No ratings yet
Dealing With Categorical
25 pages
Program 1
No ratings yet
Program 1
6 pages
L1 - Data Pre-Processing & Steps of Building A Model
No ratings yet
L1 - Data Pre-Processing & Steps of Building A Model
30 pages
L7 - Categorical Data - Encoding - Preprocessing - NCU
No ratings yet
L7 - Categorical Data - Encoding - Preprocessing - NCU
23 pages
1
No ratings yet
1
3 pages
100 Days of Machine Learning
No ratings yet
100 Days of Machine Learning
14 pages
TP4-ML-features Encoding
No ratings yet
TP4-ML-features Encoding
4 pages
003-FIN7790 (Part2)
No ratings yet
003-FIN7790 (Part2)
162 pages
Comparing Categorical Encoding Methods
No ratings yet
Comparing Categorical Encoding Methods
11 pages
What Are Categorical Data Encoding Methods - Binary Encoding
No ratings yet
What Are Categorical Data Encoding Methods - Binary Encoding
14 pages
Handling Categorical Variables in Ensemble Algorithms 2
No ratings yet
Handling Categorical Variables in Ensemble Algorithms 2
18 pages
Lab 08 - Data Preprocessing
No ratings yet
Lab 08 - Data Preprocessing
9 pages
ML-Lab05-Data Preprocessing Techniques in Python
No ratings yet
ML-Lab05-Data Preprocessing Techniques in Python
7 pages
Categorical Variable Encoding Guide
No ratings yet
Categorical Variable Encoding Guide
21 pages
Dealing With Categorical Data
No ratings yet
Dealing With Categorical Data
14 pages
Lab 6
No ratings yet
Lab 6
6 pages
Feature Encoding
No ratings yet
Feature Encoding
5 pages
Practical 3 - Categorical Feature Engineering
No ratings yet
Practical 3 - Categorical Feature Engineering
6 pages
Data - Preprocessing - Jupyter Notebook
No ratings yet
Data - Preprocessing - Jupyter Notebook
5 pages
Week 10
No ratings yet
Week 10
50 pages
Data Preparation.2
No ratings yet
Data Preparation.2
18 pages
Data Preparation for Machine Learning
No ratings yet
Data Preparation for Machine Learning
45 pages
Categorical Variable Encoding Techniques
No ratings yet
Categorical Variable Encoding Techniques
25 pages
One-Hot Encoding for Categorical Data
No ratings yet
One-Hot Encoding for Categorical Data
4 pages
Unit-1 AI ML PYTHON - Jupyter Notebook
No ratings yet
Unit-1 AI ML PYTHON - Jupyter Notebook
10 pages
Data Mining with Python Lab Guide
No ratings yet
Data Mining with Python Lab Guide
39 pages
7 - InnovatiCS - Categorical Data & Data Transformation
No ratings yet
7 - InnovatiCS - Categorical Data & Data Transformation
20 pages
Python Linear Regression Tutorial
No ratings yet
Python Linear Regression Tutorial
6 pages
Lab Manual 5 Solved 40
No ratings yet
Lab Manual 5 Solved 40
13 pages
Categorical Data Encoding Guide
No ratings yet
Categorical Data Encoding Guide
2 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
Record
No ratings yet
Record
22 pages
Untitled Document
No ratings yet
Untitled Document
2 pages
Ads E2
No ratings yet
Ads E2
5 pages
Train
No ratings yet
Train
17 pages
Abhiml ML File
No ratings yet
Abhiml ML File
74 pages
DMML Lab Report 04
No ratings yet
DMML Lab Report 04
6 pages
(Feature Engineering) (Extended-Cheatsheet)
100% (1)
(Feature Engineering) (Extended-Cheatsheet)
9 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
Ex 3
No ratings yet
Ex 3
11 pages
Linear REgression Lab Report 4
No ratings yet
Linear REgression Lab Report 4
3 pages
Data Mining Lab Manual CSE VII Sem
No ratings yet
Data Mining Lab Manual CSE VII Sem
63 pages
Handling Categorical Data in ML
No ratings yet
Handling Categorical Data in ML
18 pages
Assignment 03
No ratings yet
Assignment 03
6 pages
One-Hot Encoding for Categorical Data
No ratings yet
One-Hot Encoding for Categorical Data
2 pages
Scikit-Learn ML Cheat Sheet Guide
No ratings yet
Scikit-Learn ML Cheat Sheet Guide
3 pages
Data Science for Engineers Course
No ratings yet
Data Science for Engineers Course
8 pages
DS 1
No ratings yet
DS 1
20 pages
DATASCI112 Midterm Cheat Sheet
No ratings yet
DATASCI112 Midterm Cheat Sheet
2 pages
Machinelearning
No ratings yet
Machinelearning
26 pages
Encoding Notes
No ratings yet
Encoding Notes
4 pages
Zindi Financial Inclusion Guide
No ratings yet
Zindi Financial Inclusion Guide
12 pages
2795529-Python One Hot Encoding
No ratings yet
2795529-Python One Hot Encoding
2 pages
ML File Syllabus
No ratings yet
ML File Syllabus
43 pages
Data Transformation
No ratings yet
Data Transformation
16 pages
Practical-9 BDA
No ratings yet
Practical-9 BDA
20 pages
Practical 6 Encoding
No ratings yet
Practical 6 Encoding
2 pages
Practical 5 Missing Values
No ratings yet
Practical 5 Missing Values
4 pages
Practical 10
No ratings yet
Practical 10
7 pages
DSA Notes (Codewithtanvir)
No ratings yet
DSA Notes (Codewithtanvir)
8 pages
Practical 11
No ratings yet
Practical 11
11 pages
Practical 8 GRU
No ratings yet
Practical 8 GRU
3 pages
Practical 7 LSTM
No ratings yet
Practical 7 LSTM
2 pages
Practical-9 MAD
No ratings yet
Practical-9 MAD
7 pages
Practical-6 MAD
No ratings yet
Practical-6 MAD
8 pages
Practical-8 BDA
No ratings yet
Practical-8 BDA
17 pages
Round01 MernStack25
No ratings yet
Round01 MernStack25
4 pages
Practical 2 Report
No ratings yet
Practical 2 Report
5 pages
DL Prac
No ratings yet
DL Prac
10 pages
Student Data Analysis Report
No ratings yet
Student Data Analysis Report
7 pages
Practical-7 MAD
No ratings yet
Practical-7 MAD
4 pages
Practical2 Perceptron DL Formatted
No ratings yet
Practical2 Perceptron DL Formatted
5 pages
DL3 (1) Tanvir
No ratings yet
DL3 (1) Tanvir
6 pages
DLA - Lab Manual Index - Sem-7-IT
No ratings yet
DLA - Lab Manual Index - Sem-7-IT
4 pages
DLA - Lab Manual Index - Sem-7-IT
No ratings yet
DLA - Lab Manual Index - Sem-7-IT
4 pages
Practical 5 ICC
No ratings yet
Practical 5 ICC
15 pages
DSV Lab Manual Index
No ratings yet
DSV Lab Manual Index
4 pages
Practical 5
No ratings yet
Practical 5
13 pages
Lab Manual
No ratings yet
Lab Manual
11 pages
Practical5 (MAD) Tanvir
No ratings yet
Practical5 (MAD) Tanvir
14 pages
DL5 and 6th Final (1) Tanvir
No ratings yet
DL5 and 6th Final (1) Tanvir
12 pages
Practical4 IaaS Public Cloud
No ratings yet
Practical4 IaaS Public Cloud
19 pages
DL4Final (1) Tanvir
No ratings yet
DL4Final (1) Tanvir
10 pages
ICC Unit-2
No ratings yet
ICC Unit-2
75 pages
1 Continue...
No ratings yet
1 Continue...
39 pages
Centrifugal Pump Flow Analysis
No ratings yet
Centrifugal Pump Flow Analysis
8 pages
C - TS413 - 1809 - 1 Dumps
No ratings yet
C - TS413 - 1809 - 1 Dumps
19 pages
NSR-3610 Feeder Equipment Protection Technical and Instruction Manual (V1.13 180320)
100% (2)
NSR-3610 Feeder Equipment Protection Technical and Instruction Manual (V1.13 180320)
76 pages
Solution Manual For Basic Biomechanics 7th Edition
No ratings yet
Solution Manual For Basic Biomechanics 7th Edition
21 pages
2.4 Momentum Impulse MS
No ratings yet
2.4 Momentum Impulse MS
4 pages
Principles of Supply Chain Management 2nd Editoin by Richard E. Crandall Instant Download
No ratings yet
Principles of Supply Chain Management 2nd Editoin by Richard E. Crandall Instant Download
38 pages
A Novel Semiconductor Capacitive Sensor For A Single-Chip Fingerprint Sensor/Identifier LSI
No ratings yet
A Novel Semiconductor Capacitive Sensor For A Single-Chip Fingerprint Sensor/Identifier LSI
6 pages
Diode Circuits in Power Electronics
No ratings yet
Diode Circuits in Power Electronics
76 pages
UT35A 32A Manual
100% (1)
UT35A 32A Manual
328 pages
Science Experiment Guidelines
No ratings yet
Science Experiment Guidelines
9 pages
Errata For Grade 9 Maths Paper Final
No ratings yet
Errata For Grade 9 Maths Paper Final
4 pages
KVMG 400 Control Valve
No ratings yet
KVMG 400 Control Valve
39 pages
1st Year Chap-1 (1st Half
No ratings yet
1st Year Chap-1 (1st Half
1 page
Textbook of Tool Engineering
No ratings yet
Textbook of Tool Engineering
73 pages
Characteristics of Digital IC's
0% (1)
Characteristics of Digital IC's
2 pages
Rockwell Automation Project Design Assistant - Lab
No ratings yet
Rockwell Automation Project Design Assistant - Lab
17 pages
Polivoks VCO DIY Parts List
No ratings yet
Polivoks VCO DIY Parts List
8 pages
Pune-BOQ Maintenance Km. 797+500 To Km.865.350 December 2023
No ratings yet
Pune-BOQ Maintenance Km. 797+500 To Km.865.350 December 2023
111 pages
Cisco Nexus 9000 Series Nxos Vxlan Configuration Guide Relea
No ratings yet
Cisco Nexus 9000 Series Nxos Vxlan Configuration Guide Relea
136 pages
Unified Council Website Overview
No ratings yet
Unified Council Website Overview
5 pages
Revision Guide EoY1 Stage 6
No ratings yet
Revision Guide EoY1 Stage 6
6 pages
FTD Recommended Syllabus
No ratings yet
FTD Recommended Syllabus
23 pages
Autocad 2019 Brochure en
No ratings yet
Autocad 2019 Brochure en
2 pages
Mathematics 2 LP
No ratings yet
Mathematics 2 LP
6 pages
ELETROMECAN ELECTROVDRO - PPC Porcelana Outros Mercados
No ratings yet
ELETROMECAN ELECTROVDRO - PPC Porcelana Outros Mercados
125 pages
Hint (PIA, I%, 5) 3.79 (PIF, I%, 5) 0.62
No ratings yet
Hint (PIA, I%, 5) 3.79 (PIF, I%, 5) 0.62
11 pages
MATHEMATICS
No ratings yet
MATHEMATICS
13 pages
Angular Lecture Notes Guide
No ratings yet
Angular Lecture Notes Guide
112 pages
Adsp-Bf534 BF536 BF537
No ratings yet
Adsp-Bf534 BF536 BF537
68 pages
Average Reaction Rate Calculation
No ratings yet
Average Reaction Rate Calculation
5 pages

Practical 6 Encoding (Tanvir)

Uploaded by

Practical 6 Encoding (Tanvir)

Uploaded by

DATA SCIENCE AND VISUALIZATION 12202080501060

In data preprocessing, categorical variables need to be transformed into numerical

from [Link] import ColumnTransformer

from [Link] import OneHotEncoder

df = [Link](['Name', 'Enrollment'], axis=1)

from [Link] import make_column_transformer

from [Link] import SimpleImputer

from [Link] import FunctionTransformer

(categorical_transformer, [gender_col_index, city_col_index]),

X = [Link]() if hasattr(X, 'toarray') else X

print("Data after encoding 'Gender' and 'City' and handling 'Mobile':")

from [Link] import LabelEncoder

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 7)

from [Link] import StandardScaler

X_train_numeric = X_train[:, 8:]

X_test_numeric = X_test[:, 8:]

print("Scaled X_train (numerical columns):")

from [Link] import Normalizer

from [Link] import SimpleImputer

numerical_cols_indices = slice(8, None)

imputer_numerical = SimpleImputer(missing_values=[Link], strategy='mean')

X_train[:, numerical_cols_indices] = imputer_numerical.fit_transform(X_train[:,

X_test[:, numerical_cols_indices] = imputer_numerical.transform(X_test[:,

X_train[:, numerical_cols_indices] = nm.fit_transform(X_train[:, numerical_cols_indices])

X_test[:, numerical_cols_indices] = [Link](X_test[:, numerical_cols_indices])

print("Numerical columns normalized after imputation.")

2. Label Encoding is applied on the target variable.

3. Missing values in numerical columns are handled using mean imputation.

4. StandardScaler normalizes numerical values to a common scale.

5. Normalizer ensures feature vectors have unit norm.

You might also like