100% found this document useful (1 vote)

38 views26 pages

Data Transformation

The document provides an overview of data extraction, transformation, and loading (ETL) processes using MySQL and Python with pandas. It covers various aspects of data manipulation, including data cleaning, aggregation, merging, and loading into databases, as well as best practices and challenges in data transformation. Additionally, it discusses the importance of data transformation in analytics and compliance, highlighting tools and use cases.

Uploaded by

Hassan Faraz

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

38 views26 pages

Data Transformation

Uploaded by

Hassan Faraz

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 26

Extracting Data from a MySQL Database

SELECT customer_id, ﬁrst_name, last_name, email, created_at

FROM customers

WHERE created_at >= '2024-01-01';

1
Data Cleaning (Handling NULL values) Data Type Conversion

SELECT customer_id, ﬁrst_name, last_name, SELECT order_id,

COALESCE(email, '[email protected]') AS CAST(order_date AS DATE) AS order_date,

email CAST(total_amount AS DECIMAL(10,2)) AS
FROM customers; total_amount

FROM orders;

2
Data Aggregation Data Filtering

SELECT customer_id, SUM(total_amount) AS SELECT * FROM customers

total_spent
WHERE email LIKE '%@%' AND
FROM orders LENGTH(phone_number) >= 10;

GROUP BY customer_id;

3
Merging Data from Multiple Sources

SELECT c.customer_id, c.ﬁrst_name, c.last_name,

o.order_id, o.order_date, o.total_amount

FROM customers c

JOIN orders o ON c.customer_id = o.customer_id;

4
import pandas as pd
# Sample extracted data

data = {'customer_id': [1, 2, 3],

'name': ['Alice', 'Bob', 'Charlie'],

'email': ['[email protected]', None, '[email protected]'],

'total_spent': ['100.5', '200.75', 'NULL']}

df = pd.DataFrame(data)
# Transformations

df['email'].ﬁllna('[email protected]', inplace=True) # Handling NULL values

df['total_spent'] = pd.to_numeric(df['total_spent'], errors='coerce').ﬁllna(0) # Convert and handle errors

print(df) 5
Loading Data into a Data Warehouse
INSERT INTO sales_summary (customer_id, total_spent, last_purchase_date)

SELECT customer_id, SUM(total_amount), MAX(order_date)

FROM staging_orders

GROUP BY customer_id;

6
Loading Multiple Rows at Once
INSERT INTO customers (customer_id, ﬁrst_name, last_name, email)

VALUES

(101, 'Alice', 'Smith', '[email protected]'),

(102, 'Bob', 'Jones', '[email protected]'),

(103, 'Charlie', 'Brown', '[email protected]');

7
Loading from a CSV File
COPY customers FROM '/path/to/customers.csv'

DELIMITER ',' CSV HEADER;

8
Handling Duplicates with ON CONFLICT (PostgreSQL)
INSERT INTO customers (customer_id, ﬁrst_name, last_name, email)

VALUES (101, 'Alice', 'Smith', '[email protected]')

ON CONFLICT (customer_id)

DO UPDATE SET email = EXCLUDED.email;

9
Loading Data into a SQL Database
import pandas as pd
from sqlalchemy import create_engine
# Sample transformed data
data = {'customer_id': [101, 102, 103],
'ﬁrst_name': ['Alice', 'Bob', 'Charlie'],
'last_name': ['Smith', 'Jones', 'Brown'],
'email': ['[email protected]', '[email protected]', '[email protected]']}
df = pd.DataFrame(data)
# Database connection
engine = create_engine('postgresql://user:password@localhost:5432/mydatabase')
# Load data into the database
df.to_sql('customers', engine, if_exists='append', index=False) 10
Data Transformation
Topics
● Introduction
● What is Data Transformation?
○ Deﬁnition
○ Key Goals of Data Transformation
● Types of Data Transformation
○ Structural Transformation
○ Data Cleaning & Standardization
○ Data Enrichment
○ Data Aggregation & Summarization
○ Data Normalization & Scaling
○ Data Anonymization & Masking
● Data Transformation in ETL (Extract, Transform, Load)
● Data Transformation Tools
○ Open-Source Tools
○ Commercial Tools
● Challenges in Data Transformation
● Best Practices for Data Transformation
● Use Cases of Data Transformation 12
Introduction
Data transformation is a critical process in data integration, analytics, and warehousing.

It involves converting, cleaning, structuring, and enriching raw data into a format that is
suitable for analysis, reporting, and decision-making.

Transformation ensures that data from diverse sources is standardized, normalized, and
compatible for further processing.

13
Deﬁnition
Data transformation refers to the conversion of data from one format, structure, or value
representation to another to make it suitable for analysis or integration.

It is an essential step in ETL (Extract, Transform, Load) pipelines, enabling consistency,

accuracy, and usability of data.

14
Key Goals of Data Transformation
Standardization – Convert data into a uniform format.

Normalization – Reduce data redundancy and inconsistency.

Data Cleaning – Remove errors, duplicates, and inconsistencies.

Aggregation – Summarize data for better analysis.

Data Enrichment – Add missing values or context.

Anonymization – Protect sensitive information for compliance.

15
Structural Transformation
Changes the organization or format of data.

● Column Splitting – Splitting a single column into multiple columns (e.g., "Full
Name" → "First Name" & "Last Name").
● Column Merging – Combining multiple columns into one (e.g., "City" & "State"
→ "Location").
● Pivoting & Unpivoting – Changing row-column relationships (e.g., converting
row-based data into column-based format).
● Schema Mapping – Aligning different database schemas to ensure consistency
across sources.

16
Data Cleaning & Standardization
Improves accuracy, consistency, and completeness of data.

● Handling Missing Values – Filling gaps using interpolation, mean/mode

imputation, or removing incomplete records.
● Deduplication – Identifying and removing duplicate records.
● Standardizing Formats – Ensuring consistent date formats (e.g., MM-DD-YYYY →
YYYY-MM-DD), unit conversions (cm → m).
● Correcting Inconsistencies – Fixing spelling errors, typos, or naming discrepancies
(New York vs. NY).

17
Data Enrichment
Enhancing data by adding more context or information.

● Geocoding – Adding latitude/longitude based on addresses.

● Merging External Data – Integrating demographic or ﬁnancial data for better
insights.
● Text Tokenization – Breaking text into meaningful components for NLP
applications.

18
Data Aggregation & Summarization
Consolidates data for easier analysis.

● Summing Up Values – Computing total sales, revenue, or user counts.

● Averaging & Statistical Measures – Finding mean, median, standard deviation.
● Grouping & Binning – Categorizing continuous variables into discrete ranges (e.g.,
age groups).

19
Data Normalization & Scaling
Ensures values are within a speciﬁc range for better comparison.

● Min-Max Scaling – Rescales values between 0 and 1.

● Z-score Normalization – Converts values to standard deviation-based distribution.
● Log Transformation – Helps normalize skewed data distributions.

20
Data Anonymization & Masking
Protects sensitive information for privacy compliance (GDPR, HIPAA).

● Tokenization – Replacing PII (Personally Identiﬁable Information) with

pseudonyms.
● Generalization – Reducing granularity of details (e.g., exact age 28 → age group
20-30).
● Data Masking – Hiding conﬁdential data (John Doe → J*** D***).

21
Data Transformation in ETL (Extract, Transform, Load)
Data transformation is the middle stage of ETL processes:

1. Extract – Collects raw data from multiple sources (databases, ﬁles, APIs).
2. Transform – Cleans, restructures, enriches, and converts data into a usable format.
3. Load – Stores transformed data in a target system (data warehouse, analytics
platform).

22
Data Transformation Tools
Open-Source Tools Commercial Tools

● Apache Niﬁ – Automates data flow between ● Informatica PowerCenter – Advanced ETL
systems. and data governance features.
● Talend Open Studio – Provides a visual ETL ● Microsoft SQL Server Integration Services
pipeline builder. (SSIS) – Handles ETL for Microsoft
● Pentaho Data Integration (PDI) – Supports environments.
ETL and real-time data processing. ● AWS Glue – Serverless ETL for cloud data
● dbt (Data Build Tool) – Specializes in transformation.
transforming data within cloud warehouses. ● Google Dataflow – Batch and real-time data
transformation in Google Cloud.

23
Challenges in Data Transformation
Scalability Issues – Handling large volumes of data can slow down processing.

Schema Evolution – Changing data structures over time requires updates.

Data Quality & Consistency – Incomplete or incorrect data can impact analytics.

Performance Optimization – Transformation pipelines must be efﬁcient.

Security & Compliance – Sensitive data requires masking and encryption.

24
Best Practices for Data Transformation
Deﬁne Clear Transformation Rules – Ensure well-documented logic for data changes.

Automate Data Cleaning – Use scripts or tools to handle missing and inconsistent values.

Monitor Data Pipelines – Implement logging and alerts for failures.

Use Parallel Processing – Speed up transformations for large datasets.

Ensure Data Governance – Follow compliance regulations for data handling.

Validate Transformed Data – Regularly compare output with expected results.

25
Use Cases of Data Transformation
Business Intelligence (BI) & Reporting Data Warehousing

● Convert sales transactions into structured ● Merge customer data from multiple sources.
reports. ● Summarize historical records for trend
● Aggregate data for KPIs (Key Performance analysis.
Indicators). ● Ensure schema consistency across databases.
● Standardize data from multiple regions and
currencies. Compliance & Security
Machine Learning & AI ● Anonymize personal data for GDPR
● Normalize and scale data for model training. compliance.
● Clean and remove noise for better accuracy. ● Mask sensitive ﬁnancial information.
● Convert text data into structured features ● Redact personally identiﬁable information in
(NLP). healthcare records.

1Z0-1194-24-Demo
No ratings yet
1Z0-1194-24-Demo
11 pages
Nursing Informatics 1-2
100% (3)
Nursing Informatics 1-2
15 pages
1.database System Concept Multiple Choice Question
100% (1)
1.database System Concept Multiple Choice Question
35 pages
Lecture 5 - Data Transformation
No ratings yet
Lecture 5 - Data Transformation
7 pages
Data Transformation Slide
No ratings yet
Data Transformation Slide
8 pages
Data Warehouse
No ratings yet
Data Warehouse
10 pages
VIGNESHWARAN S 0522151118 223258 CSM
No ratings yet
VIGNESHWARAN S 0522151118 223258 CSM
4 pages
Data warehouse (1)
No ratings yet
Data warehouse (1)
14 pages
Data warehouse
No ratings yet
Data warehouse
11 pages
Ass 1
No ratings yet
Ass 1
31 pages
ETL Basics
No ratings yet
ETL Basics
6 pages
ETL
No ratings yet
ETL
4 pages
Data Cleaning, Integration, and Data Transformation Techniques
No ratings yet
Data Cleaning, Integration, and Data Transformation Techniques
7 pages
Data Extraction
No ratings yet
Data Extraction
14 pages
Data Warehousing and Data Mining Lab
No ratings yet
Data Warehousing and Data Mining Lab
46 pages
ETL Interview Preparation
No ratings yet
ETL Interview Preparation
18 pages
E Xtract T Ransform L OAD: MIS Systems (Acct, HR) Legacy Systems
No ratings yet
E Xtract T Ransform L OAD: MIS Systems (Acct, HR) Legacy Systems
30 pages
Data Warehousing: Lecture No 07
No ratings yet
Data Warehousing: Lecture No 07
38 pages
Data Cleaning and Data Transformation
No ratings yet
Data Cleaning and Data Transformation
13 pages
Data Processing
No ratings yet
Data Processing
5 pages
0522251118 VIGNESHWARAN thiruppathur APSA COLLEGE
No ratings yet
0522251118 VIGNESHWARAN thiruppathur APSA COLLEGE
9 pages
Module 3
No ratings yet
Module 3
76 pages
Vigi
No ratings yet
Vigi
3 pages
Unit 2
No ratings yet
Unit 2
53 pages
Data Transformation With Advanced Data Stack
No ratings yet
Data Transformation With Advanced Data Stack
35 pages
Dwdm Ppt PDF
No ratings yet
Dwdm Ppt PDF
21 pages
I Jcs CN 2015050105
No ratings yet
I Jcs CN 2015050105
5 pages
Presented By: - Preeti Kudva (106887833) - Kinjal Khandhar (106878039)
No ratings yet
Presented By: - Preeti Kudva (106887833) - Kinjal Khandhar (106878039)
72 pages
crime-prevention-and-control-css402_1716304451
No ratings yet
crime-prevention-and-control-css402_1716304451
42 pages
Question Data Engineering
No ratings yet
Question Data Engineering
32 pages
Data Warehousing: Modern Database Management
No ratings yet
Data Warehousing: Modern Database Management
32 pages
DSS ch2
No ratings yet
DSS ch2
112 pages
Question Bank
No ratings yet
Question Bank
13 pages
Kabul University: Computer Science Faculty
No ratings yet
Kabul University: Computer Science Faculty
27 pages
PI ETL Concepts
No ratings yet
PI ETL Concepts
31 pages
Karim Mohamed Diab - Senior Business Intelligence Developer - CV - PDF 01
No ratings yet
Karim Mohamed Diab - Senior Business Intelligence Developer - CV - PDF 01
4 pages
business_analytics[1]
No ratings yet
business_analytics[1]
3 pages
06 Data Integration Presentation
No ratings yet
06 Data Integration Presentation
20 pages
Hair PPT Ch02
No ratings yet
Hair PPT Ch02
15 pages
Karim Mohamed Diab - Business Analysis Officer - CV PDF
No ratings yet
Karim Mohamed Diab - Business Analysis Officer - CV PDF
4 pages
04 - ETL Process
No ratings yet
04 - ETL Process
40 pages
Report
No ratings yet
Report
8 pages
Karim Mohamed Diab - Business Intelligence Developer - CV - PDF - 16
No ratings yet
Karim Mohamed Diab - Business Intelligence Developer - CV - PDF - 16
4 pages
Script For Reporting Dsa
No ratings yet
Script For Reporting Dsa
13 pages
Data Source Data Collection Method Tools
No ratings yet
Data Source Data Collection Method Tools
35 pages
Karim Mohamed Diab - Senior Business Intelligence Developer - CV PDF
No ratings yet
Karim Mohamed Diab - Senior Business Intelligence Developer - CV PDF
4 pages
Data_Engineering_Part_1__1735286787
No ratings yet
Data_Engineering_Part_1__1735286787
22 pages
ADF Data Flow Cheat Sheet
No ratings yet
ADF Data Flow Cheat Sheet
9 pages
all questions
No ratings yet
all questions
7 pages
Integrating Disparate Data Stores in Big Data
No ratings yet
Integrating Disparate Data Stores in Big Data
2 pages
Ais Elect - Reviewer
No ratings yet
Ais Elect - Reviewer
5 pages
Data Preparation
No ratings yet
Data Preparation
19 pages
Presentation 2
No ratings yet
Presentation 2
22 pages
Data Warehousing and Data Mining
No ratings yet
Data Warehousing and Data Mining
31 pages
Unit 2 LT
No ratings yet
Unit 2 LT
13 pages
Ass2 Transformation
No ratings yet
Ass2 Transformation
6 pages
Sem3 Unit1 DW PPT
No ratings yet
Sem3 Unit1 DW PPT
12 pages
Ds unit 2 notes
No ratings yet
Ds unit 2 notes
26 pages
Intro To Data Analytics - Cleanup & Transformation
No ratings yet
Intro To Data Analytics - Cleanup & Transformation
30 pages
Data Schema Basics
From Everand
Data Schema Basics
Mei Gates
No ratings yet
THE SQL LANGUAGE: Master Database Management and Unlock the Power of Data (2024 Beginner's Guide)
From Everand
THE SQL LANGUAGE: Master Database Management and Unlock the Power of Data (2024 Beginner's Guide)
JAMIE POWERS
No ratings yet
SQL Query Basics
From Everand
SQL Query Basics
Isabella Ramirez
No ratings yet
Learn SQL: Database Management Basics
From Everand
Learn SQL: Database Management Basics
Kiet Huynh
No ratings yet
IKS Assignment
No ratings yet
IKS Assignment
4 pages
Two Stage Water Ring Vacuum Pump
No ratings yet
Two Stage Water Ring Vacuum Pump
24 pages
Application Guide - Spray Drying
No ratings yet
Application Guide - Spray Drying
4 pages
Cyclone Separator Efficiency
100% (1)
Cyclone Separator Efficiency
73 pages
12 Cooling Load Calculations
100% (1)
12 Cooling Load Calculations
61 pages
Thermophysical Properties of Seawater DWT 16 354 2010
No ratings yet
Thermophysical Properties of Seawater DWT 16 354 2010
28 pages
IRS Questions Qbank
100% (1)
IRS Questions Qbank
2 pages
Nosqlmodule 1
100% (1)
Nosqlmodule 1
102 pages
Types of Data Analysis: Techniques and Methods
No ratings yet
Types of Data Analysis: Techniques and Methods
4 pages
Hbjhjhjhujuhj
No ratings yet
Hbjhjhjhujuhj
2 pages
SQL-Transactions Theory and Hands-On Exercises
No ratings yet
SQL-Transactions Theory and Hands-On Exercises
85 pages
Scientometrics: Tools, Techniques and Software For Analysis: V. Jayasree and M. D. Baby
No ratings yet
Scientometrics: Tools, Techniques and Software For Analysis: V. Jayasree and M. D. Baby
6 pages
05 Project and Solution Scope
No ratings yet
05 Project and Solution Scope
11 pages
Natural Language Processing (NLP)
No ratings yet
Natural Language Processing (NLP)
7 pages
Patient Information System
0% (1)
Patient Information System
5 pages
SRS Car Price Prediction
100% (1)
SRS Car Price Prediction
18 pages
Database Design Lecture Notes
No ratings yet
Database Design Lecture Notes
9 pages
Nava Nalanda Central Library
No ratings yet
Nava Nalanda Central Library
3 pages
Pnis07-Role and Importance of Business Processes in The
No ratings yet
Pnis07-Role and Importance of Business Processes in The
14 pages
Unit 1: Basics of Databases
No ratings yet
Unit 1: Basics of Databases
12 pages
Vehicle Routing Problem Network Analysis Classes: Order Pairs Depot Visits
No ratings yet
Vehicle Routing Problem Network Analysis Classes: Order Pairs Depot Visits
1 page
Electronic Medical Records Literature Review
100% (1)
Electronic Medical Records Literature Review
7 pages
Sales Automation
No ratings yet
Sales Automation
3 pages
Lecture Six-Schemas
No ratings yet
Lecture Six-Schemas
5 pages
Chapter 5
No ratings yet
Chapter 5
14 pages
Codd Rules
No ratings yet
Codd Rules
3 pages
Catch The Pink Flamingo - Report
No ratings yet
Catch The Pink Flamingo - Report
21 pages
Information Retrieval System and The Pagerank Algorithm
No ratings yet
Information Retrieval System and The Pagerank Algorithm
37 pages
Health Information Systems Ii
No ratings yet
Health Information Systems Ii
2 pages
Group Members:-1 Toshal D. Agashe 32 Rohan Y. 47 Onkar K. Pawar
No ratings yet
Group Members:-1 Toshal D. Agashe 32 Rohan Y. 47 Onkar K. Pawar
18 pages
Course 1 Week 4 Glossary - DA Terms and Definitions
No ratings yet
Course 1 Week 4 Glossary - DA Terms and Definitions
4 pages
Artificial Intelligence Based Farmer Assistant Chatbot
No ratings yet
Artificial Intelligence Based Farmer Assistant Chatbot
4 pages
UNIT 5-1
No ratings yet
UNIT 5-1
37 pages

Data Transformation

Uploaded by

Data Transformation

Uploaded by

Extracting Data from a MySQL Database

SELECT customer_id, ﬁrst_name, last_name, email, created_at

WHERE created_at >= '2024-01-01';

SELECT customer_id, ﬁrst_name, last_name, SELECT order_id,

COALESCE(email, '[email protected]') AS CAST(order_date AS DATE) AS order_date,

SELECT customer_id, SUM(total_amount) AS SELECT * FROM customers

SELECT c.customer_id, c.ﬁrst_name, c.last_name,

o.order_id, o.order_date, o.total_amount

JOIN orders o ON c.customer_id = o.customer_id;

data = {'customer_id': [1, 2, 3],

'name': ['Alice', 'Bob', 'Charlie'],

'email': ['[email protected]', None, '[email protected]'],

'total_spent': ['100.5', '200.75', 'NULL']}

df['email'].ﬁllna('[email protected]', inplace=True) # Handling NULL values

df['total_spent'] = pd.to_numeric(df['total_spent'], errors='coerce').ﬁllna(0) # Convert and handle errors

SELECT customer_id, SUM(total_amount), MAX(order_date)

(101, 'Alice', 'Smith', '[email protected]'),

(102, 'Bob', 'Jones', '[email protected]'),

(103, 'Charlie', 'Brown', '[email protected]');

DELIMITER ',' CSV HEADER;

VALUES (101, 'Alice', 'Smith', '[email protected]')

DO UPDATE SET email = EXCLUDED.email;

It is an essential step in ETL (Extract, Transform, Load) pipelines, enabling consistency,

Normalization – Reduce data redundancy and inconsistency.

Data Cleaning – Remove errors, duplicates, and inconsistencies.

Aggregation – Summarize data for better analysis.

Data Enrichment – Add missing values or context.

Anonymization – Protect sensitive information for compliance.

● Handling Missing Values – Filling gaps using interpolation, mean/mode

● Geocoding – Adding latitude/longitude based on addresses.

● Summing Up Values – Computing total sales, revenue, or user counts.

● Min-Max Scaling – Rescales values between 0 and 1.

● Tokenization – Replacing PII (Personally Identiﬁable Information) with

Schema Evolution – Changing data structures over time requires updates.

Performance Optimization – Transformation pipelines must be efﬁcient.

Security & Compliance – Sensitive data requires masking and encryption.

Monitor Data Pipelines – Implement logging and alerts for failures.

Use Parallel Processing – Speed up transformations for large datasets.

Ensure Data Governance – Follow compliance regulations for data handling.

Validate Transformed Data – Regularly compare output with expected results.

You might also like