0% found this document useful (0 votes)

7 views2 pages

Date Cleaning Notes

Uploaded by

mykanadinechua

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views2 pages

Date Cleaning Notes

Uploaded by

mykanadinechua

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

📌 Data Cleaning Notes

🔹 What is Data Cleaning?

● The process of detecting and correcting (or removing) errors, inconsistencies, and
inaccuracies in datasets.

● Ensures that data is accurate, complete, consistent, and reliable for analysis or
decision-making.

🔹 Common Issues in Raw Data

1. Missing values – empty or null fields.

2. Duplicates – repeated records.

3. Inconsistent formatting – e.g., "PH", "Philippines", "PHIL" for the same country.

4. Outliers – unusual values that may be errors.

5. Incorrect data types – e.g., numbers stored as text.

6. Noise or irrelevant data – unnecessary information.

🔹 Steps in Data Cleaning

1. Remove duplicates – drop or merge repeated entries.

2. Handle missing values:

○ Delete rows/columns (if too many missing).

○ Fill in with mean, median, mode, or placeholder values.

3. Correct inconsistencies – standardize formats (e.g., dates, units, spelling).

4. Fix data types – convert text to numeric, ensure correct date/time formats.
5. Handle outliers – investigate and decide whether to remove or keep.

6. Validate data – check for logical accuracy (e.g., age cannot be negative).

7. Normalize/standardize values – ensure uniform scales (e.g., all in USD).

🔹 Tools & Methods Used

● Spreadsheets (Excel, Google Sheets) – basic cleaning.

● Programming:

○ Python: pandas, NumPy, OpenRefine.

○ R: dplyr, tidyr.

● Databases: SQL queries for filtering and updating.

🔹 Benefits of Data Cleaning

● Improves accuracy of analysis.

● Saves time and cost in decision-making.

● Leads to better predictions and insights.

● Ensures data quality and trustworthiness.

Data Mining Group Assignment4
No ratings yet
Data Mining Group Assignment4
10 pages
Data Segmentation
No ratings yet
Data Segmentation
11 pages
Foundation of DS
No ratings yet
Foundation of DS
21 pages
Data Cleaning Guide
No ratings yet
Data Cleaning Guide
4 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
05 Data Cleaning
No ratings yet
05 Data Cleaning
9 pages
Data Cleansing
No ratings yet
Data Cleansing
4 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
Data Cleaning for Analysts
No ratings yet
Data Cleaning for Analysts
1 page
Data Cleaning Preprocessing
No ratings yet
Data Cleaning Preprocessing
28 pages
Importance of Data Cleaning 1
No ratings yet
Importance of Data Cleaning 1
47 pages
? Data Cleaning 101
No ratings yet
? Data Cleaning 101
17 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
20 pages
Data Cleaning: Definition
No ratings yet
Data Cleaning: Definition
2 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
Data Cleaning Using Pandas
No ratings yet
Data Cleaning Using Pandas
9 pages
Unit II (DWDM)
No ratings yet
Unit II (DWDM)
19 pages
Unit 2 Preprocessing in Data Analytics
No ratings yet
Unit 2 Preprocessing in Data Analytics
36 pages
06 02 Lessonarticle
No ratings yet
06 02 Lessonarticle
4 pages
Unit 2
No ratings yet
Unit 2
16 pages
DM Unit 3
No ratings yet
DM Unit 3
15 pages
BA-Unit 2
No ratings yet
BA-Unit 2
31 pages
Data Cleaning
No ratings yet
Data Cleaning
4 pages
Data Cleaning Essentials Guide
No ratings yet
Data Cleaning Essentials Guide
22 pages
Data Cleaning
No ratings yet
Data Cleaning
28 pages
Group 1 CIN-Act QN (A)
No ratings yet
Group 1 CIN-Act QN (A)
3 pages
BI Unit 4 Final
No ratings yet
BI Unit 4 Final
2 pages
Lec 9
No ratings yet
Lec 9
1 page
What Is Data Cleaning
No ratings yet
What Is Data Cleaning
8 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
SMA Expt 3
No ratings yet
SMA Expt 3
9 pages
Document
No ratings yet
Document
29 pages
3628527-Data Cleaning
No ratings yet
3628527-Data Cleaning
1 page
Process-Phase (Data Cleaning Features and Techniques (Lab-Topics)
No ratings yet
Process-Phase (Data Cleaning Features and Techniques (Lab-Topics)
6 pages
Intro. Data Science 3
No ratings yet
Intro. Data Science 3
38 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
Data Cleaning Techniques in Data Science
No ratings yet
Data Cleaning Techniques in Data Science
44 pages
Data Cleaning
No ratings yet
Data Cleaning
2 pages
Data Cleansing Guide for Analysts
No ratings yet
Data Cleansing Guide for Analysts
5 pages
Aspects of Data Quality (Excellent!)
No ratings yet
Aspects of Data Quality (Excellent!)
2 pages
? Data Preprocessing
No ratings yet
? Data Preprocessing
19 pages
Task 1
No ratings yet
Task 1
2 pages
Chapter - 2 - Cleaning and Transforming Data
No ratings yet
Chapter - 2 - Cleaning and Transforming Data
27 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
No ratings yet
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
34 pages
Data Cleaning R
No ratings yet
Data Cleaning R
16 pages
Data Cleaning Mistakes to Avoid
No ratings yet
Data Cleaning Mistakes to Avoid
3 pages
SQL Data Cleaning Guide for Beginners
No ratings yet
SQL Data Cleaning Guide for Beginners
36 pages
Data Engineering: Quality & Preparation
No ratings yet
Data Engineering: Quality & Preparation
64 pages
PHD Seminar
No ratings yet
PHD Seminar
38 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
9 pages
M 2.3 Data Preprocessing
No ratings yet
M 2.3 Data Preprocessing
22 pages
Chap 3
No ratings yet
Chap 3
26 pages
Data Mining
No ratings yet
Data Mining
9 pages

Date Cleaning Notes

Uploaded by

Date Cleaning Notes

Uploaded by

📌 Data Cleaning Notes

🔹 What is Data Cleaning?

🔹 Common Issues in Raw Data

2.​ Duplicates – repeated records.​

4.​ Outliers – unusual values that may be errors.​

5.​ Incorrect data types – e.g., numbers stored as text.​

6.​ Noise or irrelevant data – unnecessary information.​

🔹 Steps in Data Cleaning

2.​ Handle missing values:​

○​ Delete rows/columns (if too many missing).​

○​ Fill in with mean, median, mode, or placeholder values.​

3.​ Correct inconsistencies – standardize formats (e.g., dates, units, spelling).​

7.​ Normalize/standardize values – ensure uniform scales (e.g., all in USD).​

🔹 Tools & Methods Used

○​ Python: pandas, NumPy, OpenRefine.​

●​ Databases: SQL queries for filtering and updating.​

🔹 Benefits of Data Cleaning

●​ Saves time and cost in decision-making.​

●​ Leads to better predictions and insights.​

●​ Ensures data quality and trustworthiness.​

You might also like

2. Duplicates – repeated records.

4. Outliers – unusual values that may be errors.

5. Incorrect data types – e.g., numbers stored as text.

6. Noise or irrelevant data – unnecessary information.

2. Handle missing values:

○ Delete rows/columns (if too many missing).

○ Fill in with mean, median, mode, or placeholder values.

3. Correct inconsistencies – standardize formats (e.g., dates, units, spelling).

7. Normalize/standardize values – ensure uniform scales (e.g., all in USD).

○ Python: pandas, NumPy, OpenRefine.

● Databases: SQL queries for filtering and updating.

● Saves time and cost in decision-making.

● Leads to better predictions and insights.

● Ensures data quality and trustworthiness.