0% found this document useful (0 votes)

102 views21 pages

Introduction to Data Mining Concepts

The document provides an introduction to data mining. It defines data mining as extracting useful patterns from large amounts of data. The main steps in data mining are collecting and preprocessing data, applying data mining algorithms to discover patterns, and interpreting the results. Data mining is distinguished from databases and OLAP in that it aims to discover unknown patterns rather than retrieving or summarizing known information. Common data mining tasks include classification, regression, clustering, association rule mining, and sequential pattern mining.

Uploaded by

flame1406

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

102 views21 pages

Introduction to Data Mining Concepts

Uploaded by

flame1406

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

BITS Pilani

[Link] Malapati
BITS Pilani Asst Professor
Department of CSIS
Hyderabad Campus
BITS Pilani
Hyderabad Campus

Data Mining - Introduction

Today’s Learning objective

• Define what is Data Mining

• List the Steps/Phases involved in data Mining

• Compare DBMS,OLAP and Data Mining

• List the Predictive and Descriptive Data Mining Tasks

BITS Pilani, Hyderabad Campus

DIKW Pyramid

BITS Pilani, Hyderabad Campus

Data generated from several
sources

BITS Pilani, Hyderabad Campus

Dreaded with data

BITS Pilani, Hyderabad Campus

What is Data Mining?

Searching for knowledge

from your data.

BITS Pilani, Hyderabad Campus

What is Data Mining?
• Data mining – Extraction of interesting (non-trivial,
implicit, previously unknown and potentially useful)
patterns or knowledge from huge amount of data.

• Alternative names – Knowledge discovery (mining) in

databases (KDD), knowledge extraction, data/pattern
analysis, etc.
BITS Pilani, Hyderabad Campus
Data Mining Process

BITS Pilani, Hyderabad Campus

DBMS,OLAP and Data Mining
DBMS OLAP DATA MINING
TASK Extract data Summaries, trends Knowledge
and forecasts Discovery of
hidden patterns
Type of Result Information Analysis Insight &
Prediction
Method Deduction Multidimensional Induction
data modelling,
Aggregation,
Statistics
Example List all What is the average Who will buy
customers who income of printers along with
purchased customers across computers?
Computers in regions?
the last year.
BITS Pilani, Hyderabad Campus
Data Mining Tasks

Objective is to predict the value of a particular

attribute based on the values of other attributes. Classification

Predictive Regression

Data Outlier Detection

Mining
Descriptive Clustering

Association
Objective is to derive patterns
Sequential Pattern
Mining
BITS Pilani, Hyderabad Campus
Classification Example

Tid Home Marital Taxable Home Marital Taxable

Owner Status Income Default Owner Status Income Default

1 Yes Single 125K No No Single 75K ?

2 No Married 100K No Yes Married 50K ?

3 No Single 70K No No Married 150K ?

4 Yes Married 120K No Yes Divorced 90K ?
5 No Divorced 95K Yes No Single 40K ?
6 No Married 60K No No Married 80K ? Test
10

Set
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
Training
10 No Single 90K Yes Model
10
Set

BITS Pilani, Hyderabad Campus

Classification: Definition
• Given a collection of records (training set )
– Each record contains a set of attributes, one of the attributes is the
class.

• Find a model for class attribute as a function of the values

of other attributes.

• Goal: previously unseen records should be assigned a

class as accurately as possible.
– A test set is used to determine the accuracy of the model. Usually,
the given data set is divided into training and test sets, with training
set used to build the model and test set used to validate it.
BITS Pilani, Hyderabad Campus
Regression

• For classification the output(s) is nominal

• In regression the output is continuous

– Function Approximation

• Many models could be used – Simplest is linear regression

– Fit data with the best hyper-plane which "goes through"

the points y
dependent
variable
(output)

x – independent variable (input)

BITS Pilani, Hyderabad Campus
Clustering

BITS Pilani, Hyderabad Campus

Association Rule Mining

BITS Pilani, Hyderabad Campus

Sequential Pattern Mining
• Given a set of sequences and support threshold, find the
complete set of frequent subsequences

A sequence : < (ef) (ab) (df) c b >

A sequence database
SID sequence An element may contain a set of items.
10 <a(abc)(ac)d(cf)> Items within an element are unordered
and we list them alphabetically.
20 <(ad)c(bc)(ae)>
30 <(ef)(ab)(df)cb> <a(bc)dc> is a subsequence
40 <eg(af)cbc> of <a(abc)(ac)d(cf)>

Given support threshold min_sup =2, <(ab)c> is a

sequential pattern
BITS Pilani, Hyderabad Campus
Challenges in Data Mining

• Tremendous amount of data

• Algorithms must be highly scalable to handle such as
tera-bytes of data
• High-dimensionality of data
• Micro-array may have tens of thousands of
dimensions • High complexity of data
• Noisy and unreliable
• Dynamically evolving
• High dimensionality
• Multiple heterogeneous sources
• New and sophisticated applications

BITS Pilani, Hyderabad Campus

Teaching and Evaluation for
BITS F415 – L P U 3 0 3
Evaluation Scheme:
Nature of
Component Duration Weightage (%)
Component
Mid Term Exam 90 Mins. 25 Closed Book
Quizzes (Three) 30 Mins 15 Closed Book
Assignments -- 25 Open Book
Comprehensive 3 Hours 35 Closed Book

Chamber Consultation Hour: Mon 8th hour

Notices: All notices pertaining to this course will be displayed on the CMS/ CSIS Notice
Board.

Make-up Policy: Prior Permission is must and Make-up shall be granted only in genuine
cases based on individual’s need, circumstances. The recommendation from chief warden is
necessary to request for a make-up.
BITS Pilani, Hyderabad Campus
Books

TEXT BOOK REFERENCE BOOKS

BITS Pilani, Hyderabad Campus

Take home message

• Data Mining refers to non-trivial extraction of implicit,

previously unknown and potentially useful knowledge from
data
• Data Mining covers topics including warehousing,
association analysis, clustering, classification, anomaly
detection, etc. (based on the type of mined knowledge), as
well as transaction data mining, stream data mining,
sequence data mining, graph data mining, etc. (based on
the type of data)
• Data Mining has wide applications in many different fields in
business, science, engineering, education, and many more

BITS Pilani, Hyderabad Campus

Data Mining Overview at BITS Pilani
No ratings yet
Data Mining Overview at BITS Pilani
21 pages
Data Mining Course Overview at BITS Pilani
No ratings yet
Data Mining Course Overview at BITS Pilani
24 pages
Understanding Data Types and Quality
No ratings yet
Understanding Data Types and Quality
33 pages
Understanding Data Mining Attributes
No ratings yet
Understanding Data Mining Attributes
56 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
434 pages
Understanding Data Types and Quality Issues
No ratings yet
Understanding Data Types and Quality Issues
83 pages
Data Mining Overview and Applications
No ratings yet
Data Mining Overview and Applications
27 pages
Data Science Foundations at BITS Pilani
No ratings yet
Data Science Foundations at BITS Pilani
53 pages
Extended Association Rule Mining
No ratings yet
Extended Association Rule Mining
22 pages
Foundations of Data Science Overview
No ratings yet
Foundations of Data Science Overview
33 pages
Understanding Data Attributes and Types
No ratings yet
Understanding Data Attributes and Types
54 pages
DM Session 2
No ratings yet
DM Session 2
37 pages
Data Mining Fundamentals at BITS Pilani
No ratings yet
Data Mining Fundamentals at BITS Pilani
18 pages
ML CS02
No ratings yet
ML CS02
63 pages
Understanding Data Science Fundamentals
No ratings yet
Understanding Data Science Fundamentals
86 pages
DM CS 4 Classification (14JAN2026)
No ratings yet
DM CS 4 Classification (14JAN2026)
103 pages
CRISP-DM Framework Overview
No ratings yet
CRISP-DM Framework Overview
29 pages
Data Mining: Attributes and Datasets
No ratings yet
Data Mining: Attributes and Datasets
103 pages
Machine Learning Course Overview
No ratings yet
Machine Learning Course Overview
88 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
16 pages
Supervised vs. Unsupervised Learning
No ratings yet
Supervised vs. Unsupervised Learning
52 pages
Overview of Data Mining Concepts
No ratings yet
Overview of Data Mining Concepts
40 pages
AI & ML Basics for Cyber Security
No ratings yet
AI & ML Basics for Cyber Security
66 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
62 pages
Ensemble Learning Overview
No ratings yet
Ensemble Learning Overview
124 pages
Data Mining Techniques and Algorithms
No ratings yet
Data Mining Techniques and Algorithms
47 pages
Data Mining and Business Intelligence Course
No ratings yet
Data Mining and Business Intelligence Course
4 pages
Introduction to Data Mining Course
No ratings yet
Introduction to Data Mining Course
710 pages
Comparative Study of Data Mining Tools
No ratings yet
Comparative Study of Data Mining Tools
8 pages
Data Warehousing and Mining Overview
No ratings yet
Data Warehousing and Mining Overview
118 pages
Advanced Data Mining Overview
No ratings yet
Advanced Data Mining Overview
39 pages
Data Mining I Course Guidelines
No ratings yet
Data Mining I Course Guidelines
3 pages
DM CS 3 Data Description (08JAN2026)
No ratings yet
DM CS 3 Data Description (08JAN2026)
76 pages
Data Mining Course Overview 2023-24
No ratings yet
Data Mining Course Overview 2023-24
4 pages
Data Warehousing in Data Mining
No ratings yet
Data Warehousing in Data Mining
5 pages
Data Mining Course Overview
No ratings yet
Data Mining Course Overview
406 pages
k-NN Algorithm Distance Computation
No ratings yet
k-NN Algorithm Distance Computation
14 pages
Data Mining Fundamentals and Techniques
No ratings yet
Data Mining Fundamentals and Techniques
16 pages
Overview of Data Mining Models
No ratings yet
Overview of Data Mining Models
4 pages
Business Intelligence and Data Mining Overview
No ratings yet
Business Intelligence and Data Mining Overview
7 pages
Data Mining Techniques and History
No ratings yet
Data Mining Techniques and History
43 pages
Overview of Data Mining Tools & Techniques
No ratings yet
Overview of Data Mining Tools & Techniques
22 pages
Data Mining: Challenges and Techniques
No ratings yet
Data Mining: Challenges and Techniques
27 pages
BCA Data Mining Syllabus Overview
No ratings yet
BCA Data Mining Syllabus Overview
116 pages
Data Mining I: Syllabus Overview
No ratings yet
Data Mining I: Syllabus Overview
126 pages
Overview of Data Mining Processes
No ratings yet
Overview of Data Mining Processes
13 pages
AI & ML Basics for Cyber Security
No ratings yet
AI & ML Basics for Cyber Security
73 pages
Data Mining Course Plan - SRM University
No ratings yet
Data Mining Course Plan - SRM University
5 pages
Data Mining Techniques and Applications
No ratings yet
Data Mining Techniques and Applications
96 pages
Data Mining
100% (1)
Data Mining
53 pages
Understanding Data Objects and Attributes
No ratings yet
Understanding Data Objects and Attributes
45 pages
Data Mining Overview and Applications
No ratings yet
Data Mining Overview and Applications
272 pages
Data Similarity and Dissimilarity Measures
No ratings yet
Data Similarity and Dissimilarity Measures
17 pages
Applied Machine Learning Overview
No ratings yet
Applied Machine Learning Overview
239 pages
Data Mining Techniques and Tasks Explained
No ratings yet
Data Mining Techniques and Tasks Explained
17 pages
ME 781: Data Mining Overview
No ratings yet
ME 781: Data Mining Overview
27 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
9 pages
Predicting Student Performance with Data Mining
No ratings yet
Predicting Student Performance with Data Mining
5 pages
Data Mining Techniques and Processes
No ratings yet
Data Mining Techniques and Processes
16 pages
CMSC 451 Midterm Exam Solutions
No ratings yet
CMSC 451 Midterm Exam Solutions
5 pages
Context Free Grammars in CS F351
No ratings yet
Context Free Grammars in CS F351
17 pages
Computer Arithmetic in Sysc 3320
No ratings yet
Computer Arithmetic in Sysc 3320
11 pages
Finite Automata Overview in Kannada
No ratings yet
Finite Automata Overview in Kannada
14 pages
Alphabets in Theory of Computation
No ratings yet
Alphabets in Theory of Computation
16 pages
Class 10 Science Cbse
75% (8)
Class 10 Science Cbse
265 pages
Fenequito vs. Vergara, JR., 677 SCRA 113, July 18, 2012
No ratings yet
Fenequito vs. Vergara, JR., 677 SCRA 113, July 18, 2012
10 pages
Easy Indian Cooking 101 Fresh Feisty Indian Recipes Hari Nayak Ebook Testbank Solutions Downloadable Reading Pack
100% (4)
Easy Indian Cooking 101 Fresh Feisty Indian Recipes Hari Nayak Ebook Testbank Solutions Downloadable Reading Pack
81 pages
Verbos Auxiliares
No ratings yet
Verbos Auxiliares
7 pages
BNSS 2023: Criminal Procedure Overview
No ratings yet
BNSS 2023: Criminal Procedure Overview
45 pages
Testbank for Marriages & Families 3rd Ed.
No ratings yet
Testbank for Marriages & Families 3rd Ed.
18 pages
Carrier's Legal Liability Insurance Form
No ratings yet
Carrier's Legal Liability Insurance Form
2 pages
2023 AMC8 Mock Exam Solutions
No ratings yet
2023 AMC8 Mock Exam Solutions
7 pages
Context Clues: Analogy & Appositive
No ratings yet
Context Clues: Analogy & Appositive
7 pages
Shklovsky's Art as Technique Explained
No ratings yet
Shklovsky's Art as Technique Explained
9 pages
Narrative Baking Experiences
No ratings yet
Narrative Baking Experiences
4 pages
Medieval Church's Role in Society
No ratings yet
Medieval Church's Role in Society
3 pages
LTE RF Channel Troubleshooting Guide
100% (2)
LTE RF Channel Troubleshooting Guide
36 pages
Loreche vs. Cagayan De Oro Medical Center
100% (1)
Loreche vs. Cagayan De Oro Medical Center
1 page
Sentence Composition Exercises
No ratings yet
Sentence Composition Exercises
4 pages
Multimedia in 20th-21st Century Musicals
No ratings yet
Multimedia in 20th-21st Century Musicals
4 pages
Level 1 Grammar Exercises: Past Simple
No ratings yet
Level 1 Grammar Exercises: Past Simple
1 page
Exploring Pokhara's Attractions
No ratings yet
Exploring Pokhara's Attractions
30 pages
Choral Canons and Rounds Collection
No ratings yet
Choral Canons and Rounds Collection
10 pages
Benefits of Surah Bani Israel Insights
100% (2)
Benefits of Surah Bani Israel Insights
72 pages
Lasoy v Zenarosa Case Digest Summary
100% (1)
Lasoy v Zenarosa Case Digest Summary
1 page
Comparative Mythology Course Overview
No ratings yet
Comparative Mythology Course Overview
5 pages
Bioinformatics Centers in India
No ratings yet
Bioinformatics Centers in India
8 pages
14 Principles for Loving God Daily
No ratings yet
14 Principles for Loving God Daily
2 pages
Neues Museum - Exhibition Guide - Sherrie Levine. After All
No ratings yet
Neues Museum - Exhibition Guide - Sherrie Levine. After All
48 pages
Extension Work Project Report 2023-24
No ratings yet
Extension Work Project Report 2023-24
6 pages
Pathfinder 2E Archives Update Summary
0% (1)
Pathfinder 2E Archives Update Summary
4 pages
Noun Revision Activities for Kids
No ratings yet
Noun Revision Activities for Kids
23 pages
Chronological List of Constitutional Cases LEAC 1171069
100% (1)
Chronological List of Constitutional Cases LEAC 1171069
39 pages
Understanding Projectile Motion
No ratings yet
Understanding Projectile Motion
46 pages
Graduate Tracer Study in Civil Engineering
73% (15)
Graduate Tracer Study in Civil Engineering
59 pages

Introduction to Data Mining Concepts

Uploaded by

Introduction to Data Mining Concepts

Uploaded by

BITS Pilani

Data Mining - Introduction

• Define what is Data Mining

• List the Steps/Phases involved in data Mining

• Compare DBMS,OLAP and Data Mining

• List the Predictive and Descriptive Data Mining Tasks

BITS Pilani, Hyderabad Campus

BITS Pilani, Hyderabad Campus

BITS Pilani, Hyderabad Campus

BITS Pilani, Hyderabad Campus

Searching for knowledge

BITS Pilani, Hyderabad Campus

• Alternative names – Knowledge discovery (mining) in

BITS Pilani, Hyderabad Campus

Objective is to predict the value of a particular

Data Outlier Detection

Tid Home Marital Taxable Home Marital Taxable

1 Yes Single 125K No No Single 75K ?

2 No Married 100K No Yes Married 50K ?

3 No Single 70K No No Married 150K ?

BITS Pilani, Hyderabad Campus

• Find a model for class attribute as a function of the values

• Goal: previously unseen records should be assigned a

• For classification the output(s) is nominal

• In regression the output is continuous

• Many models could be used – Simplest is linear regression

– Fit data with the best hyper-plane which "goes through"

x – independent variable (input)

BITS Pilani, Hyderabad Campus

BITS Pilani, Hyderabad Campus

A sequence : < (ef) (ab) (df) c b >

Given support threshold min_sup =2, <(ab)c> is a

• Tremendous amount of data

BITS Pilani, Hyderabad Campus

Chamber Consultation Hour: Mon 8th hour

TEXT BOOK REFERENCE BOOKS

BITS Pilani, Hyderabad Campus

• Data Mining refers to non-trivial extraction of implicit,

BITS Pilani, Hyderabad Campus

You might also like