0% found this document useful (0 votes)

60 views

NGDM07 Philip Yu

This document discusses approximate frequent pattern mining from noisy data. It begins by reviewing traditional frequent pattern mining algorithms like Apriori and FPgrowth. It then describes some limitations of these algorithms, namely that real-world data contains noise that can distort true frequent patterns. It proposes an alternative "core pattern" approach that allows for errors in the data matrix but still aims to discover true underlying patterns. The key ideas of this approximate approach are introduced, including using minimum support, row error rate and column error rate as constraints. An example is provided to illustrate how an approximate frequent itemset may be discovered from a noisy database under these constraints. Finally, the document outlines how a lattice structure could be used to efficiently discover these approximate frequent patterns from

Uploaded by

api-3798592

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

60 views

NGDM07 Philip Yu

Uploaded by

api-3798592

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 22

Approximate Frequent

Pattern Mining
Philip S. Yu1, Xifeng Yan1, Jiawei Han2,
Hong Cheng2, Feida Zhu2
1
IBM T.J.Watson Research Center
2
University of Illinois at Urbana-
Champaign
Frequent Pattern Mining
 Frequent pattern mining has been studied for over a decade
with tons of algorithms developed
 Apriori (SIGMOD’93, VLDB’94, …)
 FPgrowth (SIGMOD’00), EClat, LCM, …
 Extended to sequential pattern mining, graph mining, …
 GSP, PrefixSpan, CloSpan, gSpan, …
 Applications: Dozens of interesting applications explored
 Association and correlation analysis
 Classification (CBA, CMAR, …, discrim. feature analysis)
 Clustering (e.g., micro-array analysis)
 Indexing (e.g. g-Index)
The Problem of Frequent
Itemset Mining
 First proposed by Agrawal et al. in 1993 [AIS93].
Itemset X = {x1, …, xk}
Transaction-id Items bought
Given a minimum support s,
10 A, B, C
20 A discover all itemsets X,
30 A, B, C, D s.t. sup(X) >= s
40 C, D  sup(X) is the percentage of
50 A, B
60 A, C, D
transactions containing X
 If s=40%, X={A,B} is a
70 B, C, D
frequent itemset since
Table 1. A sample
transaction database D sup(X)=3/7 > 40%
A Binary Matrix Representation
 We can also use a A B C D
binary matrix to 10 1 1 1 0
represent a transaction 20 1 0 0 0
database.
30 1 1 1 1
 Row: Transactions
40 0 0 1 1
 Column: Items
 Entry: Presence/absence 50 1 1 0 0
of an item in a 60 1 0 1 1
transaction
70 0 1 1 1

Table 2. Binary
representation of D
A Noisy Data Model
 A noise free data model
 Assumption made by all the above algorithms
 A noisy data model
 Real world data is subject to random noise and measurement
error. For example:
 Promotions
 Special events
 Out-of-stock items or overstocked items
 Measurement imprecision
 The true frequent itemsets could be distorted by such noise.
 The exact itemset mining algorithms will discover multiple
fragmented itemsets, but miss the true ones.
Itemsets With and Without
Noise Exact mining algorithms
get fragmented itemsets!

Itemset B Itemset B
Transactions

Itemset A Transactions Itemset A

Items Items

Figure1(a). Itemset Figure 1(b). Itemset

without noise with noise
Alternative Models
 Existence of core patterns
 I.E., even under noise, the original pattern can still
appear with high probability
 Only summary patterns can be derived
 Summary pattern may not even appear in the
database
The Core Pattern Approach
 Core Pattern Definition
 An itemset x is a core pattern if its exact support in the
noisy database satisfies
sup( x) ≥ α ⋅ min sup,0 ≤ α ≤ 1
 If an approximate itemset is interesting, it is with
high probability that it is a core pattern in the noisy
database. Therefore, we could discover the
approximate itemsets from only the core patterns.
 Besides the core pattern constraint, we use the
constraints of minimum support, ε r , and ε c , as in
[LPS+06].
Approximate Itemset Example
 Let ε r = 0.25 and ε c = 0.25
A B C D
 For <ABCD>, its exact
support = 1; 10 1 1 1 0
 By allowing a fraction of 1 0 0 0
20
ε r = 0.25
30 1 1 1 1
40 0 0 1 1
50 1 1 0 0
noise in a row, 1 0 1 1
60
transaction 10, 30, 60,
0 1 1 1
ε70c
all0approximately
=
<ABCD>;
.25 support 70

 For each item in <ABCD>,

in the transaction set {10,
30, 60, 70}, a fraction of
The Approximate Frequent
Itemset Mining Approach
 Intuition
 Discover approximate itemsets by allowing “holes” in the
matrix representation.
 Constraints
 Minimum support s: the percentage of transactions
containing an itemset
 Row error rate ε r : the percentage of 0s (item) allowed in
each transaction
 Column error rate ε c : the percentage of 0s allowed in
transaction set for each item
Algorithm Outlines
 Mine core patterns using
min sup' = α ⋅ min sup,0 ≤ α ≤ 1
 Build a lattice of the core patterns
 Traverse the lattice to compute the approximate
itemsets
A Running Example
 Let the database be
A B C D
D, ε r = 0.5, ε c = 0.5,
1 1 1 0
s=3, and α = 13 10
20 1 0 0 0
null:7 Level 0
30 1 1 1 1
a:5 b:4 c:5 d:4 Level 1
40 0 0 1 1
ab:3 ac:3 ad:2 bc:3 bd:2 cd:4 Level 2 50 1 1 0 0
60 1 0 1 1
Level 3
abc:2 abd:1 acd:2 bcd:2 70 0 1 1 1
abcd:1 Level 4
Database D
The Lattice of Core Patterns
Microarray → Co-Expression Network

Coexpression
Microarray Module
Network

conditions
MCM7NASP
MCM3
genes

FEN1
UNG

CCNB1 SNRPG
CDC2

• noise edges
Two Issues:
• large scale
Mining Poor Quality Data

Patterns discovered in multiple graphs are more reliable and significant

transform graph mining
dense
vertexset

.. .. ..
. . .
Transcriptional
Annotation

~9000 genes 105 x ~(9000 x 9000) = 8 billion edges

Summary Graph: Concept

..
.

overlap clustering

Scale Down
M networks ONE graph
Summary Graph: Noise Edges

Frequent dense dense subgraphs in

vertexsets
? summary graph

 Dense subgraphs are accidentally formed by

noise edges
 They are false frequent dense vertexsets

 Noise edges will also interfere with true

modules
Unsupervised Partition: Find a
Subset seed
clustering mining
together
(1)

identify group
..
.
(2) (3)
Frequent Approximate Substrinng

ATCCGCACAGGTCAGT AGCA
Limitation on Mining Frequent Patterns:
Mine Very Small Patterns!

 Can we mine large (i.e., colossal) patterns? ― such as just size

around 50 to 100? Unfortunately, not!
 Why not? ― the curse of “downward closure” of frequent patterns
 The “downward closure” property
 Any sub-pattern of a frequent pattern is frequent.
 Example. If (a1, a2, …, a100) is frequent, then a1, a2, …, a100, (a1, a2), (a1,
a3), …, (a1, a100), (a1, a2, a3), … are all frequent! There are about 2100
such frequent itemsets!
 No matter using breadth-first search (e.g., Apriori) or depth-first search
(FPgrowth), we have to examine so many patterns
 Thus the downward closure property leads to explosion!
Do We Need Mining Colossal Patterns?
 From frequent patterns to closed patterns and maximal patterns
 A frequent pattern is closed if and only if there exists no super-pattern
that is both frequent and has the same support
 A frequent pattern is maximal if and only if there exists no frequent
super-pattern
 Closed/maximal patterns may partially alleviate the problem but not
really solve it: We often need to mine scattered large patterns!
 Many real-world mining tasks needs mining colossal patterns
 Micro-array analysis in bioinformatics (when support is low)
 Biological sequence patterns
 Biological/sociological/information graph pattern mining
Colossal Pattern Mining Philosophy
 No hope for completeness
 If the mining of mid-sized patterns is explosive in size,
there is no hope to find colossal patterns efficiently by
insisting “complete set” mining philosophy
 Jumping out of the swamp of the mid-sized results
 What we may develop is a philosophy that may jump
out of the swamp of mid-sized results that are
explosive in size and jump to reach colossal patterns
 Striving for mining almost complete colossal patterns
 The key is to develop a mechanism that may quickly
reach colossal patterns and discover most of them
Conclusions
 Most previous work focused on finding exact
frequent patterns
 There exists a discrepancy between the exact model
and some real world phenomenon due to
 Noise, perturbation, etc
 Very long pattern mining can be another prohibiting
problem
 Need to develop new methodologies to find
approximate frequent patterns

AI Programming CAT 1 N CAT 2 Muchiri
0% (1)
AI Programming CAT 1 N CAT 2 Muchiri
14 pages
What Is Frequent Pattern Analysis?
No ratings yet
What Is Frequent Pattern Analysis?
37 pages
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
No ratings yet
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
30 pages
06 Apriori
No ratings yet
06 Apriori
36 pages
CS 412 Intro. To Data Mining
No ratings yet
CS 412 Intro. To Data Mining
55 pages
Chap4-PatternMiningBasic
No ratings yet
Chap4-PatternMiningBasic
52 pages
Chap4 PatternMiningBasic
No ratings yet
Chap4 PatternMiningBasic
52 pages
Data Mining Session 6 - Main Theme Mining Frequent Patterns, Association, and Correlations Dr. Jean-Claude Franchitti
No ratings yet
Data Mining Session 6 - Main Theme Mining Frequent Patterns, Association, and Correlations Dr. Jean-Claude Franchitti
66 pages
Updated Module 3
No ratings yet
Updated Module 3
31 pages
Httpsmygju.gju.Edu.jofacescourse Portfoliocourse Syllabuscourse Syllabus.xhtml 2
No ratings yet
Httpsmygju.gju.Edu.jofacescourse Portfoliocourse Syllabuscourse Syllabus.xhtml 2
15 pages
Unit 3
No ratings yet
Unit 3
62 pages
06 FPBasic
No ratings yet
06 FPBasic
37 pages
Unit2 Apriori FP Growth
No ratings yet
Unit2 Apriori FP Growth
27 pages
06 FPBasic
No ratings yet
06 FPBasic
59 pages
M9 Asosiasi
No ratings yet
M9 Asosiasi
58 pages
Lecture_4
No ratings yet
Lecture_4
76 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
65 pages
Association
No ratings yet
Association
40 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
65 pages
Powerpoint Presentation On Somlething
No ratings yet
Powerpoint Presentation On Somlething
181 pages
P8 FPBasic
No ratings yet
P8 FPBasic
53 pages
Week 3
No ratings yet
Week 3
56 pages
Apriori Based Novel Frequent Itemset Mining Mechanism: Issn No
No ratings yet
Apriori Based Novel Frequent Itemset Mining Mechanism: Issn No
8 pages
Frequent Itemset Mining
No ratings yet
Frequent Itemset Mining
58 pages
FP Tree Basics
No ratings yet
FP Tree Basics
67 pages
06 FPBasic
No ratings yet
06 FPBasic
69 pages
Mining Frequent Patterns, Associations and Correlations: Basic Concepts and Methods
No ratings yet
Mining Frequent Patterns, Associations and Correlations: Basic Concepts and Methods
20 pages
2007 Jiawei Han FP Mining
No ratings yet
2007 Jiawei Han FP Mining
32 pages
Data Mining - : Dr. Mahmoud Mounir Mahmoud - Mounir@cis - Asu.edu - Eg
No ratings yet
Data Mining - : Dr. Mahmoud Mounir Mahmoud - Mounir@cis - Asu.edu - Eg
26 pages
Dami Lecture4
No ratings yet
Dami Lecture4
34 pages
06 FPBasic
No ratings yet
06 FPBasic
65 pages
dm 2
No ratings yet
dm 2
71 pages
06Apriori Edited v3
No ratings yet
06Apriori Edited v3
29 pages
Frequent Pattern Based Clustering Methods
No ratings yet
Frequent Pattern Based Clustering Methods
23 pages
DM-BS-lec6-Mining Frequent Patterns
No ratings yet
DM-BS-lec6-Mining Frequent Patterns
37 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
67 pages
Module 3
No ratings yet
Module 3
136 pages
frequent pattern mining
No ratings yet
frequent pattern mining
2 pages
Concepts and Techniques: - Chapter 6
No ratings yet
Concepts and Techniques: - Chapter 6
64 pages
Association Rules
No ratings yet
Association Rules
48 pages
Mining Frequent Patterns and Associations
No ratings yet
Mining Frequent Patterns and Associations
52 pages
Slide 06 Chapter6 Frequent Itemset Mining Methods
No ratings yet
Slide 06 Chapter6 Frequent Itemset Mining Methods
62 pages
06 Association Rule Mining
No ratings yet
06 Association Rule Mining
20 pages
5 DM Association
No ratings yet
5 DM Association
27 pages
DWDWM Unit2
No ratings yet
DWDWM Unit2
59 pages
04 FPbasic
No ratings yet
04 FPbasic
78 pages
Veloso Sbac03
No ratings yet
Veloso Sbac03
8 pages
What Is Frequent Pattern Analysis?
No ratings yet
What Is Frequent Pattern Analysis?
5 pages
DM UNIT-2
No ratings yet
DM UNIT-2
14 pages
Unit_3 Mining Frequent Patterns
No ratings yet
Unit_3 Mining Frequent Patterns
10 pages
KDDM-Lecture 3
No ratings yet
KDDM-Lecture 3
21 pages
apriori
No ratings yet
apriori
33 pages
Association Rules
No ratings yet
Association Rules
20 pages
Unit 3
No ratings yet
Unit 3
44 pages
Slides 06FPBasic
No ratings yet
Slides 06FPBasic
30 pages
5 Frequent Pattern Mining
No ratings yet
5 Frequent Pattern Mining
44 pages
DM Lect7
No ratings yet
DM Lect7
26 pages
Notes 4 DWM Data Mining
No ratings yet
Notes 4 DWM Data Mining
34 pages
DWDM - Unit - IV
No ratings yet
DWDM - Unit - IV
67 pages
Association Rule Mining
No ratings yet
Association Rule Mining
54 pages
How To Code For Quantum Computers
From Everand
How To Code For Quantum Computers
Nivio Dos Santos
No ratings yet
Ngdm07 Singh
No ratings yet
Ngdm07 Singh
30 pages
Acquisti NGDM
No ratings yet
Acquisti NGDM
47 pages
NGDM Senator 071011 DM
No ratings yet
NGDM Senator 071011 DM
17 pages
Bhavani NSF NGDM Oct2007 Short
No ratings yet
Bhavani NSF NGDM Oct2007 Short
15 pages
Xindong Wu NGDM07
No ratings yet
Xindong Wu NGDM07
32 pages
Alok Choudhary NGDM07 Panel Talk
No ratings yet
Alok Choudhary NGDM07 Panel Talk
16 pages
Innovation NSF Baltimore Oct 2007 Kusiak
No ratings yet
Innovation NSF Baltimore Oct 2007 Kusiak
31 pages
NGDM 10
No ratings yet
NGDM 10
8 pages
Architecture Conscious Data Mining: Srinivasan Parthasarathy Data Mining Research Lab Ohio State University
No ratings yet
Architecture Conscious Data Mining: Srinivasan Parthasarathy Data Mining Research Lab Ohio State University
16 pages
HumanGeneFinding-NGDM2007 Salzberg
No ratings yet
HumanGeneFinding-NGDM2007 Salzberg
31 pages
Finin NGDM Panel
No ratings yet
Finin NGDM Panel
17 pages
Ngdm07 Joshi
No ratings yet
Ngdm07 Joshi
80 pages
NGDM07v1 Wei Wang
No ratings yet
NGDM07v1 Wei Wang
26 pages
Agouris
No ratings yet
Agouris
8 pages
NGDM Talk Kargupta2
No ratings yet
NGDM Talk Kargupta2
22 pages
Data Mining Foster
No ratings yet
Data Mining Foster
26 pages
Grossman Ngdm07
No ratings yet
Grossman Ngdm07
35 pages
Marc Snir NGDM07
No ratings yet
Marc Snir NGDM07
36 pages
NGDM Talia
No ratings yet
NGDM Talia
58 pages
InformationDiscoveryEMR-NGDM2007 Vagelis
No ratings yet
InformationDiscoveryEMR-NGDM2007 Vagelis
21 pages
Nasraoui-Market-Based Decentralized Profile Infrastructure
100% (1)
Nasraoui-Market-Based Decentralized Profile Infrastructure
20 pages
Unit 2 Bayesian Learning
No ratings yet
Unit 2 Bayesian Learning
50 pages
Fuzzy Model-Based Robust Controller Design For Hydrofoil Catamaran
No ratings yet
Fuzzy Model-Based Robust Controller Design For Hydrofoil Catamaran
6 pages
1.final DiscreteLabManual S Shah
No ratings yet
1.final DiscreteLabManual S Shah
27 pages
Differential Cryptanalysis 1
No ratings yet
Differential Cryptanalysis 1
36 pages
PGPF 04 019 Kancharapu Akhil Kumar CF Assignmnet
No ratings yet
PGPF 04 019 Kancharapu Akhil Kumar CF Assignmnet
59 pages
Module 5:backtracking
No ratings yet
Module 5:backtracking
32 pages
Marketing Analytics: No Document Allowed
No ratings yet
Marketing Analytics: No Document Allowed
3 pages
Overview of Supervised Learning
No ratings yet
Overview of Supervised Learning
41 pages
Stability Analysis Euler PDF
No ratings yet
Stability Analysis Euler PDF
4 pages
Predictive Analytics of Lithium Ion Battery For Optimization and Battery Failure Using Machine Learning Algorithms
No ratings yet
Predictive Analytics of Lithium Ion Battery For Optimization and Battery Failure Using Machine Learning Algorithms
8 pages
5 Block Ciphers
No ratings yet
5 Block Ciphers
137 pages
The Preservation of Digital Signatures On The Blockchain
No ratings yet
The Preservation of Digital Signatures On The Blockchain
17 pages
Machine Learning in A Nutshell
No ratings yet
Machine Learning in A Nutshell
36 pages
Ch-1-AI-Project-Cycle-class-10-2025-26
No ratings yet
Ch-1-AI-Project-Cycle-class-10-2025-26
4 pages
Kmean
No ratings yet
Kmean
24 pages
CS1114 Section 6: Convolution
No ratings yet
CS1114 Section 6: Convolution
6 pages
Examination-Augijst, Examination Vlsi: Nol. All
No ratings yet
Examination-Augijst, Examination Vlsi: Nol. All
2 pages
2020 EDS Theory Notes
No ratings yet
2020 EDS Theory Notes
23 pages
General SISO Takagi-Sugeno Fuzzy Systems With Linear Rule Consequent Are Universal Approximators
No ratings yet
General SISO Takagi-Sugeno Fuzzy Systems With Linear Rule Consequent Are Universal Approximators
7 pages
New DSP Core For Digital Signal Processing: Digital and Analog Lee Seung Youl 2002/9/28
No ratings yet
New DSP Core For Digital Signal Processing: Digital and Analog Lee Seung Youl 2002/9/28
20 pages
Ec8352-Signals and Systems
No ratings yet
Ec8352-Signals and Systems
13 pages
Report
No ratings yet
Report
56 pages
3 Deterministic Queue Example
No ratings yet
3 Deterministic Queue Example
14 pages
Daa Unit I
No ratings yet
Daa Unit I
15 pages
Sem VII REV
No ratings yet
Sem VII REV
32 pages
STAT2 2e R Markdown Files Sec4.7
No ratings yet
STAT2 2e R Markdown Files Sec4.7
10 pages
CH 04 Transportation Assigmnment Edited SM
No ratings yet
CH 04 Transportation Assigmnment Edited SM
48 pages
The Tower of Babylon: Input
No ratings yet
The Tower of Babylon: Input
2 pages
Geovariances MPS
No ratings yet
Geovariances MPS
2 pages

NGDM07 Philip Yu

Uploaded by

NGDM07 Philip Yu

Uploaded by

Approximate Frequent

Itemset A Transactions Itemset A

Figure1(a). Itemset Figure 1(b). Itemset

 For each item in <ABCD>,

Patterns discovered in multiple graphs are more reliable and significant

~9000 genes 105 x ~(9000 x 9000) = 8 billion edges

Frequent dense dense subgraphs in

 Dense subgraphs are accidentally formed by

 Noise edges will also interfere with true

 Can we mine large (i.e., colossal) patterns? ― such as just size

You might also like