0% found this document useful (0 votes)

55 views

Blatt03 Sol

The document discusses frequent itemset mining and the Apriori and FP-growth algorithms. It provides definitions of key terms like items, itemsets, transactions, support. It then presents exercises involving proving properties of frequent itemsets, running the Apriori and FP-growth algorithms on a sample database, and finding closed and maximal frequent itemsets.

Uploaded by

Wafa'a AbdoIslam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

55 views

Blatt03 Sol

Uploaded by

Wafa'a AbdoIslam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 16

Database Systems Group • Prof. Dr.

Thomas Seidl

Exercise 3:
Frequent Itemset Mining
Knowledge Discovery in Databases I
SS 2016
Recap: Frequent Itemset Mining

Basic terms and definitions:

• Items 𝐼𝐼 = 𝑖𝑖1 , … , 𝑖𝑖𝑚𝑚 TID items

100 {butter, bread, milk, sugar}
• Itemset 𝑋𝑋 ⊆ 𝐼𝐼 200 {butter, flour, milk, sugar}
300 {butter, eggs, milk, salt}
• Database 𝐷𝐷 400 {eggs}
500 {butter, flour, milk, salt sugar}
• Transactions 𝑇𝑇

• Support: 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 = 𝑇𝑇 ∈ 𝐷𝐷 | 𝑋𝑋 ⊆ 𝑇𝑇
• Frequent Itemset: 𝑋𝑋 freq. iff 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

Goal: Find all frequent itemsets in 𝐷𝐷!

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 2
Recap: Frequent Itemset Mining

Naive Algorithm: Just count the frequencies of all

possible subsets of 𝐼𝐼 in the database.

• Problem: For 𝐼𝐼 = 𝑚𝑚, there are 2𝑚𝑚 such itemsets!

• Clearly, this becomes infeasible rather quickly…

ABCD not frequent

Main idea of the Apriori algorithm: ABC ABD ACD BCD

✗
AB AC AD BC BD CD
Prune the exponential search space
A B C D
using anti-monotonicity Ø

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 3

Exercise 3-1: Frequent Itemsets

The Apriori algorithm makes use of prior knowledge of

subset support properties. Prove the following subset
properties:
a) All non-empty subsets of a frequent itemset must
also be frequent.
b) The support of any non-empty subset 𝑆𝑆𝑆 of itemset 𝑆𝑆
must be as great as the support of 𝑆𝑆.

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 4

Exercise 3-1 (a): Frequent Itemsets

a) All non-empty subsets of a frequent itemset must

also be frequent:

Proof:
• Let 𝑆𝑆 ⊆ 𝐼𝐼 be a frequent itemset, i.e. 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑆𝑆 ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
• Let ∅ ≠ 𝑆𝑆 ′ ⊆ 𝑆𝑆
• Then
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑆𝑆 ′ ≥𝑏𝑏) 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑆𝑆
≥𝑆𝑆 𝑖𝑖𝑖𝑖 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓. 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
i.e. 𝑆𝑆𝑆 is a frequent itemset.

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 5

Exercise 3-1 (b): Frequent Itemsets

b) The support of any non-empty subset 𝑆𝑆𝑆 of itemset 𝑆𝑆

must be as great as the support of 𝑆𝑆.

Proof:
• Let ∅ ≠ 𝑆𝑆 ′ ⊆ 𝑆𝑆 ⊆ 𝐼𝐼
• For any transaction 𝑇𝑇 ⊆ 𝐼𝐼 in database 𝐷𝐷, we have:
𝑆𝑆 ⊆ 𝑇𝑇 ⇒ 𝑆𝑆𝑆 ⊆ 𝑇𝑇
• Thus, it holds that
𝑇𝑇 ∈ 𝐷𝐷 | 𝑆𝑆 ⊆ 𝑇𝑇 ⊆ 𝑇𝑇 ∈ 𝐷𝐷 | 𝑆𝑆𝑆 ⊆ 𝑇𝑇
and consequently
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑆𝑆 = 𝑇𝑇 ∈ 𝐷𝐷 | 𝑆𝑆 ⊆ 𝑇𝑇 ≤ 𝑇𝑇 ∈ 𝐷𝐷 | 𝑆𝑆𝑆 ⊆ 𝑇𝑇 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑆𝑆 ′ )

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 6

Exercise 3-2: Frequent Itemset Mining

Let 𝐷𝐷 be a database that contains the following four

transactions:
TID items_bought
T1 {K, A, D, B}
T2 {D, A, C, E, B}
T3 {C, A, B, E}
T4 {B, A, D}

In addition let 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 = 60%.

a) Find all frequent itemsets using the Apriori algorithm.
b) Find all frequent itemsets using the FP-growth
algorithm.
c) Determine all closed and maximal frequent itemsets.

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 7

Exercise 3-2 (a): Apriori Algorithm

minSup=0.6
database D C1 itemset sup L1 itemset sup
{A} 100% {A} 100%
TID items scan D {B} 100% {B} 100%
1 {K, A, D, B} {C} 50% {D} 75%
2 {D, A, C, E, B} {D} 75% 𝐿𝐿1 ⋈ 𝐿𝐿1
3 {C, A, B, E} {E} 50%
4 {B, A, D} {K} 25%

C2 itemset C2 itemset C2 itemset sup L2 itemset sup

{A B} prune C {A B} scan D {A B} 100% {A B} 100%
2
{A D} {A D} {A D} 75% {A D} 75%
{B D} {B D} {B D} 75% {B D} 75%

𝐿𝐿2 ⋈ 𝐿𝐿2
C3 itemset prune C3 C3 itemset scan D C3 itemset sup L3 itemset sup
{A B D} {A B D} {A B D} 75% {A B D} 75%

𝐿𝐿3 ⋈ 𝐿𝐿3
C4 is empty
Knowledge Discovery in Databases I: Exercise 3 13.05.2016 8
Recap: FP-Growth Algorithm

Bottleneck of Apriori: Candidate generation

• Huge candidate set

• Multiple scans of the database

FP-Growth: FP-mining without candidate generation

• Compress database, retain only information relevant

to FP-mining: FP-tree
• Use efficient Divide & Conquer approach and grow
frequent patterns without generating candidate sets

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 9

Exercise 3-2 (b): FP-Growth Algorithm

TID items bought (ordered) frequent items

1 {K, A, D, B} {A, B, D}
2 {D, A, C, E, B} {A, B, D}
3 {C, A, B, E} {A, B}
Initial FP-tree
4 {B, A, D} {A, B, D}

for each transaction only keep

{}
minSup=0.6 its frequent items sorted in
descending order of their
frequencies A:4
sort header table:
items in item frequency B:4
the order of A 4
descending support B 4
D 3 D:3
C 2
E 2
K 1

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 10

Exercise 3-2 (b): FP-Growth Algorithm

Initial FP-tree conditional pattern base:

item cond. pattern base
{} A {}
B A:4
D AB:3
A:4
item frequency
item frequency
A 4 B:4 A 3
B 4
B 3
D 3
C 2 D:3
E 2
K 1 D-conditional FP-tree
{}|D {}|B {}|A={}
{{A}}
A:3 A:4
{{B},{AB}}
B:3
{{D},{AD},{BD},{ABD}}
Knowledge Discovery in Databases I: Exercise 3 13.05.2016 11
Exercise 3-2 (c): Closed and Maximal
Frequent Itemsets

• Closed frequent itemsets:

• 𝑋𝑋 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 ⇔ ∄𝑌𝑌: 𝑋𝑋 ⊂ 𝑌𝑌 ∧ 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑌𝑌 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋)
• Set of closed itemsets contains complete information

• Maximal frequent itemsets:

• 𝑋𝑋 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 ⇔ ∄𝑌𝑌: 𝑋𝑋 ⊂ 𝑌𝑌 ∧ 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑌𝑌 ≥ 𝑚𝑚𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖
• Not complete, but more compact

frequent itemsets support

{A} 1
TID items_bought
{B} 1
T1 {K, A, D, B}
{D} 0.75
T2 {D, A, C, E, B}
closed but not maximal {A,B} 1
T3 {C, A, B, E}
{A,D} 0.75
T4 {B, A, D}
{B,D} 0.75
closed & maximal {A,B,D} 0.75

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 12

Recap: Association Rule Mining

Association rule:
𝑋𝑋 ⇒ 𝑌𝑌
where 𝑋𝑋, 𝑌𝑌 ⊆ 𝐼𝐼 are two itemsets with 𝑋𝑋 ∩ 𝑌𝑌 = ∅.

• 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 ⇒ 𝑌𝑌 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋 ∪ 𝑌𝑌)

𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋∪𝑌𝑌)
• 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋 ⇒ 𝑌𝑌 =
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋)
• Strong association rules have 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 and
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

Goal: Find all strong association rules in 𝐷𝐷!

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 13

Exercise 3-3: Association Rule Mining

After frequent itemset mining, association rules can be

extracted as follows: For each frequent itemset 𝑋𝑋 and
every non-empty subset 𝑌𝑌 ⊂ 𝑋𝑋, generate a rule 𝑌𝑌 ⇒
𝑋𝑋 ∖ 𝑌𝑌 if it fulfills the minimum confidence property.

a) Proof the following anti-monotonicity lemma for

strong association rules:

Let 𝑋𝑋 be a frequent itemset and 𝑌𝑌 ⊂ 𝑋𝑋. If 𝑌𝑌 ⇒ 𝑋𝑋 ∖ 𝑌𝑌 is a

strong association rule, then 𝑌𝑌 ′ ⇒ 𝑋𝑋 ∖ 𝑌𝑌𝑌 is also a
strong association rule for every 𝑌𝑌 ⊆ 𝑌𝑌𝑌.

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 14

Exercise 3-3 (a): Association Rule Mining

Let 𝑋𝑋 be a frequent itemset and 𝑌𝑌 ⊂ 𝑋𝑋. If 𝑌𝑌 ⇒ 𝑋𝑋 ∖ 𝑌𝑌 is a

strong association rule, then 𝑌𝑌 ′ ⇒ 𝑋𝑋 ∖ 𝑌𝑌𝑌 is also a
strong association rule for every 𝑌𝑌 ⊆ 𝑌𝑌𝑌.

Proof:
• 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑌𝑌 ′ ⇒ 𝑋𝑋 ∖ 𝑌𝑌 ′ = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋
≥ 𝑋𝑋 𝑖𝑖𝑖𝑖 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓. 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋
• 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑌𝑌 ′ ⇒ 𝑋𝑋 ∖ 𝑌𝑌 ′ =
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑌𝑌 ′

𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋
≥3−1 𝑏𝑏
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑌𝑌

= 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑌𝑌 ⇒ 𝑋𝑋 ∖ 𝑌𝑌
≥𝑌𝑌⇒𝑋𝑋∖𝑌𝑌 𝑖𝑖𝑖𝑖 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 15

Exercise 3-3 (b): Association Rule Mining

b) Extract all strong association rules from the

database 𝐷𝐷 provided in the previous exercise with a
minimum confidence of 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 = 80%. Which
candidate rules can be pruned based on anti-
monotonicity?
candidate rule confidence
𝑨𝑨 ⇒ 𝑩𝑩 1 ✔
frequent itemsets support
𝑩𝑩 ⇒ 𝑨𝑨 1 ✔
{A} 1
𝑨𝑨 ⇒ 𝑫𝑫 0.75 ✗
{B} 1
𝑫𝑫 ⇒ 𝑨𝑨 1 ✔
✗
{D} 0.75
𝑩𝑩 ⇒ 𝑫𝑫 0.75
{A,B} 1
𝑫𝑫 ⇒ 𝑩𝑩 1 ✔
{A,D} 0.75
𝑨𝑨, 𝑩𝑩 ⇒ 𝑫𝑫 0.75 ✗
{B,D} 0.75
𝑨𝑨, 𝑫𝑫 ⇒ 𝑩𝑩 1 ✔
{A,B,D} 0.75
𝑩𝑩, 𝑫𝑫 ⇒ 𝑨𝑨 1 ✔
𝐴𝐴 ⇒ 𝐵𝐵, 𝐷𝐷 and 𝐵𝐵 ⇒ 𝐴𝐴, 𝐷𝐷 can be pruned! 𝑫𝑫 ⇒ 𝑨𝑨, 𝑩𝑩 1 ✔

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 16

Module 5 - Frequent Pattern Mining
No ratings yet
Module 5 - Frequent Pattern Mining
111 pages
Lecture 8-9 Association Rule Mining
No ratings yet
Lecture 8-9 Association Rule Mining
21 pages
SQL Datetime Conversion - String Date Convert Formats - SQLUSA PDF
No ratings yet
SQL Datetime Conversion - String Date Convert Formats - SQLUSA PDF
13 pages
KDD 3 AssociationRules
No ratings yet
KDD 3 AssociationRules
55 pages
3 FrequentItemsetMining
No ratings yet
3 FrequentItemsetMining
63 pages
Frequent Item Set in Data Set (Association Rule Mining) - Unit3
No ratings yet
Frequent Item Set in Data Set (Association Rule Mining) - Unit3
6 pages
Unit 3
No ratings yet
Unit 3
44 pages
ML Unit - Iii
No ratings yet
ML Unit - Iii
64 pages
Mining Frequent Patterns and Associations
No ratings yet
Mining Frequent Patterns and Associations
52 pages
Mining Frequent Patterns, Associations and Correlations: Basic Concepts and Methods
No ratings yet
Mining Frequent Patterns, Associations and Correlations: Basic Concepts and Methods
20 pages
5 DM Association
No ratings yet
5 DM Association
27 pages
Lecture 5
No ratings yet
Lecture 5
43 pages
Data Analytics - Unit - 4
No ratings yet
Data Analytics - Unit - 4
14 pages
Data Mining Association Rules
No ratings yet
Data Mining Association Rules
54 pages
Unit 5
No ratings yet
Unit 5
40 pages
Association Rules
No ratings yet
Association Rules
48 pages
dm 2
No ratings yet
dm 2
71 pages
Association Rule Mining
No ratings yet
Association Rule Mining
19 pages
Association Rule-A Tool For Data Mining: Praveen Ranjan Srivastava
No ratings yet
Association Rule-A Tool For Data Mining: Praveen Ranjan Srivastava
6 pages
Frequent Pattern Analysis-Arpriori
No ratings yet
Frequent Pattern Analysis-Arpriori
27 pages
What Is A Frequent Itemset?
No ratings yet
What Is A Frequent Itemset?
7 pages
Association Rule Mining
No ratings yet
Association Rule Mining
92 pages
DM_U_2
No ratings yet
DM_U_2
16 pages
DSTBD_9-DMassrules
No ratings yet
DSTBD_9-DMassrules
98 pages
P8 FPBasic
No ratings yet
P8 FPBasic
53 pages
Chap4-PatternMiningBasic
No ratings yet
Chap4-PatternMiningBasic
52 pages
Unit 3
No ratings yet
Unit 3
62 pages
s13042-013-0172-6
No ratings yet
s13042-013-0172-6
11 pages
Contents
No ratings yet
Contents
59 pages
Data Analytics Unit 4
No ratings yet
Data Analytics Unit 4
22 pages
Association Rule Mod 3
No ratings yet
Association Rule Mod 3
28 pages
Data Mining - : Dr. Mahmoud Mounir Mahmoud - Mounir@cis - Asu.edu - Eg
No ratings yet
Data Mining - : Dr. Mahmoud Mounir Mahmoud - Mounir@cis - Asu.edu - Eg
26 pages
03. UNIT-III(DMWH6EM)
No ratings yet
03. UNIT-III(DMWH6EM)
24 pages
Data Mining: Frequent Itemsets and Association Rules
No ratings yet
Data Mining: Frequent Itemsets and Association Rules
105 pages
Chapter 5 Data Mining: Dr. Huma Lone
No ratings yet
Chapter 5 Data Mining: Dr. Huma Lone
56 pages
06 FPBasic
No ratings yet
06 FPBasic
69 pages
Chap4 PatternMiningBasic
No ratings yet
Chap4 PatternMiningBasic
52 pages
5 Frequent Pattern Mining
No ratings yet
5 Frequent Pattern Mining
44 pages
C ARM: An Efficient Algorithm For Closed Association Rule Mining
No ratings yet
C ARM: An Efficient Algorithm For Closed Association Rule Mining
20 pages
Lecture Notes For Chapter 6: by Tan, Steinbach, Kumar
No ratings yet
Lecture Notes For Chapter 6: by Tan, Steinbach, Kumar
65 pages
CS 412 Intro. To Data Mining
No ratings yet
CS 412 Intro. To Data Mining
55 pages
DATA MINING UNIT-II NOTES
No ratings yet
DATA MINING UNIT-II NOTES
24 pages
Advances and Issues in Frequent Pattern Mining
No ratings yet
Advances and Issues in Frequent Pattern Mining
21 pages
association rule
No ratings yet
association rule
22 pages
Data Mining-Knowledge Presentation 2: Prof. Sin-Min Lee
No ratings yet
Data Mining-Knowledge Presentation 2: Prof. Sin-Min Lee
54 pages
Assignment 1: Data Mining MGSC5126 - 10
No ratings yet
Assignment 1: Data Mining MGSC5126 - 10
10 pages
DM Lect7
No ratings yet
DM Lect7
26 pages
Week 3
No ratings yet
Week 3
56 pages
Module5 DMW
No ratings yet
Module5 DMW
13 pages
DWDWM Unit2
No ratings yet
DWDWM Unit2
59 pages
Frequent Item-Set Mining Methods: Prepared By-Mr - Nilesh Magar
No ratings yet
Frequent Item-Set Mining Methods: Prepared By-Mr - Nilesh Magar
31 pages
Big Data Analytics AAM Unit 4
No ratings yet
Big Data Analytics AAM Unit 4
80 pages
Data Warehousing and Mining
No ratings yet
Data Warehousing and Mining
14 pages
Data Mining: Magister Teknologi Informasi Universitas Indonesia
No ratings yet
Data Mining: Magister Teknologi Informasi Universitas Indonesia
72 pages
DMDW Unit 4 Association 29.12.2020
No ratings yet
DMDW Unit 4 Association 29.12.2020
31 pages
Apriori
No ratings yet
Apriori
27 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Couchbase Certified Java Developer - Exam Practice Tests
From Everand
Couchbase Certified Java Developer - Exam Practice Tests
Cristian Scutaru
No ratings yet
The Numpy Pocketbook: Essentials on the Go
From Everand
The Numpy Pocketbook: Essentials on the Go
Silas Meadowlark
No ratings yet
Flood Fill: Flood Fill: Exploring Computer Vision's Dynamic Terrain
From Everand
Flood Fill: Flood Fill: Exploring Computer Vision's Dynamic Terrain
Fouad Sabry
No ratings yet
C# 2010 All-in-One For Dummies
From Everand
C# 2010 All-in-One For Dummies
Bill Sempf
No ratings yet
Lect - 4
No ratings yet
Lect - 4
12 pages
Performance Analysis and Comparison of Machine and Deep Learning Algorithms For Iot Data Classification
No ratings yet
Performance Analysis and Comparison of Machine and Deep Learning Algorithms For Iot Data Classification
13 pages
CSC 384 Solutions 05
No ratings yet
CSC 384 Solutions 05
17 pages
Confusion Matrix
No ratings yet
Confusion Matrix
4 pages
DMBI Sem 6 Important Topics (IT)
No ratings yet
DMBI Sem 6 Important Topics (IT)
20 pages
Unit 5 PLSQL
No ratings yet
Unit 5 PLSQL
15 pages
List of SQL Commands - Codecademy
No ratings yet
List of SQL Commands - Codecademy
9 pages
How To Load and Generate A Custom Hierarchy in SAP Business Warehouse
No ratings yet
How To Load and Generate A Custom Hierarchy in SAP Business Warehouse
10 pages
Data Mining and Data Warehouse - Mukesh Prasad Chaudhary
No ratings yet
Data Mining and Data Warehouse - Mukesh Prasad Chaudhary
651 pages
Dokmee - Manual de Instalação
No ratings yet
Dokmee - Manual de Instalação
16 pages
Cleanup Traces, Logs in One Command
No ratings yet
Cleanup Traces, Logs in One Command
5 pages
CSE311 Project Report
No ratings yet
CSE311 Project Report
10 pages
Chapter 1
No ratings yet
Chapter 1
27 pages
VNX CheatSheet
100% (1)
VNX CheatSheet
6 pages
Appendix 2 - Operation Guide To OMStar Parameter Check V1.4
No ratings yet
Appendix 2 - Operation Guide To OMStar Parameter Check V1.4
28 pages
DBMS
No ratings yet
DBMS
32 pages
Data Abstraction
No ratings yet
Data Abstraction
9 pages
Database Design: Logical Design-Part1
No ratings yet
Database Design: Logical Design-Part1
42 pages
R12 Supplier Tables
0% (1)
R12 Supplier Tables
5 pages
AWS Certified SysOps Administrator Associate - Sample Questions
No ratings yet
AWS Certified SysOps Administrator Associate - Sample Questions
9 pages
Oracle Data Integrator
No ratings yet
Oracle Data Integrator
4 pages
DS8900F Seller Presentation - 2020-Sep-24
100% (1)
DS8900F Seller Presentation - 2020-Sep-24
47 pages
Configuring and Deploying T24 and TAFJ Artefacts
No ratings yet
Configuring and Deploying T24 and TAFJ Artefacts
10 pages
Logcat Home Fota Update Log
No ratings yet
Logcat Home Fota Update Log
74 pages
Distributed Systems: Tutorial 6 - Apache Zookeeper™
No ratings yet
Distributed Systems: Tutorial 6 - Apache Zookeeper™
18 pages
Commands
No ratings yet
Commands
4 pages
DSpace training
No ratings yet
DSpace training
3 pages
H. M 2ND Year (Computer)
No ratings yet
H. M 2ND Year (Computer)
4 pages
Ict Assignment 3
No ratings yet
Ict Assignment 3
13 pages
SQL
No ratings yet
SQL
9 pages
ADVBS Exam Paper
No ratings yet
ADVBS Exam Paper
3 pages
Distributed DBMS - Failure & Commit
No ratings yet
Distributed DBMS - Failure & Commit
4 pages
DataGrid Zend Framework - Manual
No ratings yet
DataGrid Zend Framework - Manual
14 pages

Blatt03 Sol

Uploaded by

Blatt03 Sol

Uploaded by

Database Systems Group • Prof. Dr.

Basic terms and definitions:

• Items 𝐼𝐼 = 𝑖𝑖1 , … , 𝑖𝑖𝑚𝑚 TID items

Goal: Find all frequent itemsets in 𝐷𝐷!

Naive Algorithm: Just count the frequencies of all

• Problem: For 𝐼𝐼 = 𝑚𝑚, there are 2𝑚𝑚 such itemsets!

ABCD not frequent

Main idea of the Apriori algorithm: ABC ABD ACD BCD

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 3

The Apriori algorithm makes use of prior knowledge of

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 4

a) All non-empty subsets of a frequent itemset must

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 5

b) The support of any non-empty subset 𝑆𝑆𝑆 of itemset 𝑆𝑆

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 6

Let 𝐷𝐷 be a database that contains the following four

In addition let 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 = 60%.

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 7

C2 itemset C2 itemset C2 itemset sup L2 itemset sup

Bottleneck of Apriori: Candidate generation

• Huge candidate set

FP-Growth: FP-mining without candidate generation

• Compress database, retain only information relevant

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 9

TID items bought (ordered) frequent items

for each transaction only keep

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 10

Initial FP-tree conditional pattern base:

• Closed frequent itemsets:

• Maximal frequent itemsets:

frequent itemsets support

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 12

• 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 ⇒ 𝑌𝑌 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋 ∪ 𝑌𝑌)

Goal: Find all strong association rules in 𝐷𝐷!

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 13

After frequent itemset mining, association rules can be

a) Proof the following anti-monotonicity lemma for

Let 𝑋𝑋 be a frequent itemset and 𝑌𝑌 ⊂ 𝑋𝑋. If 𝑌𝑌 ⇒ 𝑋𝑋 ∖ 𝑌𝑌 is a

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 14

Let 𝑋𝑋 be a frequent itemset and 𝑌𝑌 ⊂ 𝑋𝑋. If 𝑌𝑌 ⇒ 𝑋𝑋 ∖ 𝑌𝑌 is a

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 15

b) Extract all strong association rules from the

Knowledge Discovery in Databases I: Exercise 3 13.05.2016 16

You might also like