0% found this document useful (0 votes)

108 views18 pages

Naïve Bayes Classifier Overview

This document provides an overview of Naive Bayes classifiers. It begins with background on probabilistic classification models. It then explains the probability basics and assumptions of Naive Bayes, which models each attribute as conditionally independent given the class. The document presents the algorithm and provides an example predicting whether to play tennis. It discusses issues like violating independence and handling continuous values. It concludes that Naive Bayes training and testing are efficient while often achieving competitive performance.

Uploaded by

Sgsksbskxvxk

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

108 views18 pages

Naïve Bayes Classifier Overview

Uploaded by

Sgsksbskxvxk

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

Naïve Bayes Classifier

Ke Chen

[Link]

Extended by Longin Jan Latecki

latecki@[Link]

COMP20411 Machine Learning

Outline

• Background
• Probability Basics
• Probabilistic Classification
• Naïve Bayes
• Example: Play Tennis
• Relevant Issues
• Conclusions

COMP20411 Machine Learning 2

Background
• There are three methods to establish a classifier
a) Model a classification rule directly
Examples: k-NN, decision trees, perceptron, SVM
b) Model the probability of class memberships given input data
Example: multi-layered perceptron with the cross-entropy cost
c) Make a probabilistic model of data within each class
Examples: naive Bayes, model based classifiers
• a) and b) are examples of discriminative classification
• c) is an example of generative classification
• b) and c) are both examples of probabilistic classification

COMP20411 Machine Learning 3

Probability Basics
• Prior, conditional and joint probability
– Prior probability: P(X )
– Conditional probability: P( X1 |X2 ), P(X2 | X1 )
– Joint probability: X  ( X1 , X2 ), P( X )  P(X1 ,X2 )
– Relationship: P(X1 ,X2 )  P( X2 | X1 )P( X1 )  P( X1 | X2 )P( X2 )
– Independence: P( X2 | X1 )  P( X2 ), P( X1 | X2 )  P( X1 ), P(X1 ,X2 )  P( X1 )P( X2 )
• Bayesian Rule

P( X |C )P(C ) Likelihood  Prior

P(C |X )  Posterior 
P( X ) Evidence

COMP20411 Machine Learning 4

Example by Dieter Fox
Probabilistic Classification
• Establishing a probabilistic model for classification
– Discriminative model
P(C |X ) C  c1 ,  , c L , X  (X1 ,  , Xn )
– Generative model
P( X |C ) C  c1 ,  , c L , X  (X1 ,  , Xn )

• MAP classification rule

– MAP: Maximum A Posterior
– Assign x to c* if P(C  c *
| X  x )  P(C  c | X  x ) c  c *
, c  c1 ,  , c L

• Generative classification with the MAP rule

P( X |C )P(C )
– Apply Bayesian rule to convert: P(C |X )   P( X |C )P(C )
P( X )
COMP20411 Machine Learning 8
Feature Histograms

P(x)
C1
C2

Slide by Stephen Marsland

x
Posterior Probability
P(C|x)

0
Slide by Stephen Marsland
x
Naïve Bayes
• Bayes classification
P(C |X )  P( X |C )P(C )  P( X1 ,  , Xn |C )P(C )

Difficulty: learning the joint probability P( X1 ,  , Xn |C )

• Naïve Bayes classification
– Making the assumption that all input attributes are independent
P( X1 , X2 ,  , Xn |C )  P( X1 | X2 ,  , Xn ; C )P( X2 ,  , Xn |C )
 P( X1 |C )P( X2 ,  , Xn |C )
 P( X1 |C )P( X2 |C )    P( Xn |C )

– MAP classification rule

[ P( x1 |c * )    P( xn |c * )]P(c * )  [ P( x1 |c)    P( xn |c)]P(c), c  c * , c  c1 ,  , c L

COMP20411 Machine Learning 11

Naïve Bayes
• Naïve Bayes Algorithm (for discrete input attributes)
– Learning Phase: Given a training set S,
For each target value of ci (ci  c1 ,  , c L )
Pˆ (C  ci )  estimate P(C  ci ) with examples in S;
For every attribute value a jk of each attribute x j ( j  1,  , n; k  1,  , N j )
Pˆ ( X j  a jk |C  ci )  estimate P( X j  a jk |C  ci ) with examples in S;

Output: conditional probability tables; for x j , N j  L elements

– Test Phase: Given an unknown instance X  ( a1 ,  , an ),
Look up tables to assign the label c* to X’ if
[ Pˆ ( a1 |c * )    Pˆ ( an |c * )]Pˆ ( c * )  [ Pˆ ( a1 |c)    Pˆ ( an |c )]Pˆ (c), c  c * , c  c1 ,  , c L

COMP20411 Machine Learning 12

Example
• Example: Play Tennis

COMP20411 Machine Learning 13

Example
• Learning Phase
Outlook Play=Yes Play=No Temperature Play=Yes Play=No
Sunny 2/9 3/5 Hot 2/9 2/5
Overcast 4/9 0/5 Mild 4/9 2/5
Rain 3/9 2/5 Cool 3/9 1/5

Humidity Play=Yes Play=No Wind Play=Yes Play=No

High 3/9 4/5 Strong 3/9 3/5
Normal 6/9 1/5 Weak 6/9 2/5

P(Play=Yes) = 9/14 P(Play=No) = 5/14

COMP20411 Machine Learning 14

Example
• Test Phase
– Given a new instance,
x’=(Outlook=Sunny, Temperature=Cool, Humidity=High, Wind=Strong)
– Look up tables
P(Outlook=Sunny|Play=Yes) = 2/9 P(Outlook=Sunny|Play=No) = 3/5
P(Temperature=Cool|Play=Yes) = 3/9 P(Temperature=Cool|Play==No) = 1/5
P(Huminity=High|Play=Yes) = 3/9 P(Huminity=High|Play=No) = 4/5
P(Wind=Strong|Play=Yes) = 3/9 P(Wind=Strong|Play=No) = 3/5
P(Play=Yes) = 9/14 P(Play=No) = 5/14

Given the fact P(Yes|x’) < P(No|x’), we label x’ to be “No”.

COMP20411 Machine Learning 15

Relevant Issues
• Violation of Independence Assumption
– For many real world tasks, P( X1 ,  , Xn |C )  P( X1 |C )    P( Xn |C )
– Nevertheless, naïve Bayes works surprisingly well anyway!
• Zero conditional probability Problem
– If no example contains the attribute value X j  a jk , Pˆ ( X j  a jk |C  ci )  0
– In this circumstance, Pˆ ( x |c )    Pˆ ( a |c )    Pˆ ( x |c )  0 during test
1 i jk i n i

– For a remedy, conditional probabilities estimated with

n  mp
Pˆ ( X j  a jk |C  ci )  c
nm
nc : number of training examples for which X j  a jk and C  ci
n : number of training examples for which C  ci
p : prior estimate (usually, p  1 / t for t possible values of X j )
m : weight to prior (number of " virtual" examples, m  1)
COMP20411 Machine Learning 16
Relevant Issues
• Continuous-valued Input Attributes
– Numberless values for an attribute
– Conditional probability modeled with the normal distribution
1  ( X j   ji )2 
Pˆ ( X j |C  ci )  exp  
2  ji  2 ji 
2

 ji : mean (avearage) of attribute values X j of examples for which C  ci
 ji : standard deviation of attribute values X j of examples for which C  ci

– Learning Phase: for X  ( X1 ,  , Xn ), C  c1 ,  , c L

Output: n  L normal distributions and P(C  ci ) i  1,  , L
– Test Phase: for X  ( X1 ,  , Xn )
• Calculate conditional probabilities with all the normal distributions
• Apply the MAP rule to make a decision
COMP20411 Machine Learning 17
Conclusions
• Naïve Bayes based on the independence assumption
– Training is very easy and fast; just requiring considering each
attribute in each class separately
– Test is straightforward; just looking up tables or calculating
conditional probabilities with normal distributions
• A popular generative model
– Performance competitive to most of state-of-the-art classifiers
even in presence of violating independence assumption
– Many successful applications, e.g., spam mail filtering
– Apart from classification, naïve Bayes can do more…

COMP20411 Machine Learning 18

Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
18 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
17 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
17 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
20 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
20 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
20 pages
Naïve Bayes Zero Probability Solutions
No ratings yet
Naïve Bayes Zero Probability Solutions
18 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
19 pages
Understanding Naïve Bayes Classifier
No ratings yet
Understanding Naïve Bayes Classifier
25 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
24 pages
Naive Bayes Algorithm Course Overview
No ratings yet
Naive Bayes Algorithm Course Overview
8 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
25 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
10 pages
Understanding Probabilistic Classifiers
No ratings yet
Understanding Probabilistic Classifiers
5 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
15 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
26 pages
Naïve Bayes Text Classification Overview
No ratings yet
Naïve Bayes Text Classification Overview
56 pages
Classification Algorithms Overview
No ratings yet
Classification Algorithms Overview
36 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
31 pages
Bayes Classifier in Machine Learning
No ratings yet
Bayes Classifier in Machine Learning
22 pages
Bayesian Decision Theory Overview
No ratings yet
Bayesian Decision Theory Overview
64 pages
AI Neural Networks and Bayesian Learning
No ratings yet
AI Neural Networks and Bayesian Learning
46 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
19 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
19 pages
Naïve Bayes Classifier Explained
No ratings yet
Naïve Bayes Classifier Explained
22 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
29 pages
Classification Techniques Overview
No ratings yet
Classification Techniques Overview
87 pages
Naïve Bayes Classifier Explained
No ratings yet
Naïve Bayes Classifier Explained
22 pages
Naive Bayes in Data Mining
No ratings yet
Naive Bayes in Data Mining
31 pages
Naïve Bayes Classification Explained
No ratings yet
Naïve Bayes Classification Explained
21 pages
Naïve Bayes Classifier Explained
No ratings yet
Naïve Bayes Classifier Explained
65 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
21 pages
Naïve Bayesian Classification in Go
No ratings yet
Naïve Bayesian Classification in Go
55 pages
Naïve Bayes Classifier Explained
No ratings yet
Naïve Bayes Classifier Explained
65 pages
Naive Bayes Classifier Overview
No ratings yet
Naive Bayes Classifier Overview
15 pages
Naïve Bayes and Probabilistic Reasoning
No ratings yet
Naïve Bayes and Probabilistic Reasoning
6 pages
Naïve Bayes Classification Overview
No ratings yet
Naïve Bayes Classification Overview
17 pages
Machine Learning Classification Techniques
No ratings yet
Machine Learning Classification Techniques
50 pages
Bayesian Learning for Classification
No ratings yet
Bayesian Learning for Classification
40 pages
Naive Bayesian Classification Explained
No ratings yet
Naive Bayesian Classification Explained
48 pages
Classification Techniques Overview
No ratings yet
Classification Techniques Overview
43 pages
Understanding Bayes Theorem and Classifiers
No ratings yet
Understanding Bayes Theorem and Classifiers
26 pages
Bayesian Learning Algorithms Explained
No ratings yet
Bayesian Learning Algorithms Explained
54 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
9 pages
Multinomial Naïve Bayes Overview
No ratings yet
Multinomial Naïve Bayes Overview
58 pages
Naïve Bayes Classification Explained
No ratings yet
Naïve Bayes Classification Explained
22 pages
Bayesian Classification Methods Explained
No ratings yet
Bayesian Classification Methods Explained
46 pages
Machine Learning Classification Overview
No ratings yet
Machine Learning Classification Overview
107 pages
Bayesian Learning in Machine Learning
No ratings yet
Bayesian Learning in Machine Learning
49 pages
Naïve Bayes and Decision Trees Overview
No ratings yet
Naïve Bayes and Decision Trees Overview
54 pages
Naïve Bayes Classifier Overview
No ratings yet
Naïve Bayes Classifier Overview
14 pages
Supervised and Unsupervised Learning
No ratings yet
Supervised and Unsupervised Learning
252 pages
Naïve Bayes and Probability Theory in ML
No ratings yet
Naïve Bayes and Probability Theory in ML
30 pages
Naïve Bayes Classification Overview
No ratings yet
Naïve Bayes Classification Overview
31 pages
Bayesian Classification in Data Mining
No ratings yet
Bayesian Classification in Data Mining
46 pages
Revising Sample Size Guidelines for Regression
No ratings yet
Revising Sample Size Guidelines for Regression
12 pages
S1 Statistics Exam Paper Overview
No ratings yet
S1 Statistics Exam Paper Overview
4 pages
Statistical Inferences: Confidence Intervals & Tests
No ratings yet
Statistical Inferences: Confidence Intervals & Tests
20 pages
Partial vs Multiple Correlation Explained
No ratings yet
Partial vs Multiple Correlation Explained
6 pages
PCG: Advanced Random Number Generators
No ratings yet
PCG: Advanced Random Number Generators
3 pages
Introduction to Econometrics Concepts
No ratings yet
Introduction to Econometrics Concepts
8 pages
Statistics in Social Work Essentials
No ratings yet
Statistics in Social Work Essentials
52 pages
Cox-Type Model for Order Flow Analysis
No ratings yet
Cox-Type Model for Order Flow Analysis
38 pages
System Identification: Theory for Users
No ratings yet
System Identification: Theory for Users
7 pages
Practical Guide to Conformal Prediction
No ratings yet
Practical Guide to Conformal Prediction
120 pages
Understanding Between-Subjects Design
100% (1)
Understanding Between-Subjects Design
3 pages
Statistics Self-Assessment Guide
No ratings yet
Statistics Self-Assessment Guide
4 pages
ICMR Descriptive Statistics Overview
100% (1)
ICMR Descriptive Statistics Overview
26 pages
Continuous Random Variable Exercises
No ratings yet
Continuous Random Variable Exercises
1 page
Workshop1.pdf - Econometrics EC1C1 - Econometrics
No ratings yet
Workshop1.pdf - Econometrics EC1C1 - Econometrics
24 pages
Neyman-Pearson Lemma Explained
No ratings yet
Neyman-Pearson Lemma Explained
18 pages
EDA Techniques: Histograms, Box & Scatter Plots
No ratings yet
EDA Techniques: Histograms, Box & Scatter Plots
25 pages
Correlation and Regression Analysis Guide
No ratings yet
Correlation and Regression Analysis Guide
48 pages
Extreme Q-Learning via EVT in RL
No ratings yet
Extreme Q-Learning via EVT in RL
24 pages
Shoe Size and Weight Analysis of Students
No ratings yet
Shoe Size and Weight Analysis of Students
5 pages
Leanmap FREE Regression Analysis Calculator
No ratings yet
Leanmap FREE Regression Analysis Calculator
2 pages
Understanding Sampling Distributions
No ratings yet
Understanding Sampling Distributions
34 pages
Odds Ratio Calculations in 2x2 Tables
No ratings yet
Odds Ratio Calculations in 2x2 Tables
13 pages
QM221 Probability and Statistics Overview
No ratings yet
QM221 Probability and Statistics Overview
31 pages
Probability Concepts and Distributions Guide
No ratings yet
Probability Concepts and Distributions Guide
18 pages
Prenatal Nicotine and Depression Study Analysis
No ratings yet
Prenatal Nicotine and Depression Study Analysis
13 pages
Frequency Analysis in Engineering Hydrology
100% (1)
Frequency Analysis in Engineering Hydrology
24 pages
Probability and Statistics Worksheet
No ratings yet
Probability and Statistics Worksheet
2 pages
F-15E & F-16C Low-Altitude Bombing Skills
100% (3)
F-15E & F-16C Low-Altitude Bombing Skills
41 pages
Deviation of Repeated Trials: How Small?
No ratings yet
Deviation of Repeated Trials: How Small?
3 pages

Naïve Bayes Classifier Overview

Uploaded by

Naïve Bayes Classifier Overview

Uploaded by

Naïve Bayes Classifier

Extended by Longin Jan Latecki

COMP20411 Machine Learning

COMP20411 Machine Learning 2

COMP20411 Machine Learning 3

P( X |C )P(C ) Likelihood  Prior

COMP20411 Machine Learning 4

• MAP classification rule

• Generative classification with the MAP rule

Slide by Stephen Marsland

Difficulty: learning the joint probability P( X1 ,  , Xn |C )

– MAP classification rule

COMP20411 Machine Learning 11

Output: conditional probability tables; for x j , N j  L elements

COMP20411 Machine Learning 12

COMP20411 Machine Learning 13

Humidity Play=Yes Play=No Wind Play=Yes Play=No

P(Play=Yes) = 9/14 P(Play=No) = 5/14

COMP20411 Machine Learning 14

Given the fact P(Yes|x’) < P(No|x’), we label x’ to be “No”.

COMP20411 Machine Learning 15

– For a remedy, conditional probabilities estimated with

– Learning Phase: for X  ( X1 ,  , Xn ), C  c1 ,  , c L

COMP20411 Machine Learning 18

You might also like