Data Mining - Regression
Data Mining - Regression
RÉGRESSION
Mohamed Heny SELMI
[email protected]
RÉGRESSION
LINÉAIRE
Mohamed Heny SELMI
OBJECTIFS
Y= f(X1, X2,………,Xn)
Y : Variable cible / Décisionnelle Xi
Xi : Variables prédictives
Mohamed Heny SELMI ©
MÉTHODES DES MOINDRES CARRÉS
La droite qui représente mieux les données
La droite qui résume le mieux le nuage des points
La droite qui explique mieux les Y en fonctions des Xi
α
Trouver les valeurs des i qui minimise la somme des carrés des écarts entre
les valeurs réelles de Y et les valeurs prédites avec le modèle de prédiction
Y
Y
(𝒙𝒊 , 𝒚𝒊 )
(𝒙𝒊 , 𝒚𝒊 )
εi
Y= α0+α1X1+ α2X2+………+ αnXn+ε
Y : Variable cible / Décisionnelle Xi
Xi : Variables prédictives
Mohamed Heny SELMI ©
OBJECTIFS DE LA MÉTHODE DES MOINDRES CARRÉS
La distance d’un point à la droite est la distance verticale entre l’ordonnée
du point observé (𝑥𝑖 , 𝑦𝑖 ) et l’ordonnée du point correspondant sur la droite (𝑥𝑖 , 𝑦𝑖 )
Y
Minimiser 𝜺𝒊 = 𝒚𝒊 − 𝒚𝒊
y1 1 x1,1 x1, p 1
1
yn 1 x1,n xn , p n
p
Entrepôt d’apprentissage 𝝏𝒔 𝝏𝒔
= 𝟎 𝒆𝒕 =𝟎
𝝏𝜶 𝝏𝜶𝟎
1
0 ALORS
SI 𝒙 𝒊 𝒚𝒊 − 𝜶 𝒙𝒊 𝟐 − 𝜶 𝟎 𝒙 = 𝟎
n 𝒆𝒕 𝒚 − 𝜶𝒙 − 𝜶𝟎 = 𝟎
Mohamed Heny SELMI ©
0
RECOURS À L’ ÉCRITURE MATRICIELLE
y1 1 x1,1 x1, p 1
1
yn 1 x1,n xn , p n
p
Entrepôt d’apprentissage 𝒙𝒊 𝒚𝒊 − 𝜶 𝒙𝒊 𝟐 − 𝜶𝟎 𝒙 = 𝟎
𝒆𝒕 𝒚 − 𝜶𝒙 − 𝜶𝟎 = 𝟎
1
0 ALORS
SI (𝒚𝒊 − 𝒚)(𝒙𝒊 − 𝒙)
n 𝜶=
(𝒙𝒊 − 𝒙)𝟐
Mohamed Heny SELMI ©
𝜶𝟎 = 𝒚 − 𝜶𝒙
0
RECOURS À L’ ÉCRITURE MATRICIELLE
y1 1 x1,1 x1, p 1
1
yn 1 x1,n xn , p n
p
Entrepôt d’apprentissage
1 𝒀=𝑿𝜶
𝑿𝒕 𝒀 = 𝑿𝒕 𝑿 𝜶
0 ALORS 𝑿𝒕 𝒀 = [𝑿𝒕 𝑿] 𝜶
SI [𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = [𝑿𝒕 𝑿]−𝟏 [𝑿𝒕 𝑿] 𝜶
[𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = 𝜶
n [𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = 𝜶
y1 1 x1,1 x1, p 1
1
yn 1 x1,n xn , p n
p
Entrepôt d’apprentissage
Si on exige que ε ne contient plus de l’information X
n 𝑿 𝒀 − 𝑿𝜶 = 𝟎
y1 1 x1,1 x1, p 1
1
yn 1 x1,n xn , p n
p
Entrepôt d’apprentissage
𝑿 𝒀 − 𝑿𝜶 = 𝟎
𝑿𝒕 𝒀 − 𝑿𝜶 = 𝟎
1 𝑿𝒕 𝒀 − 𝑿𝒕 𝑿𝜶 = 𝟎
𝑿𝒕 𝒀 = 𝑿𝒕 𝑿𝜶
0 ALORS 𝑿𝒕 𝒀 = [𝑿𝒕 𝑿]𝜶
SI [𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = [𝑿𝒕 𝑿]−𝟏 [𝑿𝒕 𝑿] 𝜶
[𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = 𝜶
n [𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = 𝜶
Mohamed Heny SELMI ©
CARACTÉRISTIQUES DES COEFFICIENTS ESTIMATEURS
𝒕 −𝟏 𝒕
[𝑿 𝑿] 𝑿𝒀=𝜶
Les coefficients estimateurs sont d’autant plus précis que :
Y Y
𝒕 −𝟏 𝒕
[𝑿 𝑿] 𝑿𝒀=𝜶
Les coefficients estimateurs sont d’autant plus précis que :
Y Y
AIC BIC
la différence entre 2 fois le nombre de paramètres (k) pénalité dépend de la taille de l'échantillon et pas
deux fois la log-vraisemblance du modèle estimé. seulement du nombre de paramètres
𝑨𝑰𝑪 = 𝟐𝒌 − 𝟐 ln 𝑳 𝑨𝑰𝑩 = − 𝟐 ln 𝑳 + 𝒌 ln 𝑵
Model Summary
Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .898a .806 .752 256.29
a. Predictors: (Constant), Tot al publicité de la branche,
Marché total, Remises aux grossistes, Budget de
recherche, I nv estissements, Publicité, Prix, Frais de
v entes
Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3129.231 641.355 4.879 .000
MT 4.423 1.588 2.785 .009
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
a. Dependent Variable: VENTES
Mohamed Heny SELMI ©
MODÈLE COMPLET (SANS RESTRICTION DE VARIABLES)
Coeffi cientsa
Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3129.231 641.355 4.879 .000
MT 4.423 1.588 2.785 .009
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
a. Dependent Variable: VENTES
VENTE
1 = 3129,231 + 4,423 X MT + 1,676 X RG - 13,526 X PRIX – 3,410 X BR +1,924 X INV + 8,328 X PUB + 1,497 X FV – 0,00215 X TPUB
Model Summaryb
Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .898a .806 .760 251.99
a. Predictors: (Constant), Frais de v entes, Remises aux
grossistes, Publicité, Inv estissements, Budget de
recherche, Prix, Marché total
b. Dependent Variable: Vent es
Unstandardized
Coef f icients
Model B Std. Error t Sig.
1 (Constant) 3115.648 579.517 5.376 .000
MT 4.426 1.561 2.836 .008
RG 1.706 3.191 .535 .597
PRIX -13.445 8.029 -1.675 .104
BR -3.392 6.451 -.526 .603
INV 1.931 .756 2.554 .016
PUB 8.558 1.784 4.798 .000
FV 1.482 2.710 .547 .588
a. Dependent Variable: VENTES
Mohamed Heny SELMI ©
TROIXIÈME ÉTAPE
Model Summaryb
Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .897a .804 .766 249.04
a. Predictors: (Constant), Frais de v entes, Remises aux
grossistes, Publicité, Inv estissements, Prix, Marché
total
b. Dependent Variable: Vent es
Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3137.547 571.233 5.493 .000
MT 4.756 1.412 3.368 .002
RG 1.705 3.153 .541 .593
PRIX -14.790 7.521 -1.966 .058
INV 1.885 .742 2.539 .016
PUB 8.519 1.761 4.837 .000
FV .950 2.484 .382 .705
a. Dependent Variable: VENTES
Mohamed Heny SELMI ©
QUATRIÈME ÉTAPE
Model Summaryb
Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .896a .803 .772 245.69
a. Predictors: (Constant), Publicité, Remises aux
grossistes, Marché total, Inv estissements, Prix
b. Dependent Variable: Vent es
Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3084.009 546.374 5.645 .000
MT 5.222 .704 7.415 .000
RG 1.700 3.111 .546 .589
PRIX -13.467 6.589 -2.044 .049
INV 1.984 .686 2.893 .007
PUB 8.328 1.666 4.998 .000
a. Dependent Variable: VENTES
Mohamed Heny SELMI ©
MODÈLE AVEC SÉLECTION DE VARIABLES
VENTE
2 = 3084,009 + 5,222 X MT -13,467 X PRIX + +1,984 X INV + 8,328 X PUB
𝜶𝒊
Modèle
global
𝜶𝒊
Modèle
réduit
𝜶𝒊
Modèle
global
𝜶𝒊
Modèle
réduit
Xi
Mohamed Heny SELMI ©
RÉGRESSION
LOGISTIQUE
Si la variable à prédire est une variable Binaire ? Peut-on faire une régression linéaire ?
Mohamed Heny SELMI ©
PROBLÉMATIQUE
Y = cœur
presence Visiblement la régression linéaire ne convient pas
Solution :
Fonction Logistique π
e 0 1 x
( x) P(Y 1 / X ) : régression logistique binaire simple
1 e 0 1x
e 0 1x1 ... k xk
( x) P(Y 1 / X x) : régression logistique binaire multiple
1 e 0 1x1 ... k xk
Mohamed Heny SELMI ©
INTERPRÉTATION DE Y – PROBABILITÉ DE SUCCÈS
Prédire une variable décisionnelle ayant deux modalités Y = {0 (absence), 1 (présence)}
L’une désigne un succès (Y = 1) et l’autre un échec (Y = 0)
Le principe de la régression dans ce cas est de chercher la probabilité d’obtenir le succès P(Y = 1)
Y
1 Pour décider :
𝟏 𝐬𝐢 𝐏 𝐘 = 𝟏 > 𝛉
𝐘=*
𝟎 𝐬𝐢 𝐏 𝐘 = 𝟏 ≤ 𝛉
0
Xi En approximation : θ = 0,5
Mohamed Heny SELMI ©
OBTENTION DES COEFFICIENTS CLASSIFIEURS 𝜷𝒊
Objectifs : trouver les meilleurs 𝜷𝒊
𝒆𝜷𝟎 +𝜷𝟏 𝒙𝟏 +⋯+𝜷𝒌𝒙𝒌
𝝅 𝑿 = 𝑷 𝒀 = 𝟏 𝑿 = 𝒙𝒊 =
𝟏 + 𝒆𝜷𝟎 +𝜷𝟏 𝒙𝟏 +⋯+𝜷𝒌𝒙𝒌
𝛃𝟎 +𝛃𝟏 𝐱 𝟏 +⋯+𝛃𝐤 𝐱 𝐤
𝝅(𝑿)
𝐞 =
𝟏 − 𝝅(𝑿)
𝝅 𝑿
ln(𝐞𝛃𝟎 +𝛃𝟏 𝐱𝟏 +⋯+𝛃𝐤 𝐱𝐤 ) = ln( )
𝟏− 𝝅 𝑿
𝝅 𝑿
𝛃𝟎 + 𝛃𝟏 𝐱𝟏 + ⋯ + 𝛃𝐤 𝐱𝐤 = ln( )
Mohamed Heny SELMI © 𝟏− 𝝅 𝑿
OBTENTION DES COEFFICIENTS CLASSIFIEURS 𝜷𝒊
𝝅 𝑿
𝛃𝟎 + 𝛃𝟏 𝐱𝟏 + ⋯ + 𝛃𝐤 𝐱𝐤 = ln( )
𝟏− 𝝅 𝑿
X1 X2 Y
1 2 OUI
1 1 OUI
2 2 OUI
2 2 OUI
NON
NON
NON
𝟏
𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟐𝟓
𝟒
𝟏
𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎, 𝟐𝟓
𝟒
𝟐
𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟓
𝟒
𝟎
𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎
𝟒
Mohamed Heny SELMI ©
UTILITÉ DE LA FONCTION 𝝅(𝑿)
X1 X2 Y P(Y=OUI | Xi)
1 2 OUI 0,25
𝟏
1 1 OUI 0,25 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟐𝟓
𝟒
𝟏
2 2 OUI 0,5 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎, 𝟐𝟓
𝟒
𝟐
2 2 OUI 0,5 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟓
𝟒
𝟎
NON 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎
𝟒
NON
NON
Alors on va construire un modèle linéaire qui explique les probabilités P(Y|Xi) par les Xi
𝝅𝟏 𝑿 𝟎, 𝟐𝟓
𝒍𝒏( ) = 𝒍𝒏( ) = −𝟏, 𝟎𝟗𝟖𝟔𝟏𝟐𝟐𝟖𝟕
𝟏 − 𝝅𝟏 𝑿 𝟏 − 𝟎, 𝟐𝟓
𝝅𝟐 𝑿 𝟎, 𝟐𝟓
𝒍𝒏( ) = 𝒍𝒏( ) = −𝟏, 𝟎𝟗𝟖𝟔𝟏𝟐𝟐𝟖𝟕
𝟏 − 𝝅𝟐 𝑿 𝟏 − 𝟎, 𝟐𝟓
𝝅𝟑 𝑿 𝟎, 𝟓
𝒍𝒏( ) = 𝒍𝒏( )=𝟎
𝟏 − 𝝅𝟑 𝑿 𝟏 − 𝟎, 𝟓
𝝅𝟒 𝑿 𝟎
𝒍𝒏( ) = 𝒍𝒏( ) = −∞
𝟏 − 𝝅𝟒 𝑿 𝟏−𝟎
Mohamed Heny SELMI ©
𝝅 𝑿
APPLICATION DE LA FONCTION 𝒍𝒏( )
𝟏− 𝝅 𝑿
𝝅 𝑿
X1 X2 Y P(Y=OUI | Xi) 𝒍𝒏( )
𝟏− 𝝅 𝑿
−𝟏, 𝟎𝟗𝟖𝟔𝟏𝟐𝟐𝟖𝟕
1 2 OUI 0,25
−∞, +∞