0% ont trouvé ce document utile (0 vote)

41 vues45 pages

Data Mining - Regression

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

41 vues45 pages

Data Mining - Regression

Transféré par

bensalah.ons

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 45

DATA MINING

RÉGRESSION
Mohamed Heny SELMI
[email protected]
RÉGRESSION
LINÉAIRE
Mohamed Heny SELMI
OBJECTIFS

Trouver le meilleur modèle (linéaire) liant Y et X

Qualifier la liaison par rapport à chaque Xi

Comparer les modèles de Prédiction : globale ou réduit

Détecter les individus atypiques

R(X , X , ……………, X ) =Y1 2 n

Mohamed Heny SELMI ©

OBJECTIFS DE LA RÉGRESSION LINÉAIRE

 Le modèle de prédiction LINEAIRE consiste à prédire la valeur d’une

variable cible continue, en fonction des valeurs d’un certain nombre
d’autres variables prédictives

 Cette variable ≪ cible ≫ peut être par exemple :

 le poids : en fonction de la taille
 le prix d’un appartement : en fonction de sa superficie, de l’étage et
du quartier
 la consommation d’électricité : en fonction de la température
extérieure et de l’épaisseur de l’isolation

Mohamed Heny SELMI ©

REPRÉSENTATION PAR UN NUAGE DE POINTS
 N couples de points (xi, yi)
 Xi : quantitatives
 Y : quantitative
 La forme du nuage de points suit la nature des variables
Y

Y= f(X1, X2,………,Xn)
Y : Variable cible / Décisionnelle Xi
Xi : Variables prédictives
Mohamed Heny SELMI ©
MÉTHODES DES MOINDRES CARRÉS
 La droite qui représente mieux les données
 La droite qui résume le mieux le nuage des points
 La droite qui explique mieux les Y en fonctions des Xi

Y= α0+α1X1+ α2X2+………+ αnXn+ε

Y : Variable cible / Décisionnelle Xi

Y= α0+α1X1+ α2X2+………+ αnXn+ε

Y : Variable cible / Décisionnelle Xi

α
 Trouver les valeurs des i qui minimise la somme des carrés des écarts entre
les valeurs réelles de Y et les valeurs prédites avec le modèle de prédiction
Y

Y= α0+α1X1+ α2X2+………+ αnXn+ε

Y : Variable cible / Décisionnelle Xi

Xi : Variables prédictives
Mohamed Heny SELMI ©
MÉTHODES DES MOINDRES CARRÉS
 la droite dont les points du nuage sont en moyenne les plus proches
 la droite qui passe à la plus faible distance de chaque point du nuage
 Trouver les valeurs des αi qui minimise la somme des carrés des écarts entre
les valeurs réelles de Y et les valeurs prédites avec le modèle de prédiction

Y= α0+α1X1+ α2X2+………+ αnXn+ε

Y : Variable cible / Décisionnelle Xi

Xi : Variables prédictives
Mohamed Heny SELMI ©
ESTIMATION PAR LA MÉTHODE DES MOINDRES CARRÉS
 La distance d’un point à la droite est la distance verticale entre l’ordonnée
du point observé (𝒙𝒊 , 𝒚𝒊 ) et l’ordonnée du point correspondant sur la droite (𝒙𝒊 , 𝒚𝒊 )
 Trouver les valeurs des αi qui minimise la somme des carrés des écarts entre les valeurs
réelles de Y et les valeurs prédites avec le modèle de prédiction

Y
(𝒙𝒊 , 𝒚𝒊 )

(𝒙𝒊 , 𝒚𝒊 )

εi
Y= α0+α1X1+ α2X2+………+ αnXn+ε
Y : Variable cible / Décisionnelle Xi
Xi : Variables prédictives
Mohamed Heny SELMI ©
OBJECTIFS DE LA MÉTHODE DES MOINDRES CARRÉS
 La distance d’un point à la droite est la distance verticale entre l’ordonnée
du point observé (𝑥𝑖 , 𝑦𝑖 ) et l’ordonnée du point correspondant sur la droite (𝑥𝑖 , 𝑦𝑖 )

 Minimiser toutes les erreurs => minimiser les εi

Y
Minimiser 𝜺𝒊 = 𝒚𝒊 − 𝒚𝒊

Minimiser 𝜺𝒊 𝟐 = (𝒚𝒊 −𝒚𝒊 )𝟐

Y= α0+α1X1+ α2X2+………+ αnXn+ε

Y : Variable cible / Décisionnelle Xi
Xi : Variables prédictives
Mohamed Heny SELMI ©
RECOURS À L’ ÉCRITURE MATRICIELLE
 0 
 y1  1 x1,1  x1, p      1 
        1   
        
  
 yn  1 x1,n  xn , p     n 
 p 
Entrepôt d’apprentissage

Mohamed Heny SELMI ©

 0 
RECOURS À L’ ÉCRITURE MATRICIELLE

 y1  1 x1,1  x1, p      1 
        1   
        
  
 yn  1 x1,n  xn , p     n 
 p 
Entrepôt d’apprentissage 𝝏𝒔 𝝏𝒔
= 𝟎 𝒆𝒕 =𝟎
𝝏𝜶 𝝏𝜶𝟎

1 
    0 ALORS
SI   𝒙 𝒊 𝒚𝒊 − 𝜶 𝒙𝒊 𝟐 − 𝜶 𝟎 𝒙 = 𝟎
 n  𝒆𝒕 𝒚 − 𝜶𝒙 − 𝜶𝟎 = 𝟎
Mohamed Heny SELMI ©
 0 
RECOURS À L’ ÉCRITURE MATRICIELLE

 y1  1 x1,1  x1, p      1 
        1   
        
  
 yn  1 x1,n  xn , p     n 
 p 
Entrepôt d’apprentissage 𝒙𝒊 𝒚𝒊 − 𝜶 𝒙𝒊 𝟐 − 𝜶𝟎 𝒙 = 𝟎

𝒆𝒕 𝒚 − 𝜶𝒙 − 𝜶𝟎 = 𝟎
1 
    0 ALORS
SI   (𝒚𝒊 − 𝒚)(𝒙𝒊 − 𝒙)
 n  𝜶=
(𝒙𝒊 − 𝒙)𝟐
Mohamed Heny SELMI ©
𝜶𝟎 = 𝒚 − 𝜶𝒙
 0 
RECOURS À L’ ÉCRITURE MATRICIELLE

 y1  1 x1,1  x1, p      1 
        1   
        
  
 yn  1 x1,n  xn , p     n 
 p 
Entrepôt d’apprentissage

1  𝒀=𝑿𝜶
𝑿𝒕 𝒀 = 𝑿𝒕 𝑿 𝜶
    0 ALORS 𝑿𝒕 𝒀 = [𝑿𝒕 𝑿] 𝜶
SI   [𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = [𝑿𝒕 𝑿]−𝟏 [𝑿𝒕 𝑿] 𝜶
[𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = 𝜶
 n  [𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = 𝜶

Mohamed Heny SELMI ©

 0 
RECOURS À L’ ÉCRITURE MATRICIELLE

 y1  1 x1,1  x1, p      1 
        1   
        
  
 yn  1 x1,n  xn , p     n 
 p 
Entrepôt d’apprentissage
Si on exige que ε ne contient plus de l’information X

1  𝒀 − 𝑿𝜶 a pu absorber l’information des X contenue dans Y

    0 ALORS Inter – Indépendance entre X et 𝑌 − 𝑋𝛼

SI   𝑿 𝒆𝒕 𝒀 − 𝑿𝜶 sont géométriquement orthogonaux

 n  𝑿 𝒀 − 𝑿𝜶 = 𝟎

Mohamed Heny SELMI ©

 0 
RECOURS À L’ ÉCRITURE MATRICIELLE

 y1  1 x1,1  x1, p      1 
        1   
        
  
 yn  1 x1,n  xn , p     n 
 p 
Entrepôt d’apprentissage
𝑿 𝒀 − 𝑿𝜶 = 𝟎
𝑿𝒕 𝒀 − 𝑿𝜶 = 𝟎
1  𝑿𝒕 𝒀 − 𝑿𝒕 𝑿𝜶 = 𝟎
𝑿𝒕 𝒀 = 𝑿𝒕 𝑿𝜶
    0 ALORS 𝑿𝒕 𝒀 = [𝑿𝒕 𝑿]𝜶
SI   [𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = [𝑿𝒕 𝑿]−𝟏 [𝑿𝒕 𝑿] 𝜶
[𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = 𝜶
 n  [𝑿𝒕 𝑿]−𝟏 𝑿𝒕 𝒀 = 𝜶
Mohamed Heny SELMI ©
CARACTÉRISTIQUES DES COEFFICIENTS ESTIMATEURS

𝒕 −𝟏 𝒕
[𝑿 𝑿] 𝑿𝒀=𝜶
Les coefficients estimateurs sont d’autant plus précis que :

i. La variance de l’erreur est faible :

la droite de régression passe bien au milieu des points

ii. La dispersion des X est forte :

les X couvrent bien l’espace de représentation
𝜺𝒊 𝟐 = (𝒚𝒊 −𝒚𝒊 )𝟐 est élevé !

Y Y

Mohamed Heny SELMI © Xi Xi

CARACTÉRISTIQUES DES COEFFICIENTS ESTIMATEURS

𝒕 −𝟏 𝒕
[𝑿 𝑿] 𝑿𝒀=𝜶
Les coefficients estimateurs sont d’autant plus précis que :

i. La variance de l’erreur est faible :

la droite de régression passe bien au milieu des points

ii. La dispersion des X est forte :

les X couvrent bien l’espace de représentation
(𝒙𝒊 − 𝒙)𝟐 est faible !

Y Y

Mohamed Heny SELMI © Xi Xi

CRITÈRES DE SÉLECTION DE VARIABLES PERTINENTES

AIC BIC

Critère d'information d'Akaike critère d'information Bayésien

la différence entre 2 fois le nombre de paramètres (k) pénalité dépend de la taille de l'échantillon et pas
deux fois la log-vraisemblance du modèle estimé. seulement du nombre de paramètres

𝑨𝑰𝑪 = 𝟐𝒌 − 𝟐 ln 𝑳 𝑨𝑰𝑩 = − 𝟐 ln 𝑳 + 𝒌 ln 𝑵

Mohamed Heny SELMI ©

CRITÈRES DE SÉLECTION DE VARIABLES PERTINENTES

Les méthodes pas à pas consistent à considérer

d’abord un modèle faisant intervenir toutes les
variables explicatives. Puis on procède par élimination
ou ajout successif de variables.

- la méthode descendante ou élimination en arrière

lorsque on élimine des variables

- la méthode ascendante ou sélection en avant

lorsque on ajoute des variables

- La méthode stepwise est une combinaison de ces

deux méthodes
Mohamed Heny SELMI ©
EXEMPLE : CAS DE VENTES SEMESTRIELLES
Variable à prédire :
VENTES = Ventes semestrielles
Variables prédictives :
MT = Marché total
RG = Remises aux grossistes
PRIX = Prix
BR = Budget de Recherche
INV = Investissement
PUB = Publicité
FV = Frais de ventes
TPUB = Total budget publicité de la branche

Mohamed Heny SELMI ©

PREMIÈRE ÉTAPE

Model Summary

Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .898a .806 .752 256.29
a. Predictors: (Constant), Tot al publicité de la branche,
Marché total, Remises aux grossistes, Budget de
recherche, I nv estissements, Publicité, Prix, Frais de
v entes

TPUB = Total budget publicité de la branche Coeffi cientsa

Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3129.231 641.355 4.879 .000
MT 4.423 1.588 2.785 .009
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
a. Dependent Variable: VENTES
Mohamed Heny SELMI ©
MODÈLE COMPLET (SANS RESTRICTION DE VARIABLES)

Coeffi cientsa

VENTE
1 = 3129,231 + 4,423 X MT + 1,676 X RG - 13,526 X PRIX – 3,410 X BR +1,924 X INV + 8,328 X PUB + 1,497 X FV – 0,00215 X TPUB

Mohamed Heny SELMI ©

DEUXIÈME ÉTAPE

Model Summaryb

Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .898a .806 .760 251.99
a. Predictors: (Constant), Frais de v entes, Remises aux
grossistes, Publicité, Inv estissements, Budget de
recherche, Prix, Marché total
b. Dependent Variable: Vent es

BR = Budget de Recherche Coeffici entsa

Unstandardized
Coef f icients
Model B Std. Error t Sig.
1 (Constant) 3115.648 579.517 5.376 .000
MT 4.426 1.561 2.836 .008
RG 1.706 3.191 .535 .597
PRIX -13.445 8.029 -1.675 .104
BR -3.392 6.451 -.526 .603
INV 1.931 .756 2.554 .016
PUB 8.558 1.784 4.798 .000
FV 1.482 2.710 .547 .588
a. Dependent Variable: VENTES
Mohamed Heny SELMI ©
TROIXIÈME ÉTAPE

Model Summaryb

Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .897a .804 .766 249.04
a. Predictors: (Constant), Frais de v entes, Remises aux
grossistes, Publicité, Inv estissements, Prix, Marché
total
b. Dependent Variable: Vent es

FV = Frais de ventes Coeffi cientsa

Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3137.547 571.233 5.493 .000
MT 4.756 1.412 3.368 .002
RG 1.705 3.153 .541 .593
PRIX -14.790 7.521 -1.966 .058
INV 1.885 .742 2.539 .016
PUB 8.519 1.761 4.837 .000
FV .950 2.484 .382 .705
a. Dependent Variable: VENTES
Mohamed Heny SELMI ©
QUATRIÈME ÉTAPE

Model Summaryb

Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .896a .803 .772 245.69
a. Predictors: (Constant), Publicité, Remises aux
grossistes, Marché total, Inv estissements, Prix
b. Dependent Variable: Vent es

RG = Remises aux grossistes

Coeffi cientsa

Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3084.009 546.374 5.645 .000
MT 5.222 .704 7.415 .000
RG 1.700 3.111 .546 .589
PRIX -13.467 6.589 -2.044 .049
INV 1.984 .686 2.893 .007
PUB 8.328 1.666 4.998 .000
a. Dependent Variable: VENTES
Mohamed Heny SELMI ©
MODÈLE AVEC SÉLECTION DE VARIABLES

VENTE
2 = 3084,009 + 5,222 X MT -13,467 X PRIX + +1,984 X INV + 8,328 X PUB

Mohamed Heny SELMI ©

PRÉDICTION ET ÉVALUATION SUR UN ENTREPÔT DE TEST

𝜶𝒊

Modèle
global
𝜶𝒊

Modèle
réduit

Mohamed Heny SELMI ©

COMPARAISON DES MODÈLES DE PRÉDICTION

𝜶𝒊

Modèle
global
𝜶𝒊

Modèle
réduit

Mohamed Heny SELMI ©

LES POINTS ATYPIQUES
Repérer les observations qui jouent un rôle anormal dans la régression

Atypique •Elle prend une valeur inhabituelle sur une variable

•Elle prend une combinaison de valeurs inhabituelles
(aberrant) sur plusieurs variables

•Elle pèse de manière exagérée dans la régression

Influent •les résultats sont très différents selon que le point
est pris en compte ou pas dans la régression

Atypique •Elle est très mal reconstituée (expliquée) par la

régression
•le résidu observé est très élevé, le point n’obéit pas à
(régression) la relation qui a été établie par la régression

LES POINTS ATYPIQUES

Mohamed Heny SELMI

Si la variable à prédire est une variable Binaire ? Peut-on faire une régression linéaire ?
Mohamed Heny SELMI ©
PROBLÉMATIQUE

Y = cœur
presence  Visiblement la régression linéaire ne convient pas

 La droite linéaire ne représente pas bien les données

 La droite linéaire n’est pas la meilleure courbe qui

résume mieux le nuage de points

 La droite linéaire n’explique pas bien les Y en fonction

des Xi

 La résolution : trouver une autre régression dont la

forme de sa représentation est plus proche de la
absence nature du nuage de points

Xi  L'estimation des proportions par

régression logistique
Mohamed Heny SELMI ©
FONCTION LOGISTIQUE
 Un nuage de points dont la variable
décisionnelle est une variable qualitative
binaire {0,1} ne peut pas être résumer par
une droite

 Un tel nuage ne peut être représenté

que par une fonction mathématique
qui donne une courbe en S :

 Solution :

Fonction Logistique π

e  0  1 x
 ( x)  P(Y  1 / X )  : régression logistique binaire simple
1  e  0  1x
e 0  1x1 ...  k xk
 ( x)  P(Y  1 / X  x)  : régression logistique binaire multiple
1  e 0  1x1 ...  k xk
Mohamed Heny SELMI ©
INTERPRÉTATION DE Y – PROBABILITÉ DE SUCCÈS
 Prédire une variable décisionnelle ayant deux modalités Y = {0 (absence), 1 (présence)}
 L’une désigne un succès (Y = 1) et l’autre un échec (Y = 0)
 Le principe de la régression dans ce cas est de chercher la probabilité d’obtenir le succès P(Y = 1)

 Obtenir la probabilité du cas succès → Obtenir la probabilité de l’échec

 P(Y = 0) = 1 - P(Y = 1)

Y
1 Pour décider :

 Se munir d’une règle de décision

θ = 0,5  Pour un seuil θ :

𝟏 𝐬𝐢 𝐏 𝐘 = 𝟏 > 𝛉
𝐘=*
𝟎 𝐬𝐢 𝐏 𝐘 = 𝟏 ≤ 𝛉
0
Xi  En approximation : θ = 0,5
Mohamed Heny SELMI ©
OBTENTION DES COEFFICIENTS CLASSIFIEURS 𝜷𝒊
Objectifs : trouver les meilleurs 𝜷𝒊
𝒆𝜷𝟎 +𝜷𝟏 𝒙𝟏 +⋯+𝜷𝒌𝒙𝒌
𝝅 𝑿 = 𝑷 𝒀 = 𝟏 𝑿 = 𝒙𝒊 =
𝟏 + 𝒆𝜷𝟎 +𝜷𝟏 𝒙𝟏 +⋯+𝜷𝒌𝒙𝒌

𝝅 𝑿 + 𝝅 𝑿 . 𝒆𝜷𝟎 +𝜷𝟏 𝒙𝟏 +⋯+𝜷𝒌𝒙𝒌 = 𝒆𝜷𝟎 +𝜷𝟏 𝒙𝟏 +⋯+𝜷𝒌𝒙𝒌

𝝅 𝑿 = 𝒆𝜷𝟎 +𝜷𝟏 𝒙𝟏 +⋯+𝜷𝒌𝒙𝒌 . 𝟏 − 𝝅 𝑿

𝛃𝟎 +𝛃𝟏 𝐱 𝟏 +⋯+𝛃𝐤 𝐱 𝐤
𝝅(𝑿)
𝐞 =
𝟏 − 𝝅(𝑿)

𝝅 𝑿
ln(𝐞𝛃𝟎 +𝛃𝟏 𝐱𝟏 +⋯+𝛃𝐤 𝐱𝐤 ) = ln( )
𝟏− 𝝅 𝑿

𝝅 𝑿
𝛃𝟎 + 𝛃𝟏 𝐱𝟏 + ⋯ + 𝛃𝐤 𝐱𝐤 = ln( )
𝟏− 𝝅 𝑿

PROBABILITÉ DU CAS ‘SUCCÈS’

X1 X2 Y
1 2 OUI
1 1 OUI
2 2 OUI
2 2 OUI
NON
NON
NON

𝟏
𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟐𝟓
𝟒
𝟏
𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎, 𝟐𝟓
𝟒
𝟐
𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟓
𝟒
𝟎
𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎
𝟒
Mohamed Heny SELMI ©
UTILITÉ DE LA FONCTION 𝝅(𝑿)
X1 X2 Y P(Y=OUI | Xi)
1 2 OUI 0,25
𝟏
1 1 OUI 0,25 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟐𝟓
𝟒
𝟏
2 2 OUI 0,5 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎, 𝟐𝟓
𝟒
𝟐
2 2 OUI 0,5 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟓
𝟒
𝟎
NON 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎
𝟒
NON
NON

Supposons qu’on va considérer les valeurs des probabilités de Y : [0,1]

Alors on va construire un modèle linéaire qui explique les probabilités P(Y|Xi) par les Xi

Lors de la prédiction : on risque d’avoir des valeurs de probabilités

P(Y|Xi) < 0 ou P(Y|Xi) > 1
Absurde : Modèle non significatif / erroné
Mohamed Heny SELMI ©
UTILITÉ DE LA FONCTION 𝝅(𝑿)
X1 X2 Y P(Y=OUI | Xi)
1 2 OUI 0,25
𝟏
1 1 OUI 0,25 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟐𝟓
𝟒
𝟏
2 2 OUI 0,5 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎, 𝟐𝟓
𝟒
𝟐
2 2 OUI 0,5 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟓
𝟒
𝟎
NON 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎
𝟒
NON
NON

 Passer à la transformation Logistique

 Transformer l’intervalle des probabilités en des valeurs réelles

moyennant une fonction inversible

UTILITÉ DE LA FONCTION 𝝅(𝑿)
X1 X2 Y P(Y=OUI | Xi)
1 2 OUI 0,25
𝟏
1 1 OUI 0,25 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟐𝟓
𝟒
𝟏
2 2 OUI 0,5 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎, 𝟐𝟓
𝟒
𝟐
2 2 OUI 0,5 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟓
𝟒
𝟎
NON 𝑷 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎
𝟒
NON
NON

 Passer à la transformation Logistique

 Transformer l’intervalle des probabilités en des valeurs réelles

moyennant une fonction inversible

 La Fonction LOGIT est une fonction bijective

 Elle permet de récupérer les probabilités dans un sens inverse

𝝅 𝑿
APPLICATION DE LA FONCTION 𝒍𝒏( )
𝟏− 𝝅 𝑿
X1 X2 Y P(Y=OUI | Xi)
1 2 OUI 0,25
𝟏
1 1 OUI 0,25 𝝅𝟏 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟐𝟓
𝟒
𝟏
2 2 OUI 0,5 𝝅𝟐 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟏 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎, 𝟐𝟓
𝟒
𝟐
2 2 OUI 0,5 𝝅𝟑 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟐 ) = = 𝟎, 𝟓
𝟒
𝟎
NON 𝝅𝟒 𝒀 = 𝑶𝑼𝑰 𝑿𝟏 = 𝟐 𝒆𝒕 𝑿𝟐 = 𝟏 ) = = 𝟎
𝟒
NON
NON

𝝅𝟏 𝑿 𝟎, 𝟐𝟓
𝒍𝒏( ) = 𝒍𝒏( ) = −𝟏, 𝟎𝟗𝟖𝟔𝟏𝟐𝟐𝟖𝟕
𝟏 − 𝝅𝟏 𝑿 𝟏 − 𝟎, 𝟐𝟓
𝝅𝟐 𝑿 𝟎, 𝟐𝟓
𝒍𝒏( ) = 𝒍𝒏( ) = −𝟏, 𝟎𝟗𝟖𝟔𝟏𝟐𝟐𝟖𝟕
𝟏 − 𝝅𝟐 𝑿 𝟏 − 𝟎, 𝟐𝟓
𝝅𝟑 𝑿 𝟎, 𝟓
𝒍𝒏( ) = 𝒍𝒏( )=𝟎
𝟏 − 𝝅𝟑 𝑿 𝟏 − 𝟎, 𝟓
𝝅𝟒 𝑿 𝟎
𝒍𝒏( ) = 𝒍𝒏( ) = −∞
𝟏 − 𝝅𝟒 𝑿 𝟏−𝟎
Mohamed Heny SELMI ©
𝝅 𝑿
APPLICATION DE LA FONCTION 𝒍𝒏( )
𝟏− 𝝅 𝑿
𝝅 𝑿
X1 X2 Y P(Y=OUI | Xi) 𝒍𝒏( )
𝟏− 𝝅 𝑿
−𝟏, 𝟎𝟗𝟖𝟔𝟏𝟐𝟐𝟖𝟕
1 2 OUI 0,25

1 1 OUI 0,25 −𝟏, 𝟎𝟗𝟖𝟔𝟏𝟐𝟐𝟖𝟕

2 2 OUI 0,5 0
2 2 OUI 0,5 0
NON
NON
NON

−∞, +∞

Information purement quantitative

Vous aimerez peut-être aussi

Regression Linéaire
Pas encore d'évaluation
Regression Linéaire
33 pages
Approximation Au Sens Des Moindres Carrés (MANI YOUSSEF Et KRIT RIDA)
Pas encore d'évaluation
Approximation Au Sens Des Moindres Carrés (MANI YOUSSEF Et KRIT RIDA)
52 pages
DM - Chapitre 3
Pas encore d'évaluation
DM - Chapitre 3
13 pages
Data Mining Prediction
Pas encore d'évaluation
Data Mining Prediction
151 pages
Chapitre Prévision de La Demande
Pas encore d'évaluation
Chapitre Prévision de La Demande
102 pages
Chap II Regression
Pas encore d'évaluation
Chap II Regression
53 pages
Chapitre. Régression Linéaire Simple - 19-20 - Part01 PDF
Pas encore d'évaluation
Chapitre. Régression Linéaire Simple - 19-20 - Part01 PDF
10 pages
Chapitre. Régression Linéaire Simple - 19-20 - Part01
Pas encore d'évaluation
Chapitre. Régression Linéaire Simple - 19-20 - Part01
10 pages
Gestion de Production Cours Chapitre 3 Prevision
Pas encore d'évaluation
Gestion de Production Cours Chapitre 3 Prevision
51 pages
Cours 1
Pas encore d'évaluation
Cours 1
5 pages
Chapitre 4 Regression Generalities
Pas encore d'évaluation
Chapitre 4 Regression Generalities
9 pages
Chapitre MLRS Présentation - 230222 - 094016
100% (1)
Chapitre MLRS Présentation - 230222 - 094016
69 pages
Méthodes de Prévision Quantitatives
Pas encore d'évaluation
Méthodes de Prévision Quantitatives
64 pages
DataMining Et Analyse de Données - Partie 2
Pas encore d'évaluation
DataMining Et Analyse de Données - Partie 2
108 pages
Seance 3 Gestion de La Demande
Pas encore d'évaluation
Seance 3 Gestion de La Demande
7 pages
Seance 3 Gestion de La Demande
Pas encore d'évaluation
Seance 3 Gestion de La Demande
38 pages
Handout 2
Pas encore d'évaluation
Handout 2
8 pages
Stat Cour +serie 1
Pas encore d'évaluation
Stat Cour +serie 1
20 pages
Chapitre 1 MLRS Présentation PDF
Pas encore d'évaluation
Chapitre 1 MLRS Présentation PDF
53 pages
5 - Moindres Carres
Pas encore d'évaluation
5 - Moindres Carres
36 pages
STAT Ok
Pas encore d'évaluation
STAT Ok
7 pages
Méthodes Quantitatives de Prévision
100% (6)
Méthodes Quantitatives de Prévision
25 pages
Regression Lineaire Multiple
Pas encore d'évaluation
Regression Lineaire Multiple
11 pages
Exploration
Pas encore d'évaluation
Exploration
12 pages
Chapitre 7 - Estimation de Paramètres: Modèle
Pas encore d'évaluation
Chapitre 7 - Estimation de Paramètres: Modèle
30 pages
Chapitre 9 Statistique Double
Pas encore d'évaluation
Chapitre 9 Statistique Double
2 pages
Chap6 Regression
Pas encore d'évaluation
Chap6 Regression
51 pages
S1 - Exposé Statistique A Deux Variables - MBN
Pas encore d'évaluation
S1 - Exposé Statistique A Deux Variables - MBN
75 pages
Modele Lineaire Module 1
Pas encore d'évaluation
Modele Lineaire Module 1
55 pages
Séries Statistiques Doubles CGE 1 2019
Pas encore d'évaluation
Séries Statistiques Doubles CGE 1 2019
7 pages
Cahier de Statistique II
Pas encore d'évaluation
Cahier de Statistique II
29 pages
Cours MM Chap3 2020
Pas encore d'évaluation
Cours MM Chap3 2020
7 pages
Devoir Tsiky
Pas encore d'évaluation
Devoir Tsiky
15 pages
Beamer Lille
Pas encore d'évaluation
Beamer Lille
25 pages
STAT-Prev-Chap-22 2
Pas encore d'évaluation
STAT-Prev-Chap-22 2
36 pages
Analyse Multivariee Et Applications.
Pas encore d'évaluation
Analyse Multivariee Et Applications.
64 pages
PDF Statistiques Deux Variables
Pas encore d'évaluation
PDF Statistiques Deux Variables
6 pages
Chap2 Regression
Pas encore d'évaluation
Chap2 Regression
78 pages
Cours Logistique: Prévison
Pas encore d'évaluation
Cours Logistique: Prévison
13 pages
Sequence Statistique 12 STG
Pas encore d'évaluation
Sequence Statistique 12 STG
10 pages
Méthodes Prévision Demande
100% (1)
Méthodes Prévision Demande
13 pages
5 Regression Lineaire
Pas encore d'évaluation
5 Regression Lineaire
8 pages
Maths Appliquées Tle
Pas encore d'évaluation
Maths Appliquées Tle
53 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
16 pages
Gherab, Mekioussa
Pas encore d'évaluation
Gherab, Mekioussa
77 pages
REGRESSION
Pas encore d'évaluation
REGRESSION
16 pages
Budget Des Ventes Rajjja PDF
75% (8)
Budget Des Ventes Rajjja PDF
72 pages
Chap 3 Régression
Pas encore d'évaluation
Chap 3 Régression
17 pages
Méthodes de Prévision
Pas encore d'évaluation
Méthodes de Prévision
17 pages
Méthodes de Prévision
Pas encore d'évaluation
Méthodes de Prévision
17 pages
Cours - Ajustement de Courbes Et Séries Chronologiques
Pas encore d'évaluation
Cours - Ajustement de Courbes Et Séries Chronologiques
38 pages
Tstat 2
Pas encore d'évaluation
Tstat 2
12 pages
Module 1 STATISTIQUES STG Mali
Pas encore d'évaluation
Module 1 STATISTIQUES STG Mali
8 pages
Application 2: Les Ventes Quadrimestrielles Du Produit A Sont Les Suivantes Au Cours Des 3 Derniers Exercices
Pas encore d'évaluation
Application 2: Les Ventes Quadrimestrielles Du Produit A Sont Les Suivantes Au Cours Des 3 Derniers Exercices
16 pages
Laffly Regression Multiple
Pas encore d'évaluation
Laffly Regression Multiple
33 pages
Ancien Examen Soa
Pas encore d'évaluation
Ancien Examen Soa
6 pages
Map Dsex Exam 1234 S2P1 2425 VF
Pas encore d'évaluation
Map Dsex Exam 1234 S2P1 2425 VF
46 pages
Support JWT
Pas encore d'évaluation
Support JWT
12 pages
Atelier 4 - Exposition Des Fonctions Via FastApi
Pas encore d'évaluation
Atelier 4 - Exposition Des Fonctions Via FastApi
4 pages
Atelier 6 - Conteneurisation Avec Docker
Pas encore d'évaluation
Atelier 6 - Conteneurisation Avec Docker
4 pages
DATA MINING - Chap1. Analyse Avec Acp
Pas encore d'évaluation
DATA MINING - Chap1. Analyse Avec Acp
43 pages
Econo Me Trie 25042015
Pas encore d'évaluation
Econo Me Trie 25042015
49 pages
Ibm Spss Categories FR
Pas encore d'évaluation
Ibm Spss Categories FR
66 pages
Terminale C s3t2 2025 - 031511
Pas encore d'évaluation
Terminale C s3t2 2025 - 031511
2 pages
Bivariée
Pas encore d'évaluation
Bivariée
37 pages
Modelisation Statistique Pour - JHILAL Fayssal - 1210
Pas encore d'évaluation
Modelisation Statistique Pour - JHILAL Fayssal - 1210
51 pages
Statistique Appliquée À La Finance: Attijariwafa Bank Vs Masi
Pas encore d'évaluation
Statistique Appliquée À La Finance: Attijariwafa Bank Vs Masi
12 pages
Econométrie R
Pas encore d'évaluation
Econométrie R
156 pages
Analyse Des Données
Pas encore d'évaluation
Analyse Des Données
183 pages
Bac 2020
Pas encore d'évaluation
Bac 2020
4 pages
Exam S6 2022 - Normal
Pas encore d'évaluation
Exam S6 2022 - Normal
2 pages
TD Analyse Donnees
Pas encore d'évaluation
TD Analyse Donnees
8 pages
Wa0037
Pas encore d'évaluation
Wa0037
10 pages
Programme Insp DGFiP Externe
Pas encore d'évaluation
Programme Insp DGFiP Externe
15 pages
ARp 04
Pas encore d'évaluation
ARp 04
7 pages
Résumé Du Cours de Machine Learning
Pas encore d'évaluation
Résumé Du Cours de Machine Learning
7 pages
Demarche Econometrique
Pas encore d'évaluation
Demarche Econometrique
15 pages
Memoire de Fin D'etudes
Pas encore d'évaluation
Memoire de Fin D'etudes
53 pages
Déterminants Des Inégalités de Revenus Dans Les Pays Africains
100% (1)
Déterminants Des Inégalités de Revenus Dans Les Pays Africains
44 pages
Plan
100% (1)
Plan
4 pages
Regression
Pas encore d'évaluation
Regression
7 pages
BAC Maths G2 2019
Pas encore d'évaluation
BAC Maths G2 2019
2 pages
S6 TD1
Pas encore d'évaluation
S6 TD1
9 pages
M05 - Les Statistiques À Deux Variables
100% (1)
M05 - Les Statistiques À Deux Variables
44 pages
Partie 2-2 - Régression Linéaire Multiple
Pas encore d'évaluation
Partie 2-2 - Régression Linéaire Multiple
36 pages
QCM Stat Intermediaire Avance
100% (1)
QCM Stat Intermediaire Avance
6 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
57 pages
TD1 Econometrie Des Series Temporelles
Pas encore d'évaluation
TD1 Econometrie Des Series Temporelles
2 pages
Regression Linéaire Simple
Pas encore d'évaluation
Regression Linéaire Simple
8 pages
Econométrie ch1 & 2
Pas encore d'évaluation
Econométrie ch1 & 2
36 pages
Etudiant
Pas encore d'évaluation
Etudiant
29 pages