0% ont trouvé ce document utile (0 vote)
54 vues22 pages

Chap4regression Multiple

Ce document décrit la régression multiple, une méthode statistique pour estimer la relation entre une variable dépendante et plusieurs variables indépendantes. Il explique le modèle général de régression multiple, le processus d'estimation des coefficients, et les tests utilisés pour évaluer la qualité de la régression.

Transféré par

Zahra El haddi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
54 vues22 pages

Chap4regression Multiple

Ce document décrit la régression multiple, une méthode statistique pour estimer la relation entre une variable dépendante et plusieurs variables indépendantes. Il explique le modèle général de régression multiple, le processus d'estimation des coefficients, et les tests utilisés pour évaluer la qualité de la régression.

Transféré par

Zahra El haddi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 22

Analyse de données

A. Sakat
Filière : GI & SI et Big data
Departement :
Semestre 8
Génie Informatique et Mathématiques

Filière GI, S8
Quand utiliser la régression
multiple
Pour estimer la relation entre une variable dépendante (Y )
et plusieurs variables indépendantes (X1, X2, …)
Y est la variable, quantitative, dite à expliquer
les Xj, quantitatives ou binaires, dites explicatives
Exemples
◼ Expliquer les ventes d’un magasin par le marché total, le
prix, l’investissement, la publicité,…
◼ Expliquer la consommation des véhicules par le prix, la
cylindrée, la puissance et le poids.
Le modèle général de régression
multiple
Equation de régression multiple
Cette équation précise la façon dont la variable
dépendante est reliée aux variables explicatives :

Y = 0 + 1 X 1 +  2 X 2 + ... p X p + 
où 0 1 2     p sont les paramètres et  est un
bruit aléatoire représentant le terme d’erreur.
Le modèle général de régression
multiple
Les termes de l’équation

yi =  0 + 1 x1i +  2 x2i + ... p x pi +  i

ième observation Terme constant Influence de


de Y la variable Xp
Influence de la
variable X1
Résidu de la ième
observation
Ecriture matricielle du modèle
Y1 = β0 + β1x11 + . . . + βjx1j + . . . + βpx1p + ε1
... ...
Yi = β0 + β1xi 1 + . . . + βjxij + . . . + βpxip + εi
... ...
Yn = β0 + β1xn1 + . . . + βjxnj + . . . + βpxnp + εn

Matriciellement :
Y = Xβ + E avec E(E ) = 0, V(E ) = σ2 I_d

 0 
 y1  1 x1,1  x1, p      1 
   =       1  +   
       
 yn  1 x1,n  xn , p     n 
  p 
y = X + 
Le modèle général de régression
multiple
Les hypothèses du modèle
◼ Les hypothèses de nature probabiliste
Les variables Xi sont aléatoires
E(i)=0 pour tout i (1≤i≤p).
V(i)=2 pour tout 1≤i≤p (homoscédasticité des
erreurs, i.e.  ne dépend pas de i)
Cov(i , i )=0 pour tout i≠j
Le vecteur aléatoire  suit une loi normale à n
dimensions N(0,  2In)
◼ Les hypothèses structurelles
Det(XTX)≠0 (absence de colinéarité entre les
variables explicatives).
n>p+1
Le processus d’estimation
Modèle de régression multiple
Données:
Y = 0 + 1X1 + 2X2 +. . .+ pXp +  x1 x2 . . . xp y
Equation de régression multiple . . . .
E(Y|X1,…,Xp) = 0 + 1X1 + 2X2 +. . .+ pXp . . . .
Paramètres inconnus
0 , 1 , 2 , . . . , p

Equation estimée
ˆ0 , ˆ1 , ˆ2 ,..., ˆ p
Yˆ = ˆ0 + ˆ1 X 1 + ˆ2 X 2 + ... + ˆ p X p
Estimateurs de
Estimateurs
 0 , 1 , 2 , . . . ,  p
ˆ0 , ˆ1 , ˆ2 ,..., ˆ p
Le processus d’estimation
Estimation des coefficients de régression
◼ La méthode : les moindres carrés ordinaires
Le principe de l’estimation des coefficients de
régression :
 0 , 1 ,  2 ,...,  p
consiste à minimiser la somme des carrés des
résidus :
n n

 i  i i
 2

i =1
= ( y − ˆ
y ) 2

i =1
Le processus d’estimation

Estimation des coefficients du modèle


La méthode des moindres carrés donne pour
résultat :
ˆ = (X T X ) X T Y
−1

(
̂ suit une loi N 0,   (X X )
2 T −1
)
̂ est sans biais : E (ˆ ) = 
Parmi les estimateurs de  linéaires par rapport à
X, sans biais, les éléments de ̂ ont la plus petite
variance.
Le processus d’estimation
Interprétation des coefficients de
régression estimés
◼ La pente ̂ k (k≠0)
L’estimée de Y varie d’un facteur égal à ̂ k
lorsque Xk augmente d’une unité, les autres
variables étant maintenues constantes.
◼ L’ordonnée à l’origine ̂ 0
C’est la valeur moyenne de Y lorsque toutes les
Xi sont nulles.
Estimation de la variance des résidus
n

 i
2

ˆ =
2 i =1
n − p −1
Les données
◼ Taille de l’échantillon
Les données doivent être suffisamment
nombreuses : 15 à 20 par variable au moins.
◼ La nature des variables
Dans la pratique, Y est une variable
quantitative et les Xi peuvent être quantitatives
ou binaires.
Décomposition de la somme des carrés
totale
SCT : somme des carrés totale
SCR : somme des carrés du modèle de régression
SCE : somme des carrés résiduels

SCT = SSR + SCE

 (y − Y ) =  ( yˆ − Y ) +  ( y − yˆ )
n n n
2 2 2
i i i i
i =1 i =1 i =1
Les coefficients de détermination
◼ Le coefficient de détermination R2
R2 = SCR/SCT
Il exprime le pourcentage de la variance de Y
expliquée par le modèle. Il donne une idée
globale de l'ajustement du modèle.
◼ Le R2 ajusté se calcule en fonction du R2 :
n −1
Ra = 1 −
2
(1 − R 2 )
n − p −1
Il traduit à la fois la qualité de l’ajustement
(liaison entre Y et les Xi) et la complexité du
modèle (nombre de variables explicatives).
Qualité de la régression
Le test de Fisher
Il permet de répondre à la question : la liaison
globale entre Y et les Xi est-elle significative ?
◼ Hypothèses

H0: 1 = 2 = ... = p = 0
Y ne dépend pas des variables Xi .

H1: Au moins un coefficient est non nul


Y dépend d’au moins une variable Xi .
Qualité de la régression
◼ Statistique utilisée
SCR
MSR p
F= =
MSE SCE
n − p −1

◼ Règle de décision
Au risque , on rejette H0 si : F  F1-
où F1- est un fractile d’une loi de Fisher à p et
n-p-1 degrés de liberté.
Qualité de la régression
R2 et test de Fisher

F bon, R² mauvais F bon, R² bon


Le test de Student
Il permet de répondre à la question suivante :
l’apport marginal d’une variable Xi est-il
significatif ?
◼ Hypothèses

H0 : j = 0 (j≠0)
On peut supprimer la variable Xj

H1 : j  0
Il faut conserver la variable Xj
Qualité de la régression
◼ Statistique utilisée

ˆi
ti = , sˆ : écart-type de ˆi
sˆ i
i

◼ Règle de décision
Au risque , on rejette H0 si : |t| ≥ t1-
où t1- est un fractile d’une loi de Student
à n-p-1 degrés de liberté.
Analyse des résidus
Normalité
◼ QQ plot
◼ Tests de normalité
Homoscédasticité
◼ La variance des résidus n’est pas stable.
◼ Transformation des données
Indépendance des résidus
◼ Test de Durbin-Watson
Détection des valeurs atypiques
Les variables indicatrices
Variable indicatrice (dummy variable)
Variable prenant les valeurs 0 ou 1 pour indiquer
que l’observation présente une certaine
caractéristique, par exemple une périodicité
(trimestre, mois,…).
Exemple : la consommation de fuel trimestrielle

X t =  0 + 1t +  2 d1 +  3 d 2 +  4 d 4 +  t
di = 1 pour le iéme trimestre
di = 0 sinon

Vous aimerez peut-être aussi