0% ont trouvé ce document utile (0 vote)
1K vues38 pages

Support Master 2

Le modèle de régression multiple est présenté. Il s'agit d'une généralisation du modèle de régression simple permettant d'expliquer une variable à l'aide de plusieurs variables explicatives. Les estimateurs des coefficients sont obtenus par la méthode des moindres carrés ordinaires.

Transféré par

ja nat
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
1K vues38 pages

Support Master 2

Le modèle de régression multiple est présenté. Il s'agit d'une généralisation du modèle de régression simple permettant d'expliquer une variable à l'aide de plusieurs variables explicatives. Les estimateurs des coefficients sont obtenus par la méthode des moindres carrés ordinaires.

Transféré par

ja nat
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 38

3.

Le modèle
de régression multiple

L
e modèle linéaire général est une extension du modèle de régres-
sion simple abordé au chapitre précédent. Après avoir présenté le
modèle linéaire général (I), nous envisageons une procédure d’es-
timation des paramètres en étudiant les propriétés statistiques des esti-
mateurs (II). Les différents tests d’hypothèses concernant les coefficients
du modèle sont proposés en (III), et la section (IV) est consacrée à l’analy-
se de la variance ainsi qu’aux tests s’y rattachant.
En (V) nous présentons une classe particulière de séries explicatives : les
variables indicatrices, puis la prévision à l’aide du modèle linéaire géné-
ral fait l’objet de la section (VI).
Enfin nous terminons ce chapitre par quelques exercices récapitulatifs.

I. Le modèle linéaire général


A. Présentation
Lors du chapitre précédent, nous avons considéré qu’une variable endogène est
expliquée à l’aide d’une seule variable exogène. Cependant, il est extrêmement
rare qu’un phénomène économique ou social puisse être appréhendé par une
seule variable. Le modèle linéaire général est une généralisation du modèle de
régression simple dans lequel figurent plusieurs variables explicatives :
yt = a0 + a1 x1t + a2 x2t + . . . + ak xkt + εt pour t = 1,. . . , n

Le modèle de régression multiple  47


avec :
yt = variable à expliquer à la date t ;
x1t = variable explicative 1 à la date t ;
x2t = variable explicative 2 à la date t ;
...
xkt = variable explicative k à la date t ;
a0 , a1 ,. . . , ak = paramètres du modèle ;
εt = erreur de spécification (différence entre le modèle vrai et le modèle spé-
cifié), cette erreur est inconnue et restera inconnue ;
n = nombre d’observations.

B. Forme matricielle
L’écriture précédente du modèle est d’un maniement peu pratique. Afin d’en
alléger l’écriture et de faciliter l’expression de certains résultats, on a habituel-
lement recours aux notations matricielles. En écrivant le modèle, observation
par observation, nous obtenons :

y1 = a0 + a1 x11 + a2 x21 + . . . + ak xk1 + ε1


y2 = a0 + a1 x12 + a2 x22 + . . . + ak xk2 + ε2
...
yt = a0 + a1 x1t + a2 x2t + . . . + ak xkt + εt
...
yn = a0 + a1 x1n + a2 x2n + . . . + ak xkn + εn

Soit, sous forme matricielle : Y = X a + ε


(n,1) (n,k+1) (k+1,1) (n,1)

avec :
    
y1 1 x11 x21 ... xk1   ε1
 y2  1 x12 x22 ... xk2  a 0  ε2 
 .  . .. ..   a1   . 
 .  .     . 
 .  . . . ...   a   . 
Y = ; X =  ; a = 2 ; ε = 
 yt  1 x1t x2t ... xkt   ...   εt 
 .  . .. ..   . 
 .   .. . . ...   .. 
. ak
yn 1 x1n x2n ... xkn εn
Nous remarquons la première colonne de la matrice X , composée de 1, qui
correspond au coefficient a0 (coefficient du terme constant).
La dimension de la matrice X est donc de n lignes et k + 1 colonnes (k étant
le nombre de variables explicatives réelles, c’est-à-dire constante exclue).

48  ÉCONOMÉTRIE
L’écriture sous forme matricielle rend plus aisée la manipulation du modèle
linéaire général, c’est pourquoi nous l’adoptons par la suite.

II. Estimation et propriétés


des estimateurs

A. Estimation des coefficients de régression


Soit le modèle sous forme matricielle à k variables explicatives et n observa-
tions :
Y = Xa + ε [1]
Afin d’estimer le vecteur a composé des coefficients a0 , a1 . . . ak , nous appli-
quons la méthode des Moindres Carrés Ordinaires (MCO) qui consiste à mini-
miser la somme des carrés des erreurs, soit :


n
Min εt2 = Min ε′ ε = Min (Y − Xa)′ (Y − Xa) = Min S [2]
t=1

avec ε′ transposé1 du vecteur ε .


Pour minimiser cette fonction par rapport à a , nous différencions2 S par
rapport à a :
∂S
= −2 X ′ Y + 2 X ′ X
a=0→ a = (X ′ X)−1 X ′ Y [3]
∂a
Cette solution est réalisable3 si la matrice carrée X ′ X de dimension
(k + 1, k + 1) est inversible. La matrice X ′ X est la matrice des produits croisés
des variables explicatives ; en cas de colinéarité parfaite entre deux variables
explicatives, la matrice X ′ X est singulière et la méthode des MCO défaillante.
On appelle équations normales les équations issues de la relation :
X ′ X
a = X′ Y

1. Nous désignerons par le signe ′ les transposés de vecteur ou de matrice.


2. S = (Y − Xa)′ (Y − Xa) = Y ′ Y − Y ′ Xa − a ′ X ′ Y + a ′ X ′ Xa
= Y ′ Y − 2 a ′ X ′ Y + a ′ X ′ Xa .
3. Les conditions de second ordre sont vérifiées du fait que X ′ X est une matrice définie semi-
positive.

Le modèle de régression multiple  49


Soit, sous forme matricielle :
    
n x1t x2t ... xkt    
yt
     a0
 x1t x1t2 x1t x2t ... x1t xkt     
   a1   x1t yt 
        
 x2t xkt   =  
 x2t x2t x1t x2t2 ...  
 a2  x y 
.  ...  2t t 
.  ... 
. ... ... ... ...  
   
ak xkt yt
2
xkt xkt x1t xkt x2t ... xkt

Le modèle estimé s’écrit :


yt =
a0 +
a1 x1t +
a2 x2t + . . . +
ak xkt + et

avec et = yt − yt où et est le résidu, c’est-à-dire l’écart entre la valeur observée


de la variable à expliquer et sa valeur estimée (ajustée).
Attention : il convient de bien distinguer entre l’erreur de spécification du
modèle (noté εt ) qui est et restera inconnue et le résidu (et ) qui, lui, est connu.

1) Cas particulier
Si nous raisonnons sur des données centrées, l’estimateur de a peut s’écrire en
fonction des matrices des variances et covariances empiriques :
   −1

a1 Var(x1 ) Cov(x1 , x2 ) Cov(x1 , x3 ) . . . Cov(x1 xk )
   
 a   Cov(x2 , x1 ) Var(x2 ) Cov(x2 , x3 ) . . . Cov(x2 , xk ) 
 2  
 = . . . Cov(x3 , xk ) 
 a3   Cov(x3 , x1 ) Cov(x3 , x2 ) Var(x3 ) 
... ... 

ak Cov(xk , x1 ) Cov(xk , x2 ) Cov(xk , x3 ) . . . Var(xk )
 
Cov (x1 ,y)
 
 Cov(x2 , y) 
 
×  
 Cov(x3 , y) 
... 
Cov(xk , y)
avec a0 = y −
a1 x 1 −
a2 x 2 − . . . −
ak x k .
Que sont des données centrées sur la moyenne ? Soit xt une variable connue
sur n observations et x sa moyenne, nous pouvons calculer une nouvelle variable

n 
n
(X t = xt –x) dont la somme est par construction nulle : (xt − x) = Xt = 0 .
t=1 t=1
Nous avons donc X = 0 .

2) Effet de la variation d’une seule des variables explicatives


Soit le modèle estimé : yt =
a0 +
a1 x1t +
a2 x2t + . . . +
ak xkt + et .

50  ÉCONOMÉTRIE
Si la variable x2 passe de la valeur x2t à (x2t + x2t ) , toutes choses étant
égales par ailleurs (les k − 1 autres variables restant constantes), alors la
a2 x2 :  ŷt =
variable à expliquer varie de a2 x2t .
Les coefficients s’interprètent donc directement en terme de propension mar-
ginale.

B. Hypothèses et propriétés des estimateurs


Par construction, le modèle est linéaire en X (ou sur ces coefficients) et nous dis-
tinguons les hypothèses stochastiques (liées à l’erreur ε ) des hypothèses struc-
turelles.

1) Hypothèses stochastiques

– H1 : les valeurs xi, t sont observées sans erreur.


– H2 : E(εt ) = 0 , l’espérance mathématique de l’erreur est nulle.
– H3 : E(εt2 ) = σε2 , la variance de l’erreur est constante (∀t) (homoscédasticité).
– H4 : E(εt εt ′ ) = 0 si t = t ′ , les erreurs sont non corrélées (ou encore indé-
pendantes).
– H5 : Cov(xit , εt ) = 0 , l’erreur est indépendante des variables explicatives.

2) Hypothèses structurelles

– H6 : absence de colinéarité entre les variables explicatives, cela implique


que la matrice (X ′ X) est régulière et que la matrice inverse (X ′ X)−1
existe.
– H7 : (X ′ X)/n tend vers une matrice finie non singulière.
– H8 : n > k + 1, le nombre d’observations est supérieur1 au nombre des
séries explicatives.

3) Propriétés des estimateurs

Considérons les propriétés de l’estimateur [3].


Le modèle sous forme matricielle peut s’écrire, comme pour le modèle de
régression simple, de différentes manières :

1. Dans le cas d’une égalité, nous aurions un système de n équations à n inconnues, donc parfai-
tement déterminé.

Le modèle de régression multiple  51


Y = Xa + ε
Y = X
a+e (e = résidu)
→e =Y −Y
= X
Y a
Nous obtenons :

a = (X ′ X)−1 X ′ Y = (X ′ X)−1 X ′ (Xa + ε)

a = (X ′ X)−1 X ′ (Xa) + (X ′ X)−1 X ′ ε [4]

a = a + (X ′ X)−1 X ′ ε

a ) = a + (X ′ X)−1 X ′ E(ε) = a
d’où E( car E(ε) = 0
L’estimateur est donc sans biais : E(
a) = a

Calculons maintenant la matrice des variances et covariances des coefficients


de régression â .
â = E{( a − a)′ }
a − a)(

a − a) = (X ′ X)−1 X ′ ε et (
Or, d’après [4], ( a − a)′ = ε′ X (X ′ X)−1 puisque
′ −1
(X X) est symétrique . 1

a − a)′ = (X ′ X)−1 X ′ εε′ X (X ′ X)−1 d’où


a − a)(
(

â = (X ′ X)−1 X ′ E(ε ε′ )X (X ′ X)−1 avec E(ε ε′ ) = ε = σε2 I = matrice des


variances et covariances de l’erreur ε .
En effet, d’après les hypothèses H3 et H4 nous avons :
 
E(ε1 ε1 ) E(ε1 ε2 ) ... E(ε1 εn )
 
ε = E(ε ε′ ) =  E(ε2 ε1 ) E(ε2 ε2 ) ... E(ε2 εn )  =
... 
E(εn ε1 ) E(εn ε2 ) . . . E(εn εn )
 
σε2 0 0 ... 0
 
= 0 σε2 0 ... 0 
... 
0 0 0 . . . σε2

Soit : â = σε2 (X ′ X)−1 X ′ X (X ′ X)−1

â = σε2 (X ′ X)−1 [5]

1. Nous rappelons quelques règles du calcul matriciel : (ABC)′ = C ′ B ′ A′ et si A est symétrique


A′ = A et donc [(X ′ X)−1 ]′ = (X ′ X)−1 .

52  ÉCONOMÉTRIE
 −1
σ2 X′X
â = ε ⇒ Lim â = 0 si n −→ ∞ (d’après les hypothèses H3
n n
et H7). L’estimateur est donc convergent.
Théorème de Gauss-Markov : L’estimateur [3] des moindres carrés est qua-
lifié de BLUE (Best Linear Unbiaised Estimator), car il s’agit du meilleur esti-
mateur linéaire sans biais (au sens qu’il fournit les variances les plus faibles pour
les estimateurs).
Il est à noter que l’estimateur du maximum de vraisemblance des paramètres
fournit des résultats identiques à ceux de l’estimateur des MCO si l’hypothèse
de normalité des erreurs est vérifiée.
Après un calcul matriciel1, il apparaît que nous pouvons estimer sans biais
2
σε par :
e′ e
σε2 =
[6]
n−k−1

En remplaçant la variance de l’erreur par son estimateur, nous obtenons :

â =
σε2 (X ′ X)−1 [7]

4) Le théorème de Frisch, Waugh et Lovell (FWL)

Supposons que les variables explicatives soient séparées en deux groupes repré-
sentés par les matrices X 1 et X 2 . Le modèle s’écrit : Y = X 1 a1 + X 2 a2 + ε .
Le théorème de FWL nous dit que l’estimateur des MCO du paramètre a2 et
des résidus sont les mêmes que ceux du modèle : M1 Y = M1 X 2 a2 + v avec
M1 = I − X 1 (X 1′ X 1 )−1 X 1′ .
La matrice M1 est symétrique et idempotente (M1′ M1 = M1 ) , de plus
M1 X 1 = 0 .
Ce théorème permet de bien comprendre le problème de la spécification d’un
modèle : si une variable Y est effectivement expliquée par le groupe de variables
X 1 et X 2 , il faut impérativement faire figurer dans le modèle ces deux groupes
de variables même si seul le groupe de variables X 1 nous intéresse.

1. Voir démonstration en annexe C.

Le modèle de régression multiple  53


C. Équation d’analyse de la variance
et qualité d’un ajustement
Comme pour le modèle de régression simple, nous avons :
 
a) yt = yt → y =
y
t t

b) et = 0
t

De ces deux relations, nous en déduisons l’équation fondamentale d’analyse


de la variance :

  
(yt − y)2 = y)2 +
yt −
( et2
t t t [8]
SC T = SC E + SC R

La variabilité totale (SCT) est égale à la variabilité expliquée (SCE) + la


variabilité des résidus (SCR).
Cette équation va nous permettre de juger de la qualité de l’ajustement d’un
modèle ; en effet, plus la variance expliquée est « proche » de la variance tota-
le, meilleur est l’ajustement global du modèle. C’est pourquoi nous calculons le
rapport SCE sur SCT :

 
yt − y)2
( et2
t t
R2 =  =1−  [9]
(yt − y)2 (yt − y)2
t t

R 2 est appelé le coefficient de détermination, et R le coefficient de corréla-


tion multiple. R 2 mesure la proportion de la variance de Y expliquée par la
régression de Y sur X .
Dans le cas de données centrées (moyenne nulle) et seulement dans ce cas,
le coefficient de détermination est égal à :

′ Y
Y e′ e
R2 = = 1 − [10]
Y′ Y Y′ Y

Cette qualité de l’ajustement et l’appréciation que l’on a du R 2 doivent être


tempérées par le degré de liberté de l’estimation. En effet, lorsque le degré de

54  ÉCONOMÉTRIE
liberté est faible1, il convient de corriger le R 2 afin de tenir compte du relative-
ment faible nombre d’observations comparé 2
au nombre de facteurs explicatifs
par le calcul d’un R 2 « corrigé » noté R :

2 n−1
R =1− (1 − R 2 ) [11]
n−k−1

2 2
On a R < R 2 et si n est grand R ≃ R 2 .
Nous verrons au chapitre 4 section IV deux critères (Akaike et Schwarz) per-
mettant d’arbitrer, lors de l’introduction d’une ou plusieurs variables explica-
tives, entre la perte de degrés de liberté et l’apport d’information.

Exercice n° 1
fichier C3EX1

Mise sous forme matricielle d’un modèle et calcul des coefficients


de régression
Soit le modèle à trois variables explicatives :

yt = a0 + a1 x1t + a2 x2t + a3 x3t + εt

Nous disposons des données du tableau 1.


1) Mettre le modèle sous forme matricielle en spécifiant bien les dimensions de cha-
cune des matrices.
2) Estimer les paramètres du modèle.
3) Calculer l’estimation de la variance de l’erreur ainsi que les écarts types de chacun
des coefficients.
2
4) Calculer le R 2 et le R corrigé.

1. Dans le cas d’un modèle où le nombre d’observations est égal au nombre de variables explica-
tives (degré de liberté = 0 ), le R 2 = 1 . Cependant, le pouvoir explicatif de ce modèle est nul.

Le modèle de régression multiple  55


Tableau 1 – Valeurs observées de y , x1 , x2 et x3
t y x1 x2 x3

1 12 2 45 121
2 14 1 43 132
3 10 3 43 154
4 16 6 47 145
5 14 7 42 129
6 19 8 41 156
7 21 8 32 132
8 19 5 33 147
9 21 5 41 128
10 16 8 38 163
11 19 4 32 161
12 21 9 31 172
13 25 12 35 174
14 21 7 29 180

Solution

1) Forme matricielle
Nous disposons de 14 observations et trois variables explicatives, le modèle peut
donc s’écrire :
Y = Xa + ε avec : ε 
    1
12 1 2 45 121    ε2 
 14   1 1 43 132  a0  . 
     . 
     a   . 
Y =  10  ; X =  1 3 43 154  ; a = 
1  
.
 a2  ; ε =  εt 
 ..   .. .. .. ..   
 .  . . . .   . 
a3  .. 
21 1 7 29 180
ε14
Dimensions :
(14,1) (14,4) (4,1) (14,1)

2) Estimation des paramètres


a = (X ′ X)−1 X ′ Y .
Nous savons d’après [3] que

Calcul de X ′ X et de (X ′ X)−1
X′ X
 
  1 2 45 121
1 1 1 ... 1 1 1 43 132 
 2 1 3 ... 7  
  1 3 43 154 
 45  =
43 43 . . . 29   .. .. .. .. 
. . . . 
121 132 154 . . . 180
1 7 29 180
 
14 85 532 2 094
 85 631 3 126 13 132 
=
 532

3 126 20 666 78 683 
2 094 13 132 78 683 317 950

56  ÉCONOMÉTRIE
 
20,16864 0,015065 −0,23145 −0,07617
 0,015065 0,013204 0,001194 −0,00094 
(X ′ X)−1 
= 
−0,23145 0,001194 0,003635 0,000575 
−0,07617 −0,00094 0,000575 0,000401

Calcul de X ′ Y
X′ Y
 12  
1 1 1 ... 1  14  248
 2 7  
 1 3 ...     1 622 
 45  10  =  
43 43 ... 29   ..   9 202 
 . 
121 132 154 ... 180 37 592
21

Calcul de
a
(X X)−1

X′ Y
  
20,16864 0,015065 −0,23145 −0,07617 248
 0,015065 0,013204 0,001194 −0,00094   
   1 622  =
a
 −0,23145 0,001194 0,003635 0,000575   9 202 
−0,07617 −0,00094 0,000575 0,000401 37 592
 
32,89132
 0,801900 
= − 0,38136 

− 0,03713
Soit
a0 = 32,89 ;
a1 = 0,80 ;
a2 = −0,38 ;
a3 = −0,03
Les calculs que nous venons de développer sont longs et fastidieux et mettent en évi-
dence l’intérêt incontestable d’utiliser un ordinateur.

σâ2
σε2 et de
3) Calcul de
e′ e
σε2 =
D’après [6] , nous devons donc calculer le résidu e .
n−k−1

e =Y −Y = Y − X a
Soit a0 +
et = yt − ( a1 x1t +
a2 x2t +
a3 x3t )
et = yt − 32,89 − 0,80 x1t + 0,38 x2t + 0,03 x3t
Par exemple pour e1 :
e1 = y1 − 32,89 − 0,80 x11 + 0,38 x21 + 0,03 x31
e1 = 12 − 32,89 − 0,80 × 2 + 0,38 × 45 + 0,03 × 121 = −0,84
Le tableau 2 présente l’ensemble des résultats.
Par construction, la somme des résidus est bien nulle.


t=14
et2
e′ e t=1 67,45
σε2
= = = = 6,745
n−k−1 14 − 3 − 1 10

Le modèle de régression multiple  57


Tableau 2 – Calcul du résidu

t
. yt
yt et et2

1 12 12,84 – 0,84 0,71


2 14 12,39 1,61 2,58
3 10 13,18 – 3,18 10,11
4 16 13,39 1,61 2,58
5 14 17,70 – 3,70 13,67
6 19 17,88 1,12 1,26
7 21 22,20 – 1,20 1,44
8 19 18,86 0,14 0,02
9 21 16,51 4,49 20,14
10 16 18,76 – 2,76 7,63
11 19 17,92 1,08 1,17
12 21 21,90 – 0,90 0,81
13 25 22,71 2,29 5,27
14 21 20,76 0,24 0,06
Somme 0 67,45

La matrice des variances et covariances estimées des coefficients nous est donnée
par [7], soit :
â =
σε2 (X ′ X)−1
 
20,16864 0,015065 −0,23145 −0,07617
 0,015065 0,013204 0,001194 −0,00094 
â = 6,745 × 

 −0,23145 0,001194 0,003635 0,000575 
−0,07617 −0,00094 −0,000575 0,000401

Les variances des coefficients de régression se trouvent sur la première diagonale :


σâ20 = 6,745 × 20,17 = 136,04

σâ0 = 11,66
σâ21
= 6,745 × 0,013 = 0,087 →
σâ1 = 0,29
2

σâ2 = 6,745 × 0,0036 = 0,024 →
σâ2 = 0,15
2

σâ3 = 6,745 × 0,0004 = 0,0026 →
σâ3 = 0,05

4) Le calcul du R 2 est effectué à partir de la formule [9].



Nous connaissons e′ e = 67,45 , il convient de calculer (yt − y)2 = 226,86 .
 t
et2
2 t 67,45
R =1−  2
=1− = 0,702
(yt − y) 226,86
t

2
Le R corrigé est donné par [11] :

2 n−1 14 − 1
R =1− (1 − R 2 ) = 1 − (1 − 0,702) = 0,613
n−k−1 14 − 4

58  ÉCONOMÉTRIE
Nous observons la baisse du coefficient de détermination lorsque nous le corrigeons
par le degré de liberté.

III. Les tests statistiques


A. Le rôle des hypothèses
L’hypothèse de normalité des erreurs implique1 que :

n
et2
t=1 σε2
σa2i

= (n − k − 1) 2 = (n − k − 1) 2 [12] suit une loi du χ 2 (chi-deux) à
σε2 σε σai
n – k – 1 degrés de liberté (somme au carré de n – k – 1 variables aléatoires indé-
pendantes normales centrées réduites).
Il en résulte que :
ai − ai
⇒ (l’écart type théorique est remplacé par l’écart type empirique) suit

σâi
une loi de Student à n – k – 1 degrés de liberté.

ai − ai

ai − ai σâi
En effet, = est le rapport d’une loi nor-

σâi σâ2i 1
(n − k − 1) 2
σâi (n − k − 1)
male centrée réduite à la racine carrée d’un chi-deux divisé par son degré de
liberté.
a − a)′ â−1 (
( a − a) suit une loi du χ 2 (chi-deux) à k + 1 degrés de liberté
(somme au carré de k + 1 variables aléatoires normales centrées réduites, les
k + 1 coefficients).
Si on remplace la matrice des variances covariances théoriques des coefficients, par
â = 1 â−1 (
son estimateur σε2 (X ′ X)−1 , la loi de probabilité de a − a)′
( a − a)
k+1
est alors un Fisher à k + 1 et n − k − 1 degrés de liberté.

1. L’ensemble de ces résultats sont une généralisation à k variables explicatives des résultats pré-
sentés au chapitre 2, paragraphe III.B.

Le modèle de régression multiple  59


1  −1
a − a)′ σε2 (X ′ X )−1 (
( a − a)
k + 1
En effet, F = est le rapport de deux
σ2
1
(n − k − 1) ε2
σε (n − k − 1)
chi-deux divisés par leurs degrés de liberté (caractéristique d’une loi de Fisher à
k + 1 et n − k − 1 degrés de liberté).

B. Construction des tests


À partir des différentes relations définies ci-dessus, nous pouvons mettre en
place un certain nombre de tests statistiques que nous allons expliciter.

1) Comparaison d’un paramètre ai à une valeur fixée a


Le test d’hypothèses est le suivant :
H0 : ai = a
H1 : ai = a
Nous savons que :

ai − ai
suit une loi de Student à n − k − 1 degrés de liberté.

σâi
Sous l’hypothèse H0, cette relation devient1 :
ai − a|
|
= tâi∗ → loi de Student n − k − 1 degrés de liberté [13]

σâi
α/2
Si tâi∗ > tn−k−1 alors nous rejetons l’hypothèse H0, ai est significativement
différent de a (au seuil de α ).
α/2
Si tâi∗  tn−k−1 alors nous acceptons l’hypothèse H0, ai n’est pas significati-
vement différent de a (au seuil de α ).
Cas particulier : test par rapport à une valeur particulière a = 0 .
Si nous désirons savoir si une variable explicative figurant dans un modèle
est réellement – significativement – contributive pour expliquer la variable endo-
gène, il convient de tester si son coefficient de régression est significativement
différent de 0 pour un seuil choisi, en général α = 5 %.

1. Comme il s’agit d’un test bilatéral, on calcule la valeur absolue du t empirique.

60  ÉCONOMÉTRIE
La relation [13], sous H0 ( ai = 0 ), devient :
 
 
 ai  = t ∗ → loi de Student à n − k − 1 degrés de liberté [14]
σâi 
 âi

tâi∗ est appelé le ratio de Student, les règles de décision citées plus haut s’appli-
quent alors.
Ce test est très important ; en effet, si dans un modèle estimé, un des coeffi-
cients (hormis le terme constant) n’est pas significativement différent de 0, il
convient d’éliminer cette variable1 et de ré-estimer les coefficients du modèle.
La cause de cette non-significativité, est due :
– soit à une absence de corrélation avec la variable à expliquer,
– soit à une colinéarité trop élevée avec une des variables explicatives.

2) Comparaison d’un ensemble de paramètres


à un ensemble de valeurs fixées

Nous cherchons à tester simultanément l’égalité d’un sous-ensemble de coeffi-


cients de régression à des valeurs fixées.

H0 : aq = a q
H1 : aq = a q

q étant le nombre de coefficients retenus, c’est-à-dire la dimension de chacun


des vecteurs aq .
1 â−1 (
Nous avons démontré que a − a)′
( a − a) suit une loi de Fisher à
k+1
k + 1 et n − k − 1 degrés de liberté ; pour un sous-ensemble de paramètres q,
1 â−1 (
l’expression ( aq − aq )′ q,q
aq − aq ) suit alors une loi de Fisher à q et
q
n − k − 1 degrés de liberté.
Pour accepter H0, il suffit que :

1 â−1 (
aq − āq )′
( q,q
aq − āq )  F α (q, n − k − 1) [15]
q

F α (q, n − k − 1) = loi de Fisher au seuil α à q et n − k − 1 degrés de liberté.

1. En effet, elle n’apporte aucune contribution et dégrade l’estimation des autres variables.

Le modèle de régression multiple  61


3) Intervalle de confiance de la variance de l’erreur

L’intervalle de confiance de la variance de l’erreur permet de déterminer une


fourchette de variation de l’amplitude de l’erreur. Pour un intervalle à (1 − α) %,
il est donné par :

 
σε2 (n − k − 1)
(n − k − 1) σε2
IC = 2
; 2
[16]
χ1 χ2

Avec χ12 à n − k − 1 degrés de liberté et α/2 de probabilité1 d’être dépassée


et χ22 à n − k − 1 degrés de liberté et (1 − α/2) de probabilité d’être
dépassée.

C. Tests sur les résidus : valeur anormale, effet de levier


et point d’influence
Nous n’abordons pas ici les tests sur les résidus remettant en cause les hypo-
thèses d’homoscédasticité ou d’indépendance, qui sont traités au chapitre 5,
mais trois notions qui sont proches et néanmoins différentes dans leur consé-
quence sur l’estimation des paramètres du modèle et leurs précisions.

1) La matrice HAT

La matrice « HAT2 », notée H, joue un rôle essentiel dans la détection de l’effet


de levier.
Nous calculons la matrice « HAT » H = X (X ′ X )−1 X ′ .
Les éléments de la première diagonale de cette matrice H sont appelés les
leviers, qui déterminent l’influence de l’observation i sur les estimations obte-
nues par la régression.
Le levier est situé sur la première diagonale de cette matrice soit
h i = xi (X ′ X )−1 xi′
n
Deux propriétés : 0  h i  1 et h i = k + 1 , la somme des éléments de
i =1
la première diagonale de la matrice H est égale au nombre de paramètres esti-
més du modèle.

1. Attention, la loi du chi-deux n’est pas symétrique, il convient donc de lire sur la table les deux
probabilités 1 − α/2 et α/2 .
2. Cette matrice permet de passer du vecteur Y au vecteur Ŷ d’où le nom de matrice HAT (chapeau
en anglais), en effet nous avons Ŷ = X â = X (X ′ X )−1 X ′ Y = H Y .

62  ÉCONOMÉTRIE
Si chaque observation pèse le même poids, alors les valeurs des h i doivent
k+1
être proches de .
n
k+1
Le levier d’une observation i est donc anormalement élevé si : h i > 2 ,
n
l’observation est alors considérée comme un point de levier (leverage point) ou
point d’influence.

2) Point de levier et valeur anormale

Une observation exerce un effet de levier si elle est éloignée des autres en
termes de combinaison des variables explicatives ; c’est-à-dire que les valeurs
prises par les variables explicatives, pour cette observation de la variable à expli-
quer, sont inattendues. Par exemple, un pays dont la population est faible mais
le PIB élevé, chaque facteur explicatif pris individuellement n’est pas surpre-
nant, mais la survenance de deux valeurs à la fois pour un pays est insolite.
Le point d’influence est une observation qui contribue très fortement au pou-
voir explicatif du modèle (sans cette valeur la régression peut être non signifi-
cative !), l’observation pèse de manière exagérée dans la régression, au point
que les résultats obtenus sont très différents selon que nous l’intégrons ou non
dans la régression.
La valeur prise par la variable explicative est anormale si le résidu de cette
observation est beaucoup plus élevé que les autres résidus, pour identifier une
valeur anormale nous pouvons calculer le résidu standardisé (ou encore appelé
le résidu studentisé). Une autre approche permettant de détecter des valeurs
anormales à l’aide de variables indicatrices sera présentée dans ce chapitre à la
section V.

3) Résidu standardisé (ou studentisé)

Les résidus standardisés1 notés eiS permettent de détecter des valeurs anor-
males. Le résidu ei est divisé par son écart type estimé pondéré par le levier2 :
ei
eiS = √ suit une loi de Student à n – k – 1 degrés de liberté, avec
σ̂ 1 − h
e  i

 ei2
 t
σ̂e = . Si, par exemple, les résidus standardisés eiS sont compris
n−k−1
0,025
dans l’intervalle ± tn−k−1 , on ne suspecte pas de valeurs anormales pour un seuil
de confiance 95 %.

1. Dans cette méthode de calcul nous parlons de résidus studentisés internes car le calcul porte sur
l’ensemble des observations. ei
2. Certains auteurs divisent le résidu par son écart type eiS = sans intégrer la valeur du levier.
σ̂e

Le modèle de régression multiple  63


Il est aussi possible de calculer des résidus studentisés externes, ils sont cal-
culés de la même manière mais en excluant du calcul l’observation i.

Exercice n° 2
fichier C3EX1

Tests statistiques sur les coefficients et la variance de l’erreur : calcul


des leviers et des résidus studentisés
En reprenant les données du tableau 1 et les résultats de l’exercice 1, on demande de
répondre aux questions suivantes :
1) Les variables explicatives sont-elles significativement contributives pour expliquer
la variable endogène ?
2) Le coefficient a1 est-il significativement inférieur à 1 ?
3) Les coefficients a1 et a2 sont-ils simultanément et significativement différents de
1 et – 0,5 ?
4) Quel est l’intervalle de confiance pour la variance de l’erreur ?
5) Calculer les leviers et les résidus standardisés, existe-t-il des valeurs aberrantes ?
(Les seuils choisis seront de 5 %.)

Solution

1) Il convient de calculer les trois ratios de Student et de les comparer à la valeur lue
dans la table pour un seuil de 5 % (la table de Student en fin d’ouvrage indique direc-
tement les valeurs de α pour un test bilatéral).
D’après [14], nous obtenons :


a1 0,80 ∗ 0,05
= = tâ1 = 2,75 > t10 = 2,228 → a1 = 0 , la variable explicative x1 est

σâ1 0,29

contributive à l’explication de y ; de même :


 

a2  −0,38 
=   = t ∗ = 2,53 > t 0,05 = 2,228 → a2 = 0

σâ2 0,15  â2 10

 

a3  −0,03 

=  = t ∗ = 0,60 < t 0,05 = 2,228 → a3 = 0

σâ3 0,05  â3 10

la variable x2 est explicative de y alors que la variable x3 n’est pas contributive à


l’explication de y , il convient donc de la retirer de ce modèle et de procéder à une nou-
velle estimation.
Nous aurions pu tout aussi bien répondre à cette question en calculant les intervalles
de confiance de chacun des coefficients :

64  ÉCONOMÉTRIE
0,05
I Ca1 =
a1 ± tn−k−1 ·
σâ1 = 0,80 ± 2,228 × 0,29 = [0,14 ; 1,45]

De même nous obtenons :

I Ca2 = [−0,71 ; −0,04] et I Ca3 = [−0,14 ; 0,08]

La valeur 0 n’appartient pas à l’intervalle de confiance à 95 % de a1 et a2 , donc ces


deux coefficients sont significativement différents de 0 ; en revanche, 0 appartient à l’in-
tervalle de confiance de a3 , ce coefficient n’est pas significativement différent de 0.
2) Nous posons le test d’hypothèses suivant :

H0 : a1 = 1
H1 : a1 < 1

Sous H0, la relation [13] s’écrit :



a1 − a1 0,80 − 1 0,05
= = −0,68 > −t10 = −1,811 ⇒ acceptation de H0

σâ1 0,29
Nous sommes bien dans la zone d’acceptation de H0 (cf. graphique 4 du chapitre 2).
Par souci de simplification, nous pouvons procéder au test de Student en profitant
de la symétrie de cette loi, soit à calculer :
a1 − a 1 |
| |0,80 − 1| 0,05
= = 0,68 < t10 = 1,81 ⇒ acceptation de H0

σâ1 0,29
Le fait de raisonner sur la valeur absolue du numérateur entraîne une lecture direc-
te de la table et ainsi une construction et interprétation immédiate du test.
3) Le test d’hypothèses est le suivant :
   
a1 1
H0 : =
a2 − 0,5
   
a1 1
H1 : =
a2 − 0,5

Examinons les différents éléments de la relation [15] sous H0 :


1 −1 (
aq − aq )′
( âq aq − aq )
q
   
0,80 1
Nous avons : q = 2 , aq = et aq = . La matrice des variances
− 0,38 − 0,5
et covariances des coefficients a été calculée lors de l’exercice 1, nous ne retenons que
la sous-matrice de dimension 2 × 2 correspondant aux deux coefficients de régression
faisant l’objet du test.
   
aqˆ = 6,745 · 0,013204 0,001194 →
−1 = 11,57140 − 3,80213
âq
0,001194 0,003635 − 3,80213 42,03506

1. Attention, le test est unilatéral, il convient de lire sur la table de Student tabulée pour α/2 à un
seuil de 0,10 = 2 × 0,05 .

Le modèle de régression multiple  65


   
1 11,57140 − 3,80213 0,80 − 1
F∗ = (0,80 − 1; − 0,38 + 0,5) ×
2 − 3,80213 42,03506 − 0,38 + 0,5

0,05
F ∗ = 0,612 est à comparer à F α (q, n − k − 1) = F2,10 = 4,10 , le F ∗ empirique est
inférieur au F lu dans la table, on accepte l’hypothèse H0. Les données ne sont pas
incompatibles avec la possibilité que les coefficients a1 et a2 soient simultanément et
respectivement égaux à 1 et – 0,5.

4) L’intervalle de confiance de la variance de l’erreur à un seuil (1 − α)% = 95%


(α = 0,05) est calculé à partir de la formule [16] pour 10 degrés de liberté :
   
σε2 (n − k − 1)
(n − k − 1) σε2 10 × 6,745 10 × 6,745
IC = 2
; 2
= ;
χ0,025 χ0,975 20,48 3,25

Soit 3,30  σε2  20,75. La variance vraie (mais inconnue) σε2 de l’erreur a 95 % de
chance de se situer à l’intérieur de cet intervalle.
5) Le calcul de h i et des résidus standardisés sont effectués à l’aide du programme
 C3EX2.PRG. Les résultats sont présentés sur le tableau 3.

Tableau 3 – Valeur des leviers hi et des résidus standardisés eiS

Résidus
i ei hi eiS
1 – 0,8408 0,2790 – 0,3813
2 1,6068 0,2966 0,7377
3 – 3,1800 0,3091 – 1,4732
4 1,6055 0,3248 0,7523
5 – 3,6973 0,2609 – 1,6559
6 1,1220 0,1825 0,4778
7 – 1,2015 0,5327 – 0,6768
8 0,1426 0,2025 0,0615
9 4,4880 0,1804 1,9088
10 – 2,7622 0,1442 – 1,1497
11 1,0830 0,3066 0,5008
12 – 0,8994 0,2115 – 0,3900
13 2,2946 0,4086 1,1489
14 0,2387 0,3605 0,1149

k+1 4
Le seuil du levier est égal à 2 =2 = 0,57 , aucune valeur n’est supérieure
n 14
à 0,57, nous ne détectons pas de point de levier (ou de point d’influence).
0,025
Les résidus studentisés sont tous dans l’intervalle ± t10 = ± 2,228, nous ne détec-
tons pas de valeur anormale.

66  ÉCONOMÉTRIE
IV. L’analyse de la variance
A. Construction du tableau d’analyse de la variance
et test de signification globale d’une régression
Dans cette section, nous allons nous interroger sur la signification globale du
modèle de régression, c’est-à-dire si l’ensemble des variables explicatives a une
influence sur la variable à expliquer. Ce test peut être formulé de la manière
suivante : existe-t-il au moins une variable explicative significative ? Soit le test
d’hypothèses :
H0 : a1 = a2 = . . . = ak = 0 (tous les coefficients sont nuls1)
H1 : il existe au moins un des coefficients non nul
Nous ne testons pas le cas où le terme constant a0 est nul, car seules nous
intéressent les variables explicatives. Un modèle dans lequel seul le terme
constant est significatif n’a aucun sens économique.
Le cas où l’hypothèse H0 est acceptée signifie qu’il n’existe aucune relation
linéaire significative entre la variable à expliquer et les variables explicatives (ou
encore que la Somme des Carrés Expliqués n’est pas significativement différen-
te de 0).
Nous reprenons l’équation fondamentale [8] d’analyse de la variance :
  
(yt − y)2 = yt − y)2 +
( et2
t t t

La régression est jugée significative si la variabilité expliquée est signi-


ficativement différente de 0. Le tableau 4 présente le tableau d’analyse de la
variance2 permettant d’effectuer le test de Fisher.


yt − y)2 /k
(
t R 2 /k
F∗ =  2 = (d’après [9])
et /(n − k − 1) (1 − R 2 )/(n − k − 1)
t
[17]

1. Nous remarquons que nous pouvons répondre à cette question par le test d’un sous-ensemble
de coefficients [15], le test ici présenté conduit évidemment à des résultats identiques.
2. Voir chapitre 2, paragraphe 4, pour la construction de ce tableau.

Le modèle de régression multiple  67


Tableau 4 – Analyse de la variance pour une régression multiple

Source de variation Somme des carrés Degré de liberté Carrés moyens



. x1 , x2 ,. . . , xk SC E = yt − y)2
( k SC E/k
t

Résidu SC R = et2 n−k−1 SC R/(n − k − 1)
t

Total SC T = (yt − y)2 n−1
t

L’hypothèse de normalité des erreurs implique que sous l’hypothèse H0, F ∗


suit une loi de Fisher (rapport de deux chi-deux). Nous comparons donc ce F ∗
calculé au F théorique à k et (n − k − 1) degrés de liberté : si F ∗ > F nous reje-
tons l’hypothèse H0, le modèle est globalement explicatif.
Dans la pratique, ce test est effectué immédiatement grâce à la connaissance
du coefficient de détermination R 2 (seulement si le modèle comporte un terme
constant) qui permet de calculer le Fisher empirique (calculé).

B. Autres tests à partir du tableau d’analyse


de la variance
À partir d’un exercice, nous allons présenter quatre tests usuels se référant à
l’analyse de la variance, la généralisation de ces tests ne posera par la suite aucu-
ne difficulté au lecteur.

1) Introduction d’une ou de plusieurs variables explicatives


supplémentaires
L’ajout d’un bloc supplémentaire de variables explicatives améliore-t-il signifi-
cativement la qualité de l’ajustement ?

2) Stabilité des coefficients du modèle dans le temps (test de CHOW)


Peut-on considérer le modèle comme étant stable sur la totalité de la période, ou
bien doit-on considérer deux sous-périodes distinctes d’estimation (changement
structurel du modèle) ? La spécification du modèle est la même, mais les valeurs
estimées des coefficients pour les deux échantillons sont différentes.

3) Test de restrictions et de contraintes sur les coefficients


Les contraintes souhaitées ou envisagées sur les coefficients sont-elles justifiées
et validées par l’estimation économétrique ?

68  ÉCONOMÉTRIE
4) Augmentation de la taille de l’échantillon servant à estimer le modèle
Lorsque la taille de l’échantillon aug mente (le nombre d’observations à dispo-
sition est plus important), le modèle reste-t-il stable ? Ce test se ramène au test
de Chow de stabilité des coefficients sur deux sous-périodes. L’estimation sur la
sous-période 1 est effectuée à partir de l’échantillon initial et l’estimation de la
sous-période 2 à partir des nouvelles observations.
Nous voyons l’intérêt pratique de ces tests et l’apport pour l’économiste des
réponses à ces questions.

Exercice n° 3
fichier C3EX1
Tests à partir de l’analyse de la variance
En reprenant les données de l’exercice 1 (tableau 1), dont nous rappelons les résul-
tats de l’estimation du modèle1 :

yt = 32,89 + 0,80 x1t − 0,38 x2t − 0,03 x3t + et


(11,66) (0,29) (0,15) (0,05)
R 2 = 0,702
n = 14
(·) = écart type des coefficients
on demande de tester les hypothèses suivantes.
1) L’ajout des variables explicatives x2 et x3 améliore-t-il significativement la qualité de
l’estimation par rapport à x1 seul ?
2) Peut-on considérer le modèle (à trois variables explicatives) comme stable sur l’en-
semble de la période, ou doit-on procéder à deux estimations, l’une de la période 1 à
7, et l’autre de la période 8 à 14 ?
3) Un économiste suggère que dans ce modèle a1 = 1 et a2 = a3 , qu’en pensez-vous ?

Solution2

Nous pouvons tout d’abord appliquer le test de Fisher [17] afin de tester la signifi-
cation globale de la régression à trois variables x1 , x2 et x3 .
R 2 /k 0,702/3 0,05
F∗ = = = 7,878 > F3,10 = 3,71
(1 − R 2 )/(n − k − 1) (1 − 0,702)/10

1. Le lecteur notera la présentation « standard » des résultats d’estimation d’un modèle. Les infor-
mations listées ici doivent impérativement figurer. À noter que le t de Student est souvent indi-
qué à la place de l’écart type des coefficients afin de pouvoir, sans aucun calcul, procéder aux
tests de significativité des coefficients.
2. Les calculs sont effectués à partir d’un logiciel, il peut apparaître de légères différences entre
les calculs manuels et les résultats, imputables au fait que le logiciel tient compte d’un nombre
élevé de décimales.

Le modèle de régression multiple  69


Nous rejetons l’hypothèse H0 de nullité de tous les coefficients, la régression est
globalement significative.
1) Test d’ajout de variables

Étape 1 : calcul de la variabilité totale, expliquée et résiduelle sur le modèle complet.


Les résultats calculés précédemment lors de l’exercice 1 nous ont donné :
 
SC T = (yt − y)2 = 226,86 ; SC E = ( yt − y)2 = 159,41 ;
t t SC R = e′ e = 67,45
Étape 2 : calcul de la variabilité totale, expliquée et résiduelle sur le modèle à une seule
variable explicative x1 .
Le modèle estimé est le suivant :
yt = 1,011x1,t + 11,57 + et
(0,281)
n = 14
R 2 = 0,52
(.) = Ecart type

σε = 3,0165

Nous calculons d’abord


σε2 = 12 × 3,01652 = 109,20
SC R 1 = e′ e = d.d.l. ×
puis à partir du coefficient de détermination R 2 , nous déduisons :
SC T 1 = 226,86 et SC E 1 = 117,65
Le test d’hypothèses est le suivant :
H0 : a2 = a3 = 0
H1 : il existe au moins un des deux coefficients non nul.
Ce test se ramène à un test par analyse de la variance : le fait d’ajouter des variables
explicatives dans un modèle entraîne automatiquement une augmentation1 de SCE
(et donc une diminution de SC R ) ; on souhaite donc tester que la différence entre SCE
et SC E 1 soit significativement positive (ou bien que la différence entre SC R 1 et SC R
soit significativement positive, il s’agit du même test). On compare donc la différence
par rapport à la somme des carrés la plus faible, soit ici SC R . Le tableau 5 d’analyse de
la variance permet de procéder au test de Fisher.

Étape 3 : tableau d’analyse de la variance.


Tableau 5 – Tableau d’analyse de la variance pour tester l’ajout
d’un bloc de variables explicatives

Source Somme Degré Carrés


de variation des carrés de liberté moyens

x1 SC E 1 = 117,65 1 117,65
x1 , x2 , x3 SC E = 159,41 3 53,14
Résidu SC R = 67,45 10 6,74
Total SC T = 226,85 13

1. Sauf si la ou les variables ajoutées sont orthogonales à la variable à expliquer, SC E reste alors
identique. Ce cas est évidemment rare.

70  ÉCONOMÉTRIE
Étape 4 : calcul du Fisher empirique.
(SC E − SC E 1 )/(k − k ′ ) 41,67/(3 − 1) 0,05
F∗ = = = 3,09 < F2,10 = 4,10
SC R/(n − k − 1) 67,45/10

(SC R 1 − SC R)/(k − k ′ ) (109,2 − 67,45)/2


Ou encore : F ∗ : = = 3,09
SC R/(n − k − 1) 67,45/10
Avec k = nombre de variables explicatives du modèle complet et k ′ = nombre de
variables explicatives du modèle sans l’ajout du bloc de variables. Nous acceptons l’hy-
pothèse H0, il n’y a donc pas de différence significative entre les deux variances expli-
quées, l’ajout des variables explicatives x2 et x3 n’améliore pas de manière significati-
ve – au seuil de 5 % – le pouvoir explicatif du modèle.
2) Le modèle est-il stable sur la totalité de la période ?
Soit le modèle estimé sur une seule période :
yt =
a1 x1t +
a2 x2t +
a3 x3t +
a0 + et pour t = 1, . . . , 14
ou le modèle estimé sur deux sous-périodes :
a11 x1t +
yt = a21 x2t +
a31 x3t +
a01 + et pour t = 1, . . . , 7
a12 x1t +
yt = a22 x2t +
a32 x3t +
a02 + et pour t = 8, . . . , 14

Le test d’hypothèses jointes est alors le suivant :


 a = a1 = a2 
1 1 1
 a2 = a 1 = a 2 
 2 2
H0 :  
 a3 = a31 = a32 
a0 = a01 = a02
Ce test de stabilité des coefficients (test de Chow) se ramène à la question suivante :
existe-t-il une différence significative entre la somme des carrés des résidus (SC R) de
l’ensemble de la période et l’addition de la somme des carrés des résidus calculée à par-
tir des deux sous-périodes (SC R 1 + SC R 2 ) ?
En effet, dans le cas d’une réponse négative, cela signifie que le fait de scinder en
deux échantillons n’améliore pas la qualité du modèle, donc qu’il est stable sur la tota-
lité de la période.
Les étapes sont alors les suivantes.
Étape 1 : estimation du modèle sur chacune des deux sous-périodes1 et calcul des
sommes des carrés de résidus.
sous-période 1 : données de 1 à 7

yt = 0,774x1,t − 0,293x2,t − 0,012x3,t + 25,27 + et


(0,53) (0,31) (0,10)
n = 7
R 2 = 0,692
(.) = Ecart type

σε = 3,01759

1. Les deux sous-périodes peuvent être de longueur inégale, cependant elles doivent impérative-
ment recouvrir la totalité des observations de la période.

Le modèle de régression multiple  71


Nous pouvons en déduire comme précédemment :
SC T 1 = 88,85 ; SC E 1 = 61,54 ; SC R 1 = 27,31

sous-période 2 : données de 8 à 14

yt = 1,228x1,t − 0,620x2,t − 0,184x3,t + 62,63 + et


(0,69) (0,52) (0,15)
n = 7
R 2 = 0,543
(.) = Ecart type

σε = 2,6281

D’où SC T 2 = 45,43 ; SC E 2 = 24,70 ; SC R 2 = 20,73.


Étape 2 : calcul du Fisher empirique.
En prenant au dénominateur la plus faible des sommes des carrés (soit
SC R 1 + SC R 2 ) , le Fisher empirique est égal à :

[SC R − (SC R 1 + SC R 2 )]/ddln


F∗ =
(SC R 1 + SC R 2 )/ddld

avec ddln = (n − k − 1) − [(n 1 − k − 1) + (n 2 − k − 1)] = k + 1 = 4


car n = n 1 + n 2
ddld = (n 1 − k − 1) + (n 2 − k − 1) = n − 2(k + 1) = 6
d’où
[(67,45 − (27,31 + 20,73))]/4 4,852
F∗ = = = 0,606 < F40,05
; 6 = 4,53
(27,31 + 20,73)/6 8,00
L’hypothèse H0 est acceptée, les coefficients sont significativement stables sur l’en-
semble de la période.
Attention, en cas d’hétéroscédasticité (cf. chapitre 5), le test de Chow est biaisé dans
le sens d’une surestimation du seuil de rejet du test, nous rejetons trop souvent l’hypo-
thèse H0.
3) Test de a1 = 1 et a2 = a3
Si cette hypothèse est vérifiée, le modèle :
yt = a0 + a1 x1t + a2 x2t + a3 x3t + εt

peut s’écrire :
yt = a0 + 1 x1t + a2 x2t + a2 x3t + εt
ou encore :
yt − x1t = a0 + a2 (x2t + x3t ) + εt
z t = a0 + a2 vt + εt

Il convient de constituer la nouvelle variable à expliquer, z t , et la nouvelle variable


explicative vt , puis d’effectuer la régression de z t sur vt .
Le tableau 6 présente ces nouvelles variables.
L’estimation des deux (k ′ + 1) coefficients du modèle conduit aux résultats suivants :

72  ÉCONOMÉTRIE
z t = −0,0111vt + 13,74 + et
(0,051)
n = 14
R 2 = 0,0389
(.) = Ecart type

σε = 3,0109

Tableau 6 – Variables transformées sous l’hypothèse


de vérification des contraintes
t z t = yt − x1t vt = x2t + x3t

1 10 166
2 13 175
3 7 197
4 10 192
5 7 171
6 11 197
7 13 164
8 14 180
9 16 169
10 8 201
11 15 193
12 12 203
13 13 209
14 14 209

Nous pouvons en déduire :


SC T 1 = 109,21 ; SC E 1 = 0,425 ; SC R 1 = 108,78
L’hypothèse à tester est donc :
H0 : les restrictions sont toutes vérifiées (SC R 1 = SC R) .
H1 : il existe au moins une restriction non vérifiée (SC R 1 = SC R) .
Le Fisher empirique est donné par :
(SC R 1 − SC R)/ddln (108,78 − 67,45)/2 0,05
F∗ = = = 3,06 < F2,10 = 4,10
SC R/(n − k − 1) 67,45/10
avec ddln = (n − k ′ − 1) − (n − k − 1) = k − k ′ = 2 .
L’hypothèse H0 est acceptée, les contraintes envisagées sur les coefficients sont com-
patibles avec les données.

C. Généralisation des tests par analyse de la variance


Nous pouvons remarquer que tous ces tests par analyse de la variance se ramè-
nent à un test unique, tel que les éléments du vecteur des coefficients a vérifient
un ensemble de q contraintes linéaires :

Le modèle de régression multiple  73


H0 : Ra = r
H1 : Ra = r
Ainsi le Fisher empirique est donné par :
a − r)′ [R(X ′ X)−1 R ′ ]−1 (R
{(R a − r)}/q
F∗ =
SC R/(n − k − 1)

a est le vecteur des coefficients estimés sur le modèle non contraint.
On rejette H0 si le F ∗ est supérieur au F lu à q et n − k degrés de liberté.
Quelques exemples d’utilisation pour un modèle à k variables explicatives :
– Test sur un coefficient de régression. Hypothèse H0 : a3 = 0,5 .
Soit à tester l’égalité du 3e coefficient par rapport à 0,5 ; la contrainte s’écrit
Ra = r avec R = (0 0 0 1…0 0 0) et r = (0 0 0 0,5…0 0 0) . Le premier élément
des vecteurs correspond au terme constant a0. Ce test peut aussi être mené par
un classique test de Student.
– Test d’égalité de coefficients. Hypothèse H0 : a1 = a3 −→ a1 − a3 = 0 .
La contrainte s’écrit Ra = r avec R = (0 1 0 − 1 . . . 0 0 0)
et r = (0 0 0 0 . . . 0 0 0) .
– Test de significativité globale de la régression.
Hypothèse H0 : a1 = a2 = a3 = … = ak = 0 .
Ce test de Fisher (cf. équation [17]) est équivalent à l’écriture contrainte Ra = r
avec R = (0 1 1 1…1 1) et r = (0 0 0 0…0 0 0) .
De manière équivalente, nous pouvons utiliser la statistique :
(SC Rc − SC R)/q
F∗ = où SC Rc est la somme des carrés des résidus du
SC R/(n − k − 1)
modèle contraint.
Une autre manière de procéder consiste à comparer le ratio de vraisem-
blance1 du modèle contraint et non contraint : si la contrainte est valide, nous
devons avoir L c < L nc où L nc est la fonction de vraisemblance du modèle non
contraint et L c est la fonction de vraisemblance du modèle contraint. Soit
L c /L nc < 1 , sous forme logarithmique Ln(L c ) − Ln(L nc ) < 0 ou encore
lc − lnc < 0 , la différence entre les logarithmes des fonctions doit être significa-
tivement négative. On démontre que ce test se ramène à un test du χ 2 par calcul
de la statistique L R = −2(lc − lnc ) qui suit un χ 2 à r degrés de liberté ( r étant
le nombre de contraintes). Ainsi, si L R est supérieur au χ 2 lu dans la table au
seuil α choisi et à r degrés de liberté, on rejette l’hypothèse H0, les restrictions
ne sont pas vérifiées.
Enfin, nous pouvons citer le test du multiplicateur de Lagrange (« L M test »)
fondé sur l’estimation d’une équation intermédiaire et de la valeur d’une statis-
tique L M = n × R 2 (n = nombre d’observations et R 2 = coefficient de détermi-

1. Dans un modèle de régression classique, la maximisation de la fonction de vraisemblance four-


nit des estimations identiques à celle de la méthode des MCO.

74  ÉCONOMÉTRIE
nation issu de l’estimation de l’équation intermédiaire) qui suit un χ 2 à r degrés
de liberté ( r étant le nombre de contraintes) ; nous verrons des applications de
cette statistique au chapitre 5 concernant les tests de détection de l’autocorréla-
tion des erreurs et de l’hétéroscédasticité.

V. L’utilisation de variables indicatrices1


A. Constitution et finalités des variables indicatrices
Une variable indicatrice est une variable explicative particulière qui n’est com-
posée que de 0 ou de 1. Cette variable est utilisée lorsque, dans un modèle, nous
désirons intégrer un facteur explicatif binaire : « le phénomène a lieu ou n’a pas
lieu » pour corriger, par exemple, d’une valeur anormale ; ou bien lorsque le fac-
teur explicatif est qualitatif : « le genre d’un individu, homme ou femme ». Il
s’agit donc d’incorporer une ou des variables explicatives supplémentaires au
modèle spécifié initialement et d’appliquer les méthodes classiques d’estima-
tion.
Le modèle de régression diffère selon l’apparition du phénomène par les valeurs
d’un ou plusieurs coefficients alors que les autres paramètres sont identiques. En
cas de modification structurelle d’un coefficient de régression, la variable muette
affecte alors le coefficient de la ou des variables explicatives considérées.
Par exemple, soit le modèle à deux variables explicatives x1t et x2t :
yt = a0 + a1 x1t + a2 x2t + b0 Dt + b1 Dt x1t + b2 Dt x2t + εt
Si le phénomène existe, Dt = 1 et Dt = 0 sinon.
Si Dt = 0 , le modèle s’écrit : yt = a0 + a1 x1t + a2 x2t + εt
Si Dt = 1 , le modèle s’écrit : yt = (a0 + b0 ) + (a1 + b1 )x1t + (a2 + b2 )x2t + εt
Si b1 = b2 = 0 , le modèle ne diffère que par la valeur du terme constant.

Domaine d’utilisation des variables indicatrices.


Le domaine d’utilisation des variables indicatrices est très vaste, nous pou-
vons citer : la correction des valeurs anormales (cf. exercice n° 4), la modifica-
tion structurelle (0 pour la période avant le changement structurel, 1 après le
changement structurel), l’intégration de la saisonnalité (cf. exercice n° 6), la
caractérisation d’un individu (genre, situation matrimoniale…), l’intégration de
facteurs qualitatifs (appartenance d’un pays à la zone euro, promotion non quan-
tifiable…), etc.

1. Les termes de variables indicatrices, de variables auxiliaires ou de variables muettes sont indif-
féremment employés en français. Le terme anglo-saxon dummy est le plus couramment
utilisé.

Le modèle de régression multiple  75


B. Exemples d’utilisation
1) Correction de valeurs anormales
Les séries statistiques sont parfois affectées de valeurs anormales liées à la sur-
venance d’événements exceptionnels : grève, guerre, aberration climatique, etc.
Deux problèmes se posent alors : détecter la valeur anormale et la corriger afin
qu’elle ne perturbe pas l’estimation statistique des autres variables.

Exercice n° 4
Détection et correction de valeurs anormales par variable indicatrice
Un modèle de production de service du secteur du tourisme est spécifié de la maniè-
re suivante :
Q P St = a0 + a1 V At + a2 P O Pt + εt

avec :
Q P St = production du secteur tourisme pour l’année t ;
V At = valeur ajoutée du secteur tourisme pour l’année t ;
P O Pt = population pour l’année t .

L’économètre chargé de l’estimation de ce modèle sur 18 ans s’interroge sur la per-


turbation entraînée par l’effet d’une guerre pour l’année 16. Pour répondre à cette ques-
tion, il intègre à son modèle de base une variable indicatrice Dt tel que :

Dt = 0 pour t = 1 à 15 et t = 17 à 18

Dt = 1 pour t = 16

L’estimation du modèle économétrique est la suivante :

Q P St = 2 340,4 + 23,5 V At + 0,3 P O Pt − 120,56 Dt + et


(4,5) (2,2) (2,9) (5,8)
n = 18
R 2 = 0,65
(·) = t de Student

L’effet « guerre » a-t-il une influence significative sur la production du service du


secteur du tourisme ?

76  ÉCONOMÉTRIE
Solution

0,05
La variable indicatrice Dt a un ratio de Student de t ∗ = 5,8 > t14 = 2,14 , le coef-
ficient de régression de cette variable est significativement différent de 0, la production
de service pour l’année 16 est donc anormalement basse (−120,56) . Cette baisse est,
sans doute imputable à l’effet de la guerre.

• Généralisation
Dans le cas d’un phénomène se produisant de manière sporadique, la variable indi-
catrice prend la valeur 1 pour la ou les périodes que l’on désire corriger et 0 pour les
autres.
Nous remarquons que nous pouvons procéder au test de Chow (stabilité du modèle
sur l’ensemble de la période) en recourant à une variable indicatrice prenant la valeur 1
pour la première sous-période et la valeur 0 pour la deuxième sous-période. Le test de
Student portant sur le coefficient de la variable indicatrice permet alors de se détermi-
ner sur un modèle à un régime ou un modèle à deux régimes.

2) Variable qualitative

Il peut s’avérer important dans certaines spécifications de modèle de tenir comp-


te de l’effet, sur la variable endogène, de variables qualitatives : être titulaire
d’un diplôme, genre d’un individu, appartenance politique, etc. L’utilisation
d’une variable indicatrice permet de segmenter les individus en deux groupes et
de déterminer si le critère de segmentation est réellement discriminant.
Attention, dans le cas de variables qualitatives à plusieurs modalités, par
exemple la couleur des yeux (bleu, vert, marron, autres), ou bien la situation
familiale (célibataire, marié, divorcé, veuf, autres), etc. Il convient alors de
coder autant de variables indicatrices que de modalités moins une. En reprenant
l’exemple de la couleur des yeux nous définissons trois variables indicatrices :
bleu (= 1 si l’individu à les yeux bleus, 0 sinon), vert (= 1 si l’individu à les yeux
verts, 0 sinon), marron (= 1 si l’individu à les yeux marrons, 0 sinon), le cas des
autres individus n’appartenant pas à l’une des trois premières catégories est
implicitement contenu dans le terme constant. Une erreur à ne pas commettre
consiste à créer une seule variable explicative codée, par exemple, de la maniè-
re suivante : bleu = 1, vert = 2, marron = 3, …
Au chapitre 12 nous traitons du cas particulier des variables qualitatives qui
figurent en tant que variables à expliquer.

Le modèle de régression multiple  77


Exercice n° 5
Intégration d’une variable qualitative
Afin de déterminer les facteurs explicatifs de la réussite de la licence en sciences
économiques, on spécifie le modèle suivant :
N L = a0 + a1 N D + a2 DS + ε
où :
N L = note moyenne obtenue en licence,
N D = note moyenne obtenue en fin de deuxième année,
DS = variable indicatrice de genre (1 pour les hommes et 0 pour les femmes).
L’estimation à partir d’un échantillon de 60 étudiants conduit aux résultats suivants :
N L = 8,5 + 0,3 N D − 1,2 DS + e
(4,5 ) (7,1) (2,3)
n = 60
R 2 = 0,72
(·) = t de Student
Le fait d’être homme ou femme a-t-il une influence sur la note obtenue en licence
de sciences économiques ?
Solution
La variable indicatrice DS a un ratio de Student de
0,05
t ∗ = 2,3 > t57 = 1,96
le coefficient de régression a2 est significativement différent de 0, le facteur sexe est
donc bien un facteur discriminant de la note obtenue en licence. La probabilité critique,
associée au risque de première espèce (risque de rejeter l’hypothèse H0 à tort), est égale
à 0,025. Nous avons donc 2,5 % de risque de nous tromper en rejetant l’hypothèse H0.
Le risque d’erreur est très faible, nous la rejetons.
Il est à noter que le coefficient négatif indique qu’il est « pénalisant » d’être un
homme (DS = 1) et qu’en moyenne, sur notre échantillon, les hommes ont une note
inférieure de 1,2 point à celle des femmes.
Toutefois le facteur explicatif le plus important reste bien la note obtenue en fin de
deuxième année (t ∗ = 7,1) .

78  ÉCONOMÉTRIE
3) Analyse de saisonnalité

Exercice n° 6
fichier C3EX6

Étude de saisonnalité par variables indicatrices


Une entreprise cherche à appréhender une relation entre ses ventes et ses dépenses
publicitaires. Le directeur du marketing dispose des données (tableau 7) de ventes et de
dépenses publicitaires sur 5 ans par trimestre.
1) Ce directeur du marketing commence par estimer la relation :
Vt = a0 + a1 Pubt + εt
Commenter les résultats obtenus.
2) Tracer le graphique de la série des ventes, que pouvez-vous en conclure ?
3) Spécifier et estimer le modèle adéquat.
Tableau 7 – Ventes et dépenses publicitaires

Années T1 T2 T3 T4
1 Ventes 164 198 85 179
Pub. 34 36 32 29
2 Ventes 168 201 98 197
Pub. 45 67 76 75
3 Ventes 197 209 100 216
Pub. 75 78 72 75
4 Ventes 223 245 119 260
Pub. 78 81 84 83
5 Ventes 298 309 124 267
Pub. 89 82 81 83

Solution

1) L’estimation du modèle de régression simple


Vt = a0 + a1 Pubt + εt
conduit aux résultats suivants :
Vt = 104,89 + 1,29 Pubt + et
(1,85)
n = 20
R 2 = 0,16
(·) = t de Student
La publicité a-t-elle un effet significatif sur les ventes ? La valeur du ratio du Student
empirique permet de répondre à cette question.
0,05
t ∗ = 1,85 < t18 = 2,10 → le coefficient a1 n’est pas significativement différent
de 0, la publicité n’a pas, a priori, d’impact sur les ventes.

Le modèle de régression multiple  79


2) Le graphique 1 de la série des ventes et des dépenses publicitaires indique une série
des ventes fortement saisonnière avec un creux très affirmé au troisième trimestre
alors que la variable publicité ne semble pas affectée de variations saisonnières.
La relation entre les ventes et la publicité ne peut être déterminée puisque le mou-
vement saisonnier vient occulter l’estimation économétrique1. Il convient donc d’inté-
grer ce mouvement saisonnier à l’aide de variables muettes.
3) Le modèle tenant compte de ce mouvement saisonnier s’écrit :
Vt = a0 + a1 Pubt + a2 D1t + a3 D2t + a4 D3t + εt
avec D1t = variable indicatrice du trimestre 1 : cette variable est composée de 0, sauf
pour les premiers trimestres pour lesquels la valeur 1 figure ; D2t = variable indicatrice
du trimestre 2 : cette variable est composée de 0, sauf pour les deuxièmes trimestres pour
lesquels la valeur 1 figure ; D3t = variable indicatrice du trimestre 3 : cette variable est
composée de 0, sauf pour les troisièmes trimestres pour lesquels la valeur 1 figure.

Graphique 1 – Série des ventes et de dépenses publicitaires


La variable indicatrice du quatrième trimestre ne doit pas être incorporée au modè-
le. En effet, nous aurions dans le cas de son existence
D1t + D2t + D3t + D4t = U
U étant le vecteur unité qui serait par construction colinéaire au vecteur unité du terme
constant, ce qui rendrait la matrice X ′ X singulière (non inversible).
La valeur du coefficient saisonnier du quatrième trimestre est donc implicitement
incorporée à la valeur du terme constant.
Nous pourrions, dans une solution alternative, utiliser les quatre variables indica-
trices et procéder à une régression sans terme constant. Les données utilisées pour l’es-
timation sont présentées dans le tableau 8.
L’estimation du modèle est la suivante :
Vt = 129,10 + 1,37 Pubt − 7,21 D1t + 8,87 D2t − 118,6 D3t + et
(3,97) (0,38) (0,47) (6,25)

1. Dans un modèle économétrique, les variables doivent être non saisonnières ou Corrigées des
Variations Saisonnières (CVS).

80  ÉCONOMÉTRIE
n = 20
R 2 = 0,83
(·) = t de Student
Les dépenses publicitaires, dont le ratio de Student est égal 3,97, sont maintenant
explicatives1 des ventes ; la variable indicatrice D3t est la seule variable muette signifi-
cative (t ∗ = 6,25), ce qui implique que la saisonnalité des ventes est liée essentielle-
ment au creux du troisième trimestre.

Tableau 8 – Variables indicatrices


pour une désaisonnalisation trimestrielle

. Vt Pubt D1t D2t D3t

T1 164 34 1 0 0
T2 198 36 0 1 0
T3 85 32 0 0 1
T4 179 29 0 0 0
T1 168 45 1 0 0
T2 201 67 0 1 0
T3 98 76 0 0 1
T4 197 75 0 0 0
T1 197 75 1 0 0
T2 209 78 0 1 0
T3 100 72 0 0 1
T4 216 75 0 0 0
T1 223 78 1 0 0
T2 245 81 0 1 0
T3 119 84 0 0 1
T4 260 83 0 0 0
T1 298 89 1 0 0
T2 309 82 0 1 0
T3 124 81 0 0 1
T4 267 83 0 0 0

VI. La prévision à l’aide du modèle


linéaire général et la régression récursive

A. Prédiction2 conditionnelle
Le problème consiste à déterminer quelle valeur doit être attribuée à la variable
endogène lorsque nous connaissons les valeurs des variables exogènes.

1. Ceci est à noter : dans un modèle, l’absence d’une ou de plusieurs variables explicatives impor-
tantes peut entraîner une mauvaise estimation des variables figurant déjà dans le modèle.
2. Il ne s’agit pas toujours de prévoir une valeur dans le futur, mais dans le cadre de séries tem-
porelles de simuler le passé ou bien dans les modèles en coupe instantanée de prédire des
valeurs.

Le modèle de régression multiple  81


Le modèle général estimé est le suivant :
yt =
a0 +
a1 x1t +
a2 x2t + . . . +
ak xkt + et
La prévision pour la donnée t + h (respectivement i + h pour les modèles en
coupe instantanée) est la suivante :

yt+h =
a0 +
a1 x1t+h +
a2 x2t+h + . . . +
ak xkt+h
L’erreur de prévision est donnée par :
et+h = yt+h −
yt+h
Considérant que les hypothèses du modèle linéaire général sont vérifiées, la
prévision yt+h est sans biais.
Nous avons postulé que nous connaissons sans erreur les valeurs en t + h
des variables explicatives. Si pour un modèle en coupe instantanée cette hypo-
thèse est réaliste, il n’en est pas de même dans les modèles en séries temporelles
pour lesquelles les valeurs futures des variables explicatives sont estimées avec
imprécision et donc introduisent un élément supplémentaire d’incertitude dans
le calcul de la prévision. Ce problème est exclu du champ de notre analyse,
puisque nous traitons de prédiction conditionnelle.

B. Fiabilité de la prévision et intervalle de prévision


L’erreur de prévision calculée en t à l’horizon h peut s’écrire aussi :
et+h = yt+h − ′
yt+h = X t+h (a − a ) + εt+h
 ′ 
Calculons la variance de cette expression : V (et+1 ) = V X t+h (a −
a ) + εt+h

X t+h (a −
a ) est une combinaison linéaire des yt et puisque εt+h est sans corréla-
 ′ 
tion avec les yt , nous avons Cov X t+h (a −
a ),εt+h = 0 .
 ′ 
On a alors : V (et+h ) = V X t+h (a − â) + V (εt+h )
 ′  !
V X t+h ′
(a − â) = X t+h V (a − â)X t+h = σε2 X t+h

(X ′ X)−1 X t+h
(puisque V (â) = σε2 (X ′ X)−1 ) )
On connaît : V (εt+h ) = σε2
La variance de l’erreur de prévision est donc égale à :
2
σet+h = σε2 [X t+h

(X ′ X)−1 X t+h + 1] [18]
 
1
 x1t+h 
 
Avec X t+h = 
 x2t+h  vecteur des valeurs prévues des variables explicatives.
... 
xkt+h

82  ÉCONOMÉTRIE
Or l’erreur de prévision (et+h = yt+h − yt+h ) est distribuée suivant une loi nor-
2
male N (0, σet+h ) , en remplaçant la variance théorique σε2 par la variance empi-
σε2 dans l’expression [18], nous pouvons en déduire que :
rique

yt+h − yt+h

suit une loi de Student à n − k − 1 degrés de liberté.

σε [X t+h (X ′ X)−1 X t+h + 1]1/2

Nous remarquons que, comme pour le modèle de régression simple, la va-


riance de l’erreur de prévision est d’autant plus faible lorsque :
– la variance résiduelle est faible ;
– les valeurs prévues des variables explicatives se rapprochent de leur
moyennes.
L’intervalle au seuil (1 − α) de la prévision est alors :

α/2
"
yt+h =
yt+h ± tn−k−1 ′
σε2 [X t+h (X ′ X)−1 X t+h + 1] [19]

Exercice n° 7
fichier C3EX1

Prévision à partir du modèle linéaire


En reprenant les données de l’exercice 1 (tableau 1), on demande :
1) d’estimer le modèle à deux variables explicatives :
yt = a0 + a1 x1t + a2 x2t + εt (puisque nous avons montré que la variable x3 n’est
pas significative) ;
2) de calculer une prévision et son intervalle à 95 % pour les périodes 15 et 16, sachant
que :
x1 15 = 3 ; x1 16 = 6 et x2 15 = 24 ; x2 16 = 38

Solution

1) L’estimation du modèle à deux variables explicatives conduit aux résultats suivants :

yt = 25,84 + 0,715x1,t − 0,328x2,t + et


(0,26) (0,13)
n = 14
R 2 = 0,687
(.) = Ecart type

σε = 2,538

Nous remarquons les t de Student supérieurs à 2,201, les coefficients a1 et a2 sont


significativement différents de 0.
2) La prévision pour la période 15 est calculée à partir du modèle estimé :

Le modèle de régression multiple  83



y15 = 25,84 + 0,71 x1 15 − 0,33 x2 15 = 25,84 + 0,71 × 3 − 0,33 × 24

y15 = 20,25
De même, pour la période 16, on obtient :

y16 = 25,84 + 0,71 x1 16 − 0,33 x2 16 = 25,84 + 0,71 × 6 − 0,33 × 38

y16 = 17,26
Les écarts types de l’erreur de prévision sont donnés par [18] :
2

σe15 = σε2 [X 15

(X ′ X)−1 X 15 + 1] . Nous devons calculer (X ′ X)−1, les autres élé-
ments étant connus.
 
14 85 532
X X =  85

631 3 126  → (X ′ X)−1 =
532 3 126 20 666  
5,707687 −0,16341 −0,12221
=  −0,16341 0,011001 0,002542 
−0,12221 0,002542 0,002809
    
5,707687 −0,16341 −0,1222 1
σe215 = (2,538)2 (1 3 24)  −0,16341
0,011001 0,002542   3  + 1
−0,12221 0,002542 0,0022809 24
2

σe15 = 6,44 · [0,94 + 1] = 12,53 →
σe15 = 3,54
De même, nous pouvons déterminer :
2

σe16 = 6,44 · [0,071 + 1] = 6,90 →
σe16 = 2,62
Les intervalles de prévision peuvent être calculés par [19] :
#
α/2 ′
yt+h =
yt+h ± tn−k−1 σε2 [X t+h (X ′ X)−1 X t+h + 1]
0,025
y15 =
y15 ± t14−2−1 ·
σe15 = 20,05 ± 2,201 × 3,54
0,05
I C15 = [12,26 ; 27,84] , la prévision pour la période 15 a 95 % de chances de se
situer dans cet intervalle et la prévision de la période 16 :
0,05
I C16 = [11,49 ; 23,03]
Les intervalles de la prévision semblent assez larges, cependant il convient de sou-
ligner que la distribution de probabilité suit une loi de Student et qu’à ce titre la valeur
la plus probable demeure la valeur centrale (la prévision estimée) et que la probabilité
d’apparition diminue lorsque l’on s’éloigne de cette valeur centrale.
Nous remarquons que l’écart type de l’erreur de prévision de la période 16 est infé-
rieur à celui de la période 15. Cela est la conséquence des valeurs des variables explica-
tives pour la période 16 que nous avons choisies sensiblement égales à leur moyenne.

C. Les tests de stabilité par la régression récursive


On appelle régression récursive la procédure qui consiste à estimer une succes-
sion de régressions en augmentant progressivement le nombre d’observations.

84  ÉCONOMÉTRIE

Vous aimerez peut-être aussi