4/8/2021
Ajustement et Corrélation
linéaire
Introduction:
• Dans ce chapitre, les variables statistiques
sont supposées « discrètes ». Pour passer aux
variables continues, il suffit de remplacer les
classes par leurs centres.
1
4/8/2021
Notion d’ajustement :
• Dans les chapitres précédents, nous avons vu
que les tableaux statistiques ont au moins
deux colonnes :
• Une colonne pour les valeurs de la variable xi
• Une colonne pour les effectifs ni ou les
fréquences fi.
• Nous avons aussi procédé à des
représentations graphiques.
2
4/8/2021
• Parfois, dans ces représentations graphiques,
les points représentés semblent se repartir
suivant une configuration assez régulière (une
droite ou une parabole, ou une courbe).
3
4/8/2021
• L’ajustement consiste en substituer aux
effectifs ou fréquences effectivement
observés des effectifs ou fréquences calculés à
l’aide de procédés que nous allons envisager.
• On conçoit, en examinant ces représentations
graphiques, que une opération d’ajustement
consiste en:
• 1ère étape: la recherche de la forme générale
de la courbe d’ajustement,
• 2ème étape: la détermination de l’équation de
la courbe d’ajustement, telle que :
ni ou fi = f (x) avec f une fonction
4
4/8/2021
Ajustement graphique :
• Lorsqu’on a, dans une représentation
graphique, un nuage de points, un première
ajustement conduit à tracer une courbe
simple régulière qui compense à peu près les
écarts positifs ou négatifs c’est-à-dire qui
laisse à peu près le même nombre de points
de part et d’autre.
• Ainsi les deux figures précédentes
conduisaient à des ajustements manuels qui
se présenteraient approximativement comme
suit :
10
5
4/8/2021
11
• Dans le cas où les points semblent se répartir
de façon linéaire, plusieurs droites peuvent-
être candidates à ajuster ce nuage de points.
12
6
4/8/2021
• Mais, ces droites sont parallèles régulièrement
espacées de part et d’autre d’une droite
centrale. La droite d’ajustement est la droite
centrale de l’ensemble des droites telle que
les points à ajuster se répartissent
équitablement au dessus et au dessous de
cette droite, et à l’intérieur du réseau des
parallèles.
13
• Cet ajustements manuel, bien que sommaire,
donne en pratique de bons résultats surtout si
la courbe d’ajustement cherchée est une
courbe simple, une droite par exemple.
14
7
4/8/2021
Exemples d’ajustements graphiques
linéaires :
• On dispose de tableau suivant :
xi ni
2 7
4 10
6 13
8 15
9 20
13 28
15
• La représentation graphique de cette série
statistique est faite de six points.
16
8
4/8/2021
• Un ajustement linéaire est le plus approprié.
• Une droite d’ajustement a été construite
manuellement et figure sur la représentation.
• On détermine facilement l’équation
y=ax+b
de cette droite en écrivant qu’elle passe par
les points, M(4, 10) et N(9, 20)
17
• On peut écrire
et b=10 – 8=2
Soit une droite d’équation y=2x+2
18
9
4/8/2021
Notion de corrélation :
• Parfois, on peut se trouver en face d’une
population telle qu’on puisse étudier deux
caractères différents sur une même unité
statistique :
19
Variable 1: X Variable 2: Y
x1 y1
x2 y2
. .
. .
. .
. .
xn yn
« n » étant le nombre d’unité statistiques observées.
20
10
4/8/2021
• Une unité présente à la fois la mesure xi de X
et la mesure yi de Y, avec i=1, …, n
• Sur le tableau précédent, on pourra s’attacher
à l’étude des variations simultanées
(croissance ou décroissance) des deux
caractères X et Y.
21
Trois situations peuvent se présenter :
1. Aucun lien entre X et Y.
2. X et Y sont liés fonctionnellement.
3. Sans être liés fonctionnellement, X et Y sont
en dépendance, plus ou moins marquée.
• On dira alors que X et Y sont en corrélation
(positive ou négative).
22
11
4/8/2021
Exemple :
• Le poids et la taille des enfants d’une école
sont deux variables en corrélation positive.
23
Mise en évidence graphique de l’existence d’une corrélation
entre deux variables :
Sur un repère, on représente les points de
coordonnées tirées du tableau précédent :
(x1, y1) ; (x2, y2) ; … ; (xi, yi) ; … ; (xn, yn).
Les points formeront un nuage de points:
24
12
4/8/2021
25
• Ce nuage peut se présenter de divers façons :
1. Les points se dispersent au hasard dans le
plan :
• Comme dans la figure précédente. Alors X et Y
peuvent être indépendantes l’une de l’autre
(car le nuage ne présente pas une influence
claire d’une variable sur l’autre).
26
13
4/8/2021
• Les points peuvent se regrouper en un nuage
de forme assez allongée, assez aplatie :
27
• A une valeur fixée de l’une des deux variables
correspondent des points qui présentent, pour
l’autre variable, des valeurs assez
rapprochées.
• Les deux variables semblent alors être liées,
c’est-à-dire corrélées soit positivement
(croissent ensembles), soit négativement
(décroissement ensembles).
• On peut alors dire que X et Y sont corrélées ou
qu’il existe une corrélation entre X et Y.
28
14
4/8/2021
Mesure de la corrélation. Coefficient de
corrélation linéaire :
• La correlation est mésurée par un coefficient
appelé le coefficient de corrélation linéaire.
• La formule de coefficient de corrélation
linéaire est :
29
Autres formules de coefficient de
corrélation linéaire:
30
15
4/8/2021
Donc, d’après ceci, on voit que
• Si , alors on a une forte corrélation
positive.
• Si , alors on a une forte corrélation
négative.
• Si , alors on n’a pas de corrélation.
31
Exemple de calcul du coefficient de
corrélation linéaire entre deux
variables X et Y :
32
16
4/8/2021
33
• Moyenne arithmétique de X :
• Moyenne arithmétique de Y :
• Coefficient de corrélation linéaire :
34
17
4/8/2021
• Donc on a une corrélation positive, comme
l’indique déjà la représentation graphique et
assez serrée, le coefficient r ayant une valeur
absolue voisine de 1.
35
Droite de régression linéaire:
Méthode de moindres carrées:
36
18
4/8/2021
Méthode de moindres carrées:
• Il faut déterminer les différents paramètres
d’une fonction y = f (x) qui ajuste à la façon la
plus satisfaisante les observations faites, la
fonction retenue devant cependant conduire à
une courbe (une droite) d’ajustement :
37
xi yi
x1 y1
. .
. .
Observations
. .
. .
xk yk
Supposons y = f (x) est l’ajustement envisagé (on a sa
forme, son type, mais pas ses paramètres!)
38
19
4/8/2021
Graphiquement:
39
Calculons:
…
• On trouve différentes valeurs de paramètres à
déterminer qui conduisent à différentes
fonctions telle que y = f (x)
• Alors, nous cherchons les paramètres qui
donnent la fonction f qui rend la plus faible
possible la somme des carrées
(méthode des moindres carrés).
40
20
4/8/2021
Conclusion :
• On cherche la fonction f telle que qui
permettra de calculer les f (xi) tels que
soit minimum
observés calculée
41
• On dispose d’une distribution à deux variables
statistiques X et Y pour laquelle la
représentation graphique a montré que Y
peut-être ajusté par rapport à X par une droite
d’équation y=f(x)=ax+b.
• Alors, par la méthode des moindres carrées, il
faut que :
42
21
4/8/2021
• c’est-à- dire
• Le problème consiste donc à déterminer les
paramètres a et b.
• Rappelons que les valeurs numériques de
x1,…, xk et y1,..., yk sont connues et lues
directement sur le tableau statistique.
43
44
22
4/8/2021
45
On remplace dans (1)
46
23
4/8/2021
47
Finalement :
Remarque : On a une autre formule :
48
24
4/8/2021
• Lorsque deux variables sont en corrélation
linéaire, alors on a : y = ax +b est l’ajustement
de y à partir de x.
• Cette droite s’appelle «droite de régression»,
on droite d’«estimation de y à partir de x ».
49
• Le procédé de détermination de l’équation de
la droite de régression est généralement
fondé sur le principe des moindres carrés.
50
25
4/8/2021
Exemple:
• Cherchons l’équation de la droite d’ajustement
ou de régression linéaire par la méthode des
moindres carrées, pour l’exemple du tableau
des calculs suivant:
51
2 7 14 4 -5 -8,5 42,5 25
4 10 40 16 -3 -5,5 16,5 9
6 13 78 36 -1 -2,5 2,5 1
8 15 120 64 +1 -0,5 -0,5 1
9 20 180 81 +2 +4,5 9 4
13 28 364 169 +6 +12,5 75 36
42 93 796 370 0 0 145 76
52
26
4/8/2021
Calcul des paramètres a et b en utilisant les
formules:
53
Equation de la droite d’ajustement:
54
27
4/8/2021
30
25
20
15
10
0
0 2 4 6 8 10 12 14
55
28