0% ont trouvé ce document utile (0 vote)
129 vues40 pages

Support de Cours

Informatique de gestion

Transféré par

Bilal Belaoula
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
129 vues40 pages

Support de Cours

Informatique de gestion

Transféré par

Bilal Belaoula
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 40

UNIVERSITÉ IBN TOFAIL

FACULTÉ D’ÉCONOMIE ET DE GESTION

Master : SMD
Semestre : 3

Analyse de données

Pr. Soufiane BOUYGHRISSI


2023/2024
Objectifs du cours

❖ Compréhension des concepts fondamentaux

❖ Maîtrise des outils analytiques

❖ Collecte et nettoyage des données

❖ Exploration des données

❖ Analyse statistique

❖ Interprétation des résultats

2
Introduction

❑ L’analyse des données est utilisée pour d’écrire les phénomènes étudiés, faire des prévisions et prendre des

décisions à leur sujet.

❑ En cela, la statistique est un outil essentiel pour la compréhension et la gestion des phénomènes complexes.

❑ Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous les champs

disciplinaires et explique pourquoi elle est enseignée dans toutes les filières universitaires, de l’économie à la

biologie en passant par la psychologie et bien sûr les sciences de l’ingénieur.

3
Méthodes d’analyse de données

❑ Analyse univariée ❑ Analyse de la covariance (ANCOVA)

❑ Analyse bivariée ❑ Analyse en composantes principales (ACP)

❑ Analyse multivariée ❑ Analyse factorielle confirmatoire

❑ Analyse de la variance (ANOVA) ❑ Modélisation par équations structurelles

4
Collecte de données

❑ Méthodes de collecte de données :

o Entretiens
o Enquêtes
o Observation
o Expérimentation
o Recherche documentaire

❑ Sources de données :

o Données primaires
o Données secondaires

5
Méthodes de collecte de données

❑ Entretiens

❑ Enquêtes

❑ Observation

❑ Expérimentation

❑ Recherche documentaire

6
Source de collecte de données

❑ Données primaires :
o Elles sont recueillies directement à partir de sources initiales.
o Elles sont obtenues spécifiquement pour répondre à un besoin de recherche particulier.
o Le chercheur a un contrôle total sur la conception de la collecte de données, le type d'informations recueillies
et la méthodologie employée.

-Enquêtes
-Questionnaires
Exemples : -Entretiens
-Observations sur le terrain
-Expérimentations...

7
Source de collecte de données

❑ Données Secondaires :
o Elles proviennent de sources existantes, collectées à des fins autres que la recherche actuelle.
o Elles ont été initialement rassemblées pour d'autres objectifs, mais peuvent être utilisées à nouveau dans
une nouvelle étude.
o Le chercheur a moins de contrôle sur la conception initiale de la collecte de données et sur la qualité des
données.

-Bases de données (WDI,..)


-Rapports
Exemples : -Articles de recherche & Publications académiques
-Données démographiques
-Etudes de marché déjà réalisées.

8
Présentation des logiciels

❑ Qu’est-ce que EVIEWS ?

o EVIEWS est un logiciel spécialisé dans l'analyse des séries chronologiques et des données économétriques.

o Il s'adapte à toute source de données.

o Il est largement utilisé dans le domaine de l'économie, de la finance et de la recherche en sciences

sociales.
Analyse des séries temporelles
Modélisation économétrique
Traitement des données
Visualisation des données
Prévision et simulation
9
Présentation des logiciels

❑ Qu’est-ce que STATA ?

o Stata est un logiciel statistique polyvalent qui permet d'effectuer une variété d'analyses de données.
o Il a été développé par IBM.

❑ Qu’est-ce que SmartPls ?

o SmartPLS est un logiciel utilisé pour la modélisation par équations structurelles (SEM - Structural
Equation Modeling) avec la méthode des moindres carrés partiels (PLS - Partial Least Squares).

10
Présentation des logiciels

❑ Qu’est-ce que SPSS ?

o SPSS (Statistical Package for the Social Sciences) est un logiciel statistique largement utilisé dans le
domaine de la recherche en sciences sociales, mais il est également utilisé dans d'autres disciplines.

o C’est un des logiciels de calcul statistique les plus performants, il s'adapte à toute source de données.

o Il a été développé par IBM.

11
Présentation du logiciel SPSS

❑ Objectifs :

➢ Analyse statistique
➢ Extraction de données
➢ Création de graphiques
➢ Exportation des résultats
➢ Gestion de données

12
Définition des variables

❑ Nom ❑ Manquant

❑ Type ❑ Colonnes

❑ Etiquette ❑ Aligner

❑ Valeurs ❑ Mesure

13
Préparation des données

❑ Préparation de la base de données

o Importation des données.

o Codage des variables.

o Nettoyage des données (données manquantes et données aberrantes).

o Sélection des variables.

o Organisation des données.

o Validation des données.

14
Analyse uni-variée

Cette étape consiste à décrire les données sur l’échantillon (ou population) concerné par l’étude, et ceci par la
représentation des différentes variables sous forme de tableaux de données accompagnés par les indicateurs
respectifs, ou par des représentations graphiques (Diagramme en secteur, histogramme, boite moustache… etc.).

Les analyses que nous allons présenter sont les suivantes :

✓ Dans le menu « statistique descriptive » : Effectifs, Explore, Graphique du quantile- quantile (Q-Q plot) …
etc.
✓ Dans le menu « graphes » : Nuage de points, Boite-moustaches (Box-plot) … etc.

15
Analyse bi-variée

Dans cette phase, on peut explorer les relations deux à deux, entre les variables d’intérêt ; par présentation des
tableaux croisés (tableaux de contingence) ; par mesures des différents types de corrélations (Pearson, V-Cramer,
Phi …etc.) ; ou par mesure de la dépendance par le test de Khi-deux d’indépendance.

Les analyse que nous allons présenter sont :

✓ Dans le menu « statistique descriptive » : Tableaux croisés, Test d’indépendance, Explorer … etc.
✓ Dans le menu « corrélation » : Les différents type de corrélations, Pearson (Quantitatives), Tau de Kendall
(Ordinales), Spearman ou V de Cramer (Qualitatives ou nominales) et le coefficient Eta (Qualitative-
Quantitative) … etc.

16
Analyse bi-variée

❑ L'indépendance de deux variables statistiques

o L'indépendance de deux variables statistiques signifie que la variation de l'une des variables n'est pas influencée
par la variation de l'autre.

o Il n'y a pas de relation de dépendance entre les deux variables.

o Le test d'indépendance du chi-carré est utilisé pour évaluer si deux variables catégorielles sont indépendantes ou
si elles sont associées d'une manière statistiquement significative.

Hypothèses du Test :
•H0 (Hypothèse Nulle) : Les deux variables sont indépendantes.
•H1 (Hypothèse Alternative) : les deux variables ne sont pas indépendantes.

17
Analyse bi-variée

❑ L'indépendance de deux variables statistiques

o Le test du 𝒳² permet de détecter l’existence d’un lien entre deux variables nominales.

Pour l'intensité de la relation entre les deux variables, on peut utiliser soit :
• V de Cramer
• Coefficient de Phi

Ces coefficients sont des mesures de l'association entre les variables et sont particulièrement utiles après avoir
effectué un test du chi-carré pour évaluer l'indépendance.

18
Analyse bi-variée

❑ La corrélation de Pearson / Spearman

o Corrélation de Pearson :

La corrélation de Pearson est utilisée pour mesurer la force et la direction d'une relation linéaire entre deux
variables quantitatives.

o Corrélation de Spearman :

La corrélation de Spearman est utilisée pour mesurer la force et la direction d'une relation monotone (non
nécessairement linéaire) entre deux variables ordinales.

19
Analyse multi-variée

❑ Régression linéaire

Lorsqu’on veut expliquer une variable quantitative (réponse, expliquée ou dépendante) par une (ou plusieurs)
variable quantitative dite, variable indépendante ou variable explicative.

𝑌 = 𝛽0 + 𝛽1 𝑋 1 + ⋯ + 𝛽𝑘 𝑋 𝑘 + 𝜀

Attention ! Il faut être prudent lors de l’alimentation du modèle :

- Ne choisir que les variables essentielles (validées par littérature) pour ne pas tomber dans le problème de
redondance (colinéarité).
- Ne pas réduire trop le nombre de variables du modèle pour ne pas augmenter l’erreur de mesure (la part
résiduelle).

20
Analyse multi-variée

❑ Régression linéaire

o Qualité d’ajustement du modèle

▪ Choix de la méthode d’entrée : Ascendante, Descendante, Complete.


▪ Coefficient de détermination. R²
▪ Test de multi colinéarité. VIF
▪ Test de Fisher d’ajustement global. Tableau ANOVA

21
Analyse multi-variée

❑ Régression linéaire

o Qualité d’ajustement du modèle


Les hypothèses à tester dans ce test sont :

𝐻0 ∶ 𝛽0 = 𝛽1 = ⋯ = 𝛽𝑘 = 0 (Les variables 𝑋𝑖 n’expliquent pas la réponse Y)

𝐻1 ∶ ∃𝑖 𝛽𝑖 ≠ 0 (Au moins l’une des variables 𝑋𝑖 explique la réponse Y)


Test de Student sur les coefficients. Tableau des coefficients
Les hypothèses de ce test sont :
𝐻0 ∶ 𝛽𝑖 = 0 (Pas d’effet significatif de la variable 𝑋𝑖)
𝐻1 ∶ 𝛽𝑖 ≠ 0 (L’effet est significatif de la variable 𝑋𝑖)

22
Analyse multi-variée

❑ Régression linéaire

o L’équation du modèle ajusté

L’équation du modèle ajusté, est l’équation qui représente le modèle final avec estimation des effets de chaque
variable indépendante sur la réponse et elle s’écrit sous la forme :

Cette équation peut être utilisée pour faire des prévisions !

Attention ! La présentation pédagogique des concepts de la régression linéaire ne doit pas faire négliger l’étape
de diagnostic des résidus. L’appréciation de la forme du graphe des résidus, même si celle-ci reste subjective,
renseigne précisément sur la validité des hypothèses implicites, celles-ci renforceront la qualité prédictive du
modèle.
23
Analyse multi-variée

❑ Régression linéaire

o Validation des hypothèses

▪ Non colinéarité des variables indépendantes. Corrélations bi-variées

▪ Non auto-corrélation des résidus. Durban Watson

▪ Homoscédasticité (Homogénéité des variances) des résidus. Graphe des résidus-Y

▪ Normalité des résidus. Histogramme, Q-Q plot, test de Shapiro et KS-test

24
Analyse de la variance (ANOVA)

o L’Analyse de la variance (analysis of variance) est une technique statistique simple et très utilisée afin d’examiner
la relation entre deux (ou plusieurs) variables et notamment entre une variable explicative et une variable cible
(ou dépendante).
o L’ANOVA nous permet de comprendre si la variable explicative influence la variable cible et comment.

Interprétation des Résultats :


Si la p-valeur est inférieure à un niveau de signification prédéterminé (généralement 0,05), on rejette
l'hypothèse nulle et conclut qu'il y a des différences significatives entre au moins deux groupes.

25
Analyse de la variance (ANOVA)

Lorsqu’on veut analyser l’effet d’une (ou plusieurs) variables qualitatives (facteurs) sur une variable quantitative
(réponse).

Dans une ANOVA à un facteur on teste l’égalité des moyennes et des variances de la variable par rapport aux
groupes (modalités du facteur), en se basant sur les tests d’hypothèses suivants :

- Pour les variances → 𝐻0 ∶ 𝜎2 = 𝜎2 ∀𝑖 ≠ 𝑗 𝑒𝑡 𝐻1 ∶ 𝜎2 ≠ 𝜎2 ∀𝑖 ≠ 𝑗


𝑖 𝑖 𝑖 𝑖
- Pour les moyennes → 𝐻0 : 𝜇𝑖 = 𝜇𝑗 ∀𝑖 ≠ 𝑗 𝑒𝑡 𝐻1 ∶ 𝜇𝑖 ≠ 𝜇𝑗 ∀𝑖 ≠ 𝑗

26
Analyse de la variance (ANOVA)

❑ ANOVA à un facteur

▪ Normalité de Y dans les groupes. KS-test ou Shapiro-Wilk


▪ Homogénéité de la variance de Y dans les groupes. Test de Levene
▪ Post-hoc tests pour le cas de plus de deux modalités : Scheffe, Tukey, Bonferroni, Dunnel ou Tamhane
(Le choix de la méthode se fait selon le résultat du test d’homogénéité des variances).

❑ ANOVA à plusieurs facteurs

ANOVA à plusieurs facteurs est une généralisation de l’ANOVA à un facteur, on suit la même procédure pour
chacun des facteurs !

27
Analyse de la covariance (ANCOVA)

C’est un mélange de régression linéaire et ANOVA. Lorsqu’on veut expliquer une variable quantitative par
une (ou plusieurs) variables quantitatives en contrôlant l’effet d’une (ou plusieurs) variable qualitative.

• Qualité d’ajustement du modèle :

▪ Coefficient de détermination. R² et R² -ajusté


▪ Estimation des paramètres. Tableau des coefficients

28
Analyse de la covariance (ANCOVA)

• Validation des hypothèses :

▪ Homogénéité de la régression. Modèle sans effets d’interaction


▪ Non colinéarité des variables indépendantes.
▪ Non auto-corrélation des résidus. Graphe des résidus-Y
▪ Homoscédasticité (Homogénéité des variances) des résidus. Graphe des résidus-Y
▪ Normalité des résidus. KS-test ou Shapiro et Wilk

• Prédictions :

Même cas que la régression linéaire !

29
Analyse en composantes principales (ACP)

o L’analyse factorielle est une technique descriptive (ou exploratoire) multi-variée des données, qui se base sur
la corrélation deux à deux dans un ensemble de variables (souvent plus de 3 variables) mesurées sur un
ensemble d’individus.

o Cette méthode est souvent utilisée lors des analyses exploratoires d’épuration des échelles de mesure.

30
Analyse en composantes principales (ACP)

o L’adéquation des données pour une ACP.

▪ Existence de forte corrélation entre les variables. Indice KMO


▪ Significativité des corrélations. Test de Bartlett
▪ Qualité de représentation (Communality) des variables.

o Choix des facteurs (construits) et interprétation

▪ Apport de chaque facteur en % de variance. Tableau de variance totale expliquée


▪ Critère du choix des facteurs. (Valeur propre > 1)

▪ Coordonnées (Factor loading) de chaque variable sur chaque facteur retenu. Matrice des composantes
▪ Fiabilité de chaque facteur. Alpha de Cronbach

31
Analyse en composantes principales (ACP)

o Pour exécuter une ACP il faut :

▪ S’assurer qu’il existe des corrélations minimales entre les variables qui feront l’objet de l’analyse.

▪ Dans le cas où les corrélations sont très faibles ou inexistantes, l'ACP n’est probablement pas l’analyse à

conseiller.

▪ À cet égard, on peut créer une matrice de corrélation avec toutes les variables de l’analyse. Cette matrice est une

option disponible dans le menu SPSS de l’analyse factorielle.

32
Analyse en composantes principales (ACP)

o Vérifier l’Indice KMO (Kaiser-Meyer-Olkin) :

Varie entre 0 et 1 et donne un aperçu global de la qualité des corrélations à l’examen de la matrice de
corrélation. Son interprétation se fait comme suit:

➢ 0,50 et moins est misérable


➢ entre 0,60 et 0,70, c’est médiocre
➢ entre 0,70 et 0,80 c’est moyen
➢ entre 0,80 et 0,90 c’est méritoire
➢ et plus 0,9 c’est merveilleux.

33
Analyse en composantes principales (ACP)

o Test Bartlett de la sphéricité :

▪ Cette mesure indique si la matrice de corrélation est une matrice identité à l'intérieur de laquelle toutes les
corrélations sont égales à zéro.

▪ Nous espérons que le test soit significatif (p < 0,05) pour que nous puissions rejeter l'hypothèse nulle voulant
qu'il s'agisse d'une matrice identité qui signifie que toutes les variables sont parfaitement indépendantes les
unes des autres.

34
Analyse en composantes principales (ACP)

o Matrice des corrélations :

Vous pouvez choisir l'un ou plusieurs des indicateurs statistiques suivants :


• Coefficients : Matrice des coefficients de corrélation pour les variables actives.
• Seuils de signification : Seuils unilatères de signification des coefficients de corrélations.
• Déterminant : Déterminant de la matrice des corrélations.
• Indice KMO et test de Bartlett : Indice de Kaiser-Meyer-Olkin pour la mesure de la qualité d’échantillonnage et
test de sphéricité de Bartlett.
• Anti-image : Anti-images des matrices de corrélation.
• Les coefficients de corrélation sont affichés en dessous de la diagonale tandis que les résidus sont situés au-
dessus.

35
Analyse en composantes principales (ACP)

Pour savoir le nombre de facteurs à retenir, trois règles sont applicables :

• 1ere règle : la règle de Kaiser qui veut qu’on ne retienne que les facteurs aux valeurs propres supérieures à 1.

• 2eme règle : on choisit le nombre d’axe en fonction de la restitution minimale d’information que l’on souhaite.

Par exemple, on veut que le modèle restitue au moins 80% de l’information.

• 3eme règle : le test du coude. On observe le graphique des valeurs propres et on ne retient que les valeurs qui

se trouvent à gauche du point d’inflexion. Graphiquement, on part des composants qui apportent le moins

d’information (qui se trouvent à droite), on relie par une droite les points presque alignés et on ne retient que

les axes qui sont au-dessus de cette ligne.

Remarque : Pour les deux premières règles, on examine le tableau de la variance totale expliquée.

36
Analyse factorielle confirmatoire

Une fois le modèle conceptuel est prêt (les hypothèses, les construits latentes, les items … etc). Avant de poser le

modèle structurel, on doit tout d’abord passer par la validation du modèle de mesure.

Attention ! toujours vérifier si le modèle à une solution (nombre de degré de liberté du modèle) ! Il faut que le

nombre de paramètre à estimer k doit être inferieur ou égale au nombre de source d’information donné par la

formule :

Avec p est le nombre d’items (de variables observable) dans le modèle.

37
Analyse factorielle confirmatoire (Suite)

38
Analyse factorielle confirmatoire (Suite)

o Fiabilité des échelles

▪ Rho de Joreskog ou CR (Composite Reliability) plutôt que Alpha de Cronbach (Roussel et al. (2002)).

o Validité convergente

▪ Représentation du modèle de mesure.


▪ Scores et coefficients de régression (factor loading). (Score > 0,7)
▪ Significativité individuelle des items. (p-value < 0,05)
▪ Rho de validité convergente ou AVE (Average Variance Extracted). (AVE > 0,5)

o Validité discriminante

▪ Critère de validité discriminante de Fornelle-Larcker (1981).

39
Analyse factorielle confirmatoire (Suite)

❑ Qualité d’ajustement du modèle de mesure

La qualité d’ajustement du modèle peut se faire par différents indices.

▪ Test d’ajustement du modèle. Test de Khi-deux


▪ Indices d’ajustement absolu. (GFI et AGFI >0,9)
▪ Indice d’ajustement incrémentaux (CFI et TLI >0,9)
▪ Indice d’ajustement et de parcimonie. (RMSEA <0,08)

Attention ! L’analyse confirmatoire ne doit pas être sujet du même échantillon (données) utilisé dans l’analyse
exploratoire.

40

Vous aimerez peut-être aussi