Introduction to Econometrics – Introduction à l’Econométrie
Pour la version française, voir page 5
1/ IÉSEG calculators authorized. One and only one correct answer. No negative mark.
2/ To prevent any “sharing of information”, we mixed questions. You have been given EXAM n°424.
3/ Do NOT forget to write this number on the scoring sheet.
1/ An estimated relationship between X and Y is given by . Then b0 represents
a) the predicted value of Y when X = 0
b) the estimated average change in Y per unit change in X.
c) the predicted value of Y.
d) the variation around the line of regression.
An internet provider charges companies according to their bandwidth use. You have been given results of a regression
analysis designed to predict the cost (Y) - measured in dollars per month. You use “bandwidth” as the explicative variable
(X) - measured in millions of Terabytes. Data for 21 companies who use the service were used to fit the model:
The results of the simple linear regression are provided below.
2/ Interpret the estimate of , the Y-intercept of the line.
a) All companies will be charged at least $11.
b) About 95% of the observed service charges fall within $150 of the least squares line.
c) Without bandwidth, companies are charged $150.
d) For every $1 million increase in sales revenue, we expect a service charge to increase $150.
3/ Interpret the estimate of (that is Syx) , the standard deviation of the random error term (or standard error of the
estimate) in the model.
a) A low estimate of is preferred. We can see it as the average distance to the regression line.
b) A high estimate of is preferred.
c) A low estimate of is preferred and means that the p-value is high.
d) As it’s value is equal to 4 the model is accurate.
4/ Interpret the p-value for testing whether is not equal to 0.
a) There is insufficient evidence (at the = 0.10) to conclude X is a useful linear predictor of Y.
b) There is sufficient evidence (at the = 0.05) to conclude X is a useful linear predictor of Y.
c) We can always be sure that X is a good predictor of Y.
d) If X increases by one unit then Y increases by 0.0412 units.
5/ You want to calculate a confidence interval of . You have to use… (note : )
a)
b)
c)
1
d)
You work for Amazon. You select randomly 32 customers to determine if age (X) has an effect on the number of books
(Y) that new customers purchase. You notice that they purchase on average 31 books. In the linear model the total sum of
squares (SST) is 1124. The regression sum of squares (SSR) is 157.
6/ Then the error or residual sum of squares (SSE) is __________.
a) 1281
b) 0
c) 967
d) 0.139
7/ ______% of the total variation in sales can be explained by the age of new clients.
a) About 0.139%
b) About 86.1%
c) About 0.861%
d) About 13.9%
8/ Suppose that Amazon wants to obtain a 95% confidence interval estimate for the mean sales made by customers. The t
critical value (or t) they would use has
a) 32 degrees of freedom
b) 31 degrees of freedom
c) 29 degrees of freedom
d) 30 degrees of freedom
Amazon wonders now if book sales (Y) are related to the number of adverts on TV a given day (X). You use Microsoft
Excel’s Data Analysis tool to analyse 16 randomly selected days with the following results. AAAA, BBBB and XXXX
are missing values.
Regression Statistics
Multiple R 0.802
R Square AAAA
Adjusted R Square BBBB
Standard Error SYX 0.9224
Observations 16
ANOVA
df SS MS F Sig.F
Regression 1 21.497 21.497 25.27 0.000
Error 14 11.912 0.851
Total 15 33.409
Predictor Coef StdError t Stat P-value
Intercept 3.96 1.440 2.75 0.016
Adverts 2.15 0.5 XXX 0.000
9/ The value of the quantity that the least squares regression line minimizes is ________.
a) 21.497
b) 11.912
c) 33.409
d) 0.643
10/ The prediction for a day when X=14 is Y = ________.
a) Close to 2.15
b) Close to 3.96
c) Close to 34
2
d) Another solution
11/ The coefficient of determination is ________
a) 0.643 and the model is globally significant (with a 5% risk)
b) 0.802 and the model is globally significant (with a 5% risk)
c) 0.9224 and the model is globally not significant (with a 5% risk)
d) 0.618 and the model is globally not significant (with a 5% risk)
12/ Your manager asks you if “the effect of one more advert may is that we sell two more books”. We accept a 5% risk.
Use hypothesis testing to answer the question:
a) so we cannot reject his assumption
b) so we cannot reject his assumption
c) so we can reject his assumption
d) Another answer
13/ Select the correct answer:
a) If the model is “power” or “log-linear” then the rate of change of X has an effect on the rate of
change of Y.
b) If the model is exponential a one unit variation in X implies a one unit variation in Y.
c) To get a good model the covariance between X and Y should be as small as possible.
d) If the model is “power” or “log-linear” then the rate of change of X has an effect on the unit variation of
Y
14/ The estimator of the predicted slope should be…
a) Homoscedastic
b) Linear
c) Unbiased
d) None of the above
15/ Based on the residual plot below, will you conclude that there might be a violation of which of the following
assumptions?
8
6
4
2
0
0 2 4 6 8 10 12 14 16
-2
-4
-6
a) Normality of errors
b) Homoscedasticity
c) Independence of errors
d) Independence and Normality and Linearity
16/ If the correlation coefficient (r) = 0.00, then
a) all the data points must fall exactly on a straight line with a slope that equals 1.00.
b) all the data points must fall exactly on a vertical straight line with a zero slope.
c) all the data points must fall exactly on a straight line with a positive slope.
d) The two variables are linearly independent
17/ The width of the prediction interval for the predicted value of is dependent on
a) the coefficient of determination.
b) the value of X for which the prediction is being made.
3
c) the alpha risk.
d) All of the above.
18/ According to the Normal Probability Plot
Normal Probability Plot
120
100
80
60
Residuals 40
20
0
-20-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-40
-60
-80
-100
Z Value
a) We can accept the Linearity assumption
b) We can accept the homoscedasticity assumption
c) We can accept the convergence assumption
d) None of the above.
Amazon wonders now if book sales (Y) are related to the number of articles on the book in newspapers (X). You have
been given the following results:
Regression Statistics
Multiple R 0.9447
R Square 0.8924
Adjusted R 0.8886
Square
Standard 0.3342
Error
Observations 30
df SS MS F Significanc
eF
Regression 1 25.9438 25.938 232.2200 4.36E-15
Residual 28 3.1282 0.1117
Total 29 29.072
Coefficie Standar t Stat P-value Lower 95% Upper
nts d Error 95%
Intercept 0.4024 0.1236 3.2559 0.0030 0.1492 0.6555
articles 0.0126 0.0008 15.23 4.36E-15 0.0109 0.0143
19/ the p-value of the measured F-test statistic to test whether the number of articles affects book sales is
a) (4.3946E-15)/2 and the model is globally significant
b) 4.36E-15 and the model is globally significant
c) 0.0030 and the model is globally significant
d) 0.0030 and the model is not globally significant
20/ You can be 95% confident that the average number of articles needed to sell one more book is somewhere between
0.0109 and 0.0143 hours.
a) True
b) False
c) Only 95% True
d) 5% False
4
5
1/ Les calculatrices IÉSEG sont autorisées. Une et une seule réponse correcte. Pas de point négatif.
2/ Pour éviter le partage d’informations, nous avons mélangé les questions. On vous a donné l’EXAM n°424.
3/ N’oubliez pas d’inscrire ce numéro sur la feuille des réponses.
1/ L’estimation de la relation entre X et Y est donnée par . Ici b0 représente:
a) La valeur prédite de Y lorsque X = 0
b) La variation moyenne estimée de Y lorsque X change d’une unité.
c) La valeur prédite de Y.
d) La variation autour de la droite de régression.
Un fournisseur d’accès Internet facture les entreprises en fonction de leur utilisation de la bande passante. Vous avez reçu
les résultats d’une analyse de régression pour prédire le coût (Y) – exprimé en dollars par mois. Vous utilisez la variable
« bande passante » comme variable explicative (X) – exprimée en millions de téraoctets. Les données de 21 entreprises
utilisant le service ont été utilisées pour ajuster le modèle :
Les résultats de la régression linéaire simple sont fournis ci-après.
Y^ =150+ 11 X ; SYX =4 ; p−value( probabilité ) pour test bilatéral=0.0412( pour tester β 1)
2/ Interprétez l’estimation de , la constante de la droite de régression.
a) Toutes les entreprises seront facturées au moins de 11$.
b) Environ 95% des frais de service observés seront situés à l’intérieur d’un intervalle de 150 $ autour de la
droite des moindres carrés.
c) Sans utiliser la bande passante, les entreprises seront facturées de 150$.
d) Pour chaque augmentation de 1 million du chiffre d’affaires, nous nous attendons à une augmentation des
charges de service de 150$.
3/ Interprétez l’estimation de (c’est-à-dire Syx), l’écart-type de l’erreur aléatoire (ou l’erreur standard de l’estimation)
dans le modèle.
a) Il est préféré que l’estimation de soit faible. Nous pouvons la voir comme la distance moyenne à
la droite de régression.
b) Il est préféré que l’estimation de soit élevée.
c) Il est préféré que l’estimation de soit faible. Cela indique que la p-value (probabilité) est élevée.
d) Comme sa valeur est égale à 4, le modèle est précis.
4/ Interprétez la p-value (probabilité) associée au test de significativité du coefficient qui teste si est différent de 0.
a) Il n’y a pas assez de preuves pour conclure (avec α= 0.10) que X est une variable explicative utile, dans le
cadre d’un modèle linéaire, pour prédire Y.
b) Il y a assez de preuves pour conclure (avec = 0.05) que X est une variable explicative utile, dans
le cadre d’un modèle linéaire, pour prédire Y.
c) Nous pouvons toujours être sûrs que X est un bon prédicteur de Y.
d) Si X augmente d’une unité, alors Y augmente de 0,0412 unité.
5/ Vous souhaitez obtenir un intervalle de confiance pour le coefficient . Vous devez utiliser… (note : )
a)
b)
c)
6
d)
Vous travaillez pour Amazon. Vous sélectionnez aléatoirement 32 consommateurs pour savoir si l’âge (X) a une
influence sur le nombre de livres (Y) que les nouveaux clients achètent. Vous remarquez qu’ils achètent en moyenne 31
livres. Dans le modèle linéaire, la somme des carrés totaux (SST ou SCT) est égale à 1124. La somme des carrés
expliqués (SSR ou SCE) est égale à 157.
6/ La somme des carrés des résidus (SSE ou SCR) est __________.
a) 1281
b) 0
c) 967
d) 0.139
7/ ______% des variations totales des ventes peuvent être expliqués par l’âge des nouveaux clients.
a) Environ 0.139%
b) Environ 86.1%
c) Environ 0.861%
d) Environ 13.9%
8/ Supposons qu’Amazon veut obtenir une estimation par intervalle de confiance de 95% pour les ventes moyennes
effectuées par les clients. La valeur critique de t (ou t ) qu'ils utiliseraient a :
a) 32 degrés de liberté
b) 31 degrés de liberté
c) 29 degrés de liberté
d) 30 degrés de liberté
Amazon se demande maintenant si les ventes de livres (Y) sont liées au nombre d'annonces à la télévision un jour donné
(X). Vous utilisez l'outil d'analyse de données de Microsoft Excel pour analyser 16 jours choisis au hasard avec les
résultats suivants. AAAA , BBBB et XXXX sont les valeurs manquantes.
Statistiques de la Regression
Multiple R 0.802
R Carré AAAA
Adjusté R carré BBBB
Ecart-type SYX 0.9224
Observations 16
ANOVA
dl SC MS F Sig.F
Regression 1 21.497 21.497 25.27 0.000
Erreurs 14 11.912 0.851
Total 15 33.409
Predictor Coef Ecart-type t-Stat P-value
Constante 3.96 1.440 2.75 0.016
Annonces 2.15 0.5 XXX 0.000
9/ La valeur de la quantité que la ligne de régression des moindres carrés minimise est____:
a) 21.497
b) 11.912
c) 33.409
d) 0.643
10/ La prédiction pour un jour où X = 14 est Y = __________.
a) Proche de 2.15
7
b) Proche de 3.96
c) Proche de 34
d) Une autre solution
11/ Le coefficient de détermination est________
a) 0,643 et le modèle est globalement significatif (avec un risque de 5 %)
b ) 0,802 et le modèle est globalement significatif (avec un risque de 5 % )
c ) 0,9224 et le modèle est globalement pas significatif (avec un risque de 5 % )
d) 0,618 et le modèle est globalement pas significatif (avec un risque de 5 %)
12/ Votre responsable vous demande si "l'effet d'une annonce supplémentaire est que nous vendons deux livres de plus".
Nous acceptons un risque de 5%. Utilisez le test d'hypothèse pour répondre à la question suivante:
a) donc nous ne pouvons pas rejeter son hypothèse
b) donc nous ne pouvons pas rejeter son hypothèse
c) donc nous ne pouvons pas rejeter son hypothèse
d) Une autre réponse
13/ Sélectionnez la bonne réponse :
a) Si le modèle est «puissance» ou « log-linéaire ", alors le taux de variation de X a un effet sur le taux de
variation de Y.
b) Si le modèle est exponentiel, une variation d'une unité de X implique une variation d'une unité de Y.
c) Pour obtenir un bon modèle, la covariance entre X et Y doit être aussi faible que possible.
d) Si le modèle «puissance» ou « log-linéaire ", alors le taux de variation de X a un effet sur la variation de Y
14 / L'estimateur de la pente prédite devrait être ...
a ) homoscédastique
b) linéaire
c) non-biaisé
d) Aucune de ces réponses
15/ En vous basant sur le graphique des résidus ci-dessous, vous pourriez éventuellement conclure à la violation d’une
hypothèse, laquelle ?
8
6
4
2
0
0 2 4 6 8 10 12 14 16
-2
-4
-6
a) Normalité des erreurs
b) Homoscédasticité
c) Indépendance des erreurs
d) Indépendance et Normalité et Linéarité
16/ Si le coefficient de corrélation (r) = 0.00, alors
a) Tous les points doivent être exactement sur une droite avec une pente égale à 1.00.
b) Tous les points doivent être exactement sur une droite verticale de pente nulle
c) Tous les points doivent être exactement sur une droite avec une pente positive.
d) Les deux variables sont linéairement indépendantes
8
17/ L’amplitude d’un intervalle de confiance pour prédire la valeur de dépend
a) du coefficient de détermination.
b) La valeur de X pour laquelle la prévision est faite.
c) Du risque alpha.
d) Toutes les propositions ci-dessus.
18/ Selon le graphique de la distribution de probabilité de la loi normale
Normal Probability Plot
120
100
80
60
Residuals
40
20
0
-20-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-40
-60
-80
-100
Z Value
a) Nous pouvons accepter l’hypothèse de Linéarité
b) Nous pouvons accepter l’hypothèse d’homoscédasticité
c) Nous pouvons accepter l’hypothèse de convergence
d) Aucune de ces propositions.
Amazon se demande si les ventes de livres (Y) dépendent du nombre d’articles écrits sur les livres dans les journaux (X).
Vous trouverez les résultats ci-dessous :
Regression Statistics
Multiple R 0.9447
R Square 0.8924
Adjusted R 0.8886
Square
Standard 0.3342
Error
Observations 30
df SS MS F Significanc
eF
Regression 1 25.9438 25.938 232.2200 4.36E-15
Residual 28 3.1282 0.1117
Total 29 29.072
Coefficie Standar t Stat P-value Lower 95% Upper
nts d Error 95%
Constante 0.4024 0.1236 3.2559 0.0030 0.1492 0.6555
articles 0.0126 0.0008 15.23 4.36E-15 0.0109 0.0143
19/ La p-value (probabilité) associée à la statistique F pour savoir si le nombre d’articles faits dans les journaux affecte le
niveau des ventes est
a) (4.3946E-15)/2 et le modèle est globalement significatif
b) 4.36E-15 et le modèle est globalement significatif
c) 0.0030 et le modèle est globalement significatif
d) 0.0030 et le modèle n’est pas globalement significatif
9
20/ Vous pouvez être sûr à 95% que l’impact sur les ventes d’un article supplémentaire fait dans les journaux sur les
livres se situe entre 0.0109 et 0.0143.
a) Vrai
b) Faux
c) Seulement à 95% vrai
d) 5% Faux
Student Table (two tail / bilatérale) :
10