EJERCICIO 18
Suponga que el gerente de ventas de un distribuidor grande de partes de autos desea estimar
en el mes de abril las ventas totales anuales de una región. Con base en las ventas regionales,
también se pueden estimar las ventas totales de la compañía. Con base en la experiencia pasada,
se determina que las estimaciones de abril de las ventas anuales tienen una precisión razonable, en
años futuros esa predicción serviría para revisar los programas de producción y mantener el
inventario correcto en las tiendas de descuento minoristas. Parece que varios factores están
relacionados con las ventas, como el número de tiendas de descuento minoristas en la región que
venden componentes de la compañía, el número de automóviles en la región registrados desde el
1 de abril, y el ingreso total personal del primer trimestre del año. Al final se seleccionaron cinco
variables independientes como las más importantes (según el gerente de ventas). Luego se
recopilaron los datos de un año reciente. También se registraron las ventas totales anuales en ese
año por cada región. En la siguiente tabla observe que en la región 1 había 1 739 tiendas de
descuento minoristas que vendían los componentes de autos de la compañía y 9 270 000
automóviles registrados en la región desde el 1 de abril. Las ventas en ese año fueron $37 702 000.
a) Considere la siguiente matriz de correlación. ¿Qué variable individual tiene la correlación
más fuerte con la variable dependiente? Las correlaciones entre las variables
independientes, tiendas de descuento e ingreso, y entre automóviles y tiendas de descuento,
son muy fuertes. ¿Esto puede representar un problema? ¿Cómo se denomina esta
condición?
SOLUCIÓN:
Las variables individuales se muestran en la columna izquierda, en otras palabras, las variables
independientes son: tiendas de descuento, automóviles, ingreso, antigüedad, supervisores. El
coeficiente de relación indica el grado de relación entre una variable independiente y otra
dependiente; y funciona así: a mayor cercanía a 1 mayor relación y a mayor cercanía a 0 menor
relación. Entonces, la variable independiente que tiene una correlación positiva fuerte con la
variable dependiente es ingreso porque R = 0.964.
Las correlaciones entre las variables independientes tiendas de descuento e ingreso y tiendas
de descuento y automóviles, son superiores a 0.70+ por lo que se puede deducir que sí
representan un problema, esta condición es la de multicolinealidad.
b) En la siguiente tabla se presenta el resultado de la ecuación de regresión de las cinco
variables. ¿Qué porcentaje de la variación se explica mediante la ecuación de regresión?
SOLUCIÓN
El coeficiente de determinación es el porcentaje de variación de la variable dependiente,
Y, explicada por el conjunto de variables independientes. Este coeficiente se calcula utilizando los
datos de la tabla ANOVA, así:
En este caso:
1593.81
𝑅2 = = 𝟎. 𝟗𝟗𝟒𝟑𝟑
1602.89
Por lo tanto, las variables independientes tiendas de descuento, automóviles, ingreso, antigüedad
y supervisores explican, o contabilizan, 99.4% de la variación de las ventas.
c) Realice una prueba global de hipótesis para determinar si alguno(s) de los coeficientes de
regresión no son cero. Utilice el nivel de significancia 0.05.
SOLUCIÓN
Para realizar la prueba global de hipótesis se deben determinar:
- Hipótesis nula: β1 = β2 = β3 = β4 = β5 = 0
Hipótesis alternativa: No todas las βi son 0.
- Según la tabla ANOVA, el valor de la distribución F; es decir el F calculado es
140.36
- Utilizando la tabla de distribución F, con k = 5gl en el numerador, 4gl en el
denominador y con un nivel de significancia 0.05; se determina que el valor del F
crítico es 6.26.
- La regla de decisión es: rechazar la hipótesis nula (H0) y aceptar H1 si el valor
calculado de F es mayor que 6.26.
- El valor calculado de F es 140.36, que se encuentra en la región de rechazo. Por lo
tanto, se descarta la hipótesis nula de que todos los coeficientes de regresión
múltiple son cero. Esto significa que algunas variables independientes tienen la
capacidad de explicar la variación de la variable dependiente.
d) Realice una prueba de hipótesis en cada una de las variables independientes. ¿Consideraría
eliminar “tiendas de descuento” y “supervisores”? Utilice el nivel de significancia 0.05.
SOLUCIÓN
Primero se deben determinar las hipótesis nulas y alternativas para cada variable:
Tiendas de
automóviles ingreso antigüedad supervisores
descuento
H0 : β1 = 0 H0 : β 2 = 0 H0 : β3 = 0 H0 : β4 = 0 H0 : β5 = 0
H1 : β1 ≠ 1 H1 : β 2 ≠ 1 H1 : β3 ≠ 1 H1 : β4 ≠ 1 H1 : β5 ≠ 1
- Se probará la hipótesis con el nivel de significancia 0.05. El estadístico de prueba sigue
la distribución t de Student con n - (k + 1) gl. El número de observaciones muestrales
es n = 10. El número de variables independientes es k = 5. Así, hay 4gl. El valor crítico
de t según la tabla es 2.776.
- La regla de decisión es: Rechazar H0 si t es menor que -2776 o mayor que 2.776.
- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores
estándar para cada variable, se pueden calcular los valores de t mediante la siguiente
fórmula:
Tiendas de
automóviles ingreso antigüedad supervisores
descuento
−0.0006 − 0 1.7399 − 0 0.4099 − 0 2.0357 − 0 −0.0344 − 0
𝑡= 𝑡= 𝑡= 𝑡= 𝑡=
0.0026 0.5530 0.0439 0.8779 0.1880
𝒕 = 𝟐. 𝟑𝟎𝟕𝟕 𝒕 = 𝟑. 𝟏𝟒𝟔𝟑 𝒕 = 𝟗. 𝟑𝟑𝟕𝟏 𝒕 = 𝟐. 𝟑𝟏𝟖𝟖 𝒕 = −𝟎. 𝟏𝟖𝟑𝟎
- Por lo tanto; para TIENDAS DE DESCUENTO, como t1 es menor que 2.776 entonces
se puede concluir que podría igualar a 0 por lo que esta variable independiente no es
un factor de predicción. En el caso de la variable SUPERVISORES, el valor de t5 es
menor que 2.776 entonces podría igualarse a 0 por lo que no es un factor de predicción.
En conclusión, sí se considera eliminar estas dos variables.
e) Se vuelve a correr la regresión, pero ahora sin “tiendas de descuento” y “supervisores”,
como se muestra a continuación. Calcule el coeficiente de determinación. ¿Cuánto cambió
R2 a partir del análisis anterior?
SOLUCIÓN
El coeficiente de determinación se calcula de la siguiente forma:
En este caso:
1593.66
𝑅2 = = 𝟎. 𝟗𝟗𝟒𝟐𝟒
1602.89
Entonces, a partir del análisis anterior en el cuál R2 = 0.99433, el R2’ cambió en -0.009%.
f) A continuación se presenta un histograma y un diagrama de tallo y hojas de los residuos.
¿Parece razonable la suposición de normalidad?
SOLUCIÓN
Sí, porque las hojas y barras de los gráficos están distribuidos en forma de la curva normal.
g) La siguiente es una gráfica de los valores ajustados de Y (es decir, 𝑌̂) y de los residuos.
¿Observa alguna violación de las suposiciones?
SOLUCIÓN
Existen 5 suposiciones principales:
- Relación lineal, la cual se cumple porque los puntos están dispersos sin un patrón obvio.
- La variación de los residuos es igual en el caso de valores grandes y pequeños de 𝑌̂;
suposición que no se ha violado.
- Distribución de los residuos, al parecer este supuesto sí se está infringiendo porque los
residuos no siguen una distribución de probabilidad normal.
- Multicolinealidad.
- Observaciones independientes, sí se cumple porque no hay un patrón definido y
además, no hay corridas muy largas entre residuos positivos o negativos.
EJERCICIO 19
El administrador de un nuevo programa para practicantes de leyes en Seagate Technical
College desea estimar el promedio de calificaciones en el programa, y considera que el promedio
de calificaciones en el bachillerato, la calificación en aptitudes verbales en el Examen de Aptitud
Escolar (SAT) y la calificación en matemáticas en el SAT serían buenos factores de predicción de
la calificación promedio en el programa. Los datos de nueve estudiantes son:
a) Considere la siguiente matriz de correlación. ¿Qué variable tiene la correlación más fuerte
con la variable dependiente? Algunas correlaciones entre las variables independientes son
fuertes. ¿Esto representaría un problema?
SOLUCIÓN:
La variable que tiene la correlación más fuerte con la variable dependiente es promedio porque es
cercano a 0.70, en este caso, la calificación no cuenta porque sobrepasa a 0.70. De las
correlaciones mostradas, ninguna sobrepasa -0.70 ni 0.70, de forma que no hay problemas de
multicolinealidad. Además la variable con mayor correlación es SAT Matemáticas porque tiene
un valor de 0.636 cercano a 0.70.
b) Considere el siguiente resultado. Calcule el coeficiente de determinación múltiple.
SOLUCIÓN
El coeficiente de determinación múltiple se calcula de la siguiente forma:
En este caso:
4.3595
𝑅2 = = 𝟎. 𝟖𝟔𝟏𝟎
5.0631
c) Realice una prueba global de hipótesis a partir del resultado anterior. ¿Alguno de los
coeficientes de regresión no es igual a cero?
SOLUCIÓN
Para realizar la prueba global de hipótesis se deben determinar:
- Hipótesis nula: β1 = β2 = β3 = 0
Hipótesis alternativa: No todas las βi son 0.
- Según la tabla ANOVA, el valor de la distribución F; es decir el F calculado es 10.33
- Utilizando la tabla de distribución F, con k = 3gl en el numerador, 5gl en el
denominador y con un nivel de significancia 0.05; se determina que el valor del F
crítico es 5.41.
- La regla de decisión es: rechazar la hipótesis nula (H0) y aceptar H1 si el valor
calculado de F es mayor que 5.41.
- El valor calculado de F es 10.33, se encuentra en la región de rechazo. Por lo tanto,
se descarta la hipótesis nula de que todos los coeficientes de regresión múltiple
son cero. Esto significa que algunas variables independientes tienen la capacidad de
explicar la variación de la variable dependiente.
d) Realice una prueba de hipótesis de cada variable independiente. ¿Consideraría eliminar las
variables “verbal” y “matemáticas”? Utilice un nivel α = 0.05.
SOLUCION
Primero se deben determinar las hipótesis nulas y alternativas para cada variable:
Calificación verbal matemáticas
H0 : β 1 = 0 H0 : β2 = 0 H0 : β3 = 0
H1 : β 1 ≠ 1 H1 : β2 ≠ 1 H1 : β3 ≠ 1
- Se probará la hipótesis con el nivel de significancia 0.05. El estadístico de prueba sigue
la distribución t de Student con n - (k + 1) gl. El número de observaciones muestrales
es n = 9. El número de variables independientes es k = 3. Así, hay 5gl. El valor crítico
de t según la tabla es 2.571.
- La regla de decisión es: Rechazar H0 si t es menor que -2.571 o mayor que 2.571.
- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores
estándar para cada variable, se pueden calcular los valores de t mediante la siguiente
fórmula:
Calificación verbal matemáticas
1.2014 − 0 0.0016 − 0 −0.0019 − 0
𝑡= 𝑡= 𝑡=
0.2955 0.0022 0.0021
𝒕 = 𝟒. 𝟎𝟔𝟓𝟕 𝒕 = 𝟎. 𝟎𝟎𝟕𝟐 𝒕 = 𝟎. 𝟗𝟎𝟒𝟖
- Por lo tanto; para VERBAL, como t2 es menor que 2.571 entonces se puede concluir
que podría igualar a 0 por lo que esta variable independiente no es un factor de
predicción. En el caso de la variable MATEMÁTICAS, el valor de t3 es menor que
2.571 entonces podría igualarse a 0 por lo que no es un factor de predicción.
En conclusión, sí se considera eliminar estas dos variables.
e) El análisis se vuelve a correr, pero ahora sin “verbal” y “matemáticas”. Observe la siguiente
captura de pantalla. Calcule el coeficiente de determinación. ¿Cuánto cambió R2 a partir
del análisis anterior?
SOLUCIÓN
El coeficiente de determinación se calcula de la siguiente forma:
En este caso:
4.2061
𝑅2 = = 𝟎. 𝟖𝟑𝟎𝟕
5.0631
Entonces, a partir del análisis anterior en el cuál R2 = 0.8610, el R2’ cambió en -3.03%.
f) A continuación se presenta un histograma y un diagrama de tallo y hojas de las varianzas
residuales. ¿Parece razonable la suposición de normalidad en el caso de las varianzas
residuales?
SOLUCIÓN
No, porque la distribución de los puntos no parece ser simétrica, de la forma de una campana de
normalidad. Por lo tanto, la suposición de normalidad no parece ser razonable.
g) En la siguiente gráfica se presentan los valores de los residuos y los valores de 𝑌̂. ¿Observa
alguna violación de las suposiciones?
Existen 5 suposiciones principales:
- Relación lineal, la cual se cumple porque los puntos están dispersos sin un patrón obvio.
- La variación de los residuos es igual en el caso de valores grandes y pequeños de 𝑌̂;
suposición que no se ha violado.
- Distribución de los residuos, al parecer este supuesto sí se está infringiendo porque los
residuos no siguen una distribución de probabilidad normal.
- Multicolinealidad.
- Observaciones independientes, sí se cumple porque no hay un patrón definido y
además, no hay corridas muy largas entre residuos positivos o negativos.
EJERCICIO 20
Mike Wilde es el presidente del sindicato de maestros del Otsego School District. A fin de
prepararse para negociaciones próximas, le gustaría investigar la estructura de los salarios de los
maestros del distrito. Wilde considera que hay tres factores que influyen en el salario de un
maestro: sus años de experiencia, la calificación de su eficiencia como docente por parte del
director y si cuenta con un posgrado. Una muestra de 20 maestros generó los siguientes datos.
a) Formule una matriz de correlación. ¿Qué variable independiente tiene la correlación más
fuerte con la variable dependiente? ¿Habrá problemas respecto de la multicolinealidad?
Para calcular la matriz de correlación desde Excel será necesario:
- Activar la opción “análisis de datos”
- Click sobre esa opción y elegir “coeficiente de correlación”
- Luego, seleccionar todos los datos incluyendo los rótulos
- Finalmente, click en aceptar y la matriz de correlación aparecerá de la siguiente forma:
La variable independiente que tiene una relación más ferte con la variable dependiente, es decir el
salario es la variable “años de experiencia”. Además, se puede deducir que sí existirán problemas
de multicolinealidad porque la correlación entre las variables “posgrado” y “años de experiencia”
es menor que -0.70.
b) Determine la ecuación de regresión. ¿Qué salario estimaría para un maestro con cinco años
de experiencia, una calificación del director de 60 y sin posgrado?
SOLUCIÓN
Según los cálculos realizados en Excel y de la tabla ANOVA,
La ecuación de regresión es:
̂ = 𝟏𝟒. 𝟖𝟓𝟖 + 𝟏. 𝟕𝟖𝟔𝑿𝟏 + 𝟎. 𝟏𝟕𝟎𝑿𝟐 + 𝟏. 𝟒𝟔𝟏𝑿𝟑
𝒀
Entonces, según lo requerido, para un maestro con 5 años de experiencia, una calificación del
director de 60 y sin posgrado, el salario estimado sería:
̂ = 𝟏𝟒. 𝟖𝟓𝟖 + 𝟏. 𝟕𝟖𝟔(𝟓) + 𝟎. 𝟏𝟕𝟎(𝟔𝟎) + 𝟏. 𝟒𝟔𝟏(𝟎) = 𝟑𝟑. 𝟗𝟖𝟖 Miles de dólares.
𝒀
c) Realice una prueba global de la hipótesis para determinar si alguno de los coeficientes de
regresión difiere de cero. Utilice el nivel de significancia 0.05.
Para realizar la prueba global de hipótesis se deben determinar:
- Hipótesis nula: β1 = β2 = β3 = 0
Hipótesis alternativa: No todas las βi son 0.
- Según la tabla ANOVA, el valor de la distribución F; es decir el F calculado es
3.8298
- Utilizando la tabla de distribución F, con k = 3gl en el numerador, 16gl en el
denominador y con un nivel de significancia 0.05; se determina que el valor del F
crítico es 3.10.
- La regla de decisión es: rechazar la hipótesis nula (H0) y aceptar H1 si el valor
calculado de F es mayor que 3.10.
- El valor calculado de F es 3.8298, se encuentra en la región de rechazo. Por lo tanto,
se descarta la hipótesis nula de que todos los coeficientes de regresión múltiple
son cero. Esto significa que algunas variables independientes tienen la capacidad de
explicar la variación de la variable dependiente.
d) Realice la prueba de hipótesis de los coeficientes de regresión individuales. ¿Consideraría
eliminar alguna de las variables independientes? Utilice el nivel de significancia 0.05.
SOLUCIÓN
Primero se deben determinar las hipótesis nulas y alternativas para cada variable:
Años de Calificación
Posgrado
experiencia director
H0 : β 1 = 0 H0 : β2 = 0 H0 : β3 = 0
H1 : β 1 ≠ 1 H1 : β2 ≠ 1 H1 : β3 ≠ 1
- Se probará la hipótesis con el nivel de significancia 0.05. El estadístico de prueba sigue
la distribución t de Student con n - (k + 1) gl. El número de observaciones muestrales
es n = 20. El número de variables independientes es k = 3. Así, hay 16gl. El valor crítico
de t según la tabla es 2.120.
- La regla de decisión es: Rechazar H0 si t es menor que -2.120 o mayor que 2.120.
- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores
estándar para cada variable, se pueden calcular los valores de t mediante la siguiente
fórmula:
Años de Calificación
Posgrado
experiencia director
1.7861 − 0 0.1704 − 0 1.4612 − 0
𝑡= 𝑡= 𝑡=
0.8091 0.0806 4.3314
𝒕 = 𝟐. 𝟐𝟎𝟕𝟓 𝒕 = 𝟐. 𝟏𝟏𝟒𝟏 𝒕 = 𝟎. 𝟑𝟑𝟕𝟒
- Por lo tanto; para AÑOS de EXPERIENCIA, como t1 es mayor que 2.120 entonces se
puede concluir es diferente de 0 por lo que esta variable independiente sí es un factor
de predicción. En el caso de la variable CALIFICACIÓN, el valor de t2 es menor que
2.120 entonces podría igualarse a 0 por lo que no es un factor de predicción y se
considera eliminar esta variable. Para Posgrado, como t3 es menor que 2.120,
entonces también se podría igualar a 0 por lo que debería eliminarse.
En conclusión, sí se considera eliminar estas dos últimas variables.
e) Si su conclusión en el inciso d) fue eliminar una o más variables independientes, realice de
nuevo el análisis sin estas variables.
Primero se deben determinar la hipótesis nula y alternativa para cada variable:
Años de
experiencia
H0 : β1 = 0
H1 : β1 ≠ 1
- Se probará la hipótesis con el nivel de significancia 0.05. El estadístico de prueba sigue
la distribución t de Student con n - (k + 1) gl. El número de observaciones muestrales
es n = 20. El número de variables independientes es k = 1. Así, hay 18gl. El valor crítico
de t según la tabla es 2.101.
- La regla de decisión es: Rechazar H0 si t es menor que -2.101 o mayor que 2.101.
- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores
estándar para cada variable, se pueden calcular los valores de t mediante la siguiente
fórmula:
Años de
experiencia
1.2059 − 0
𝑡=
0.6317
𝒕 = 𝟏. 𝟗𝟎𝟗𝟎
- Por lo tanto; para AÑOS de EXPERIENCIA, como t1 es menor que 2.101 entonces se
puede concluir que podría es 0 por lo que esta variable independiente ya no es un factor
de predicción.
f) Determine los residuos de la ecuación del inciso e). Utilice un diagrama de tallo y hojas o
bien un histograma para verificar que la distribución de los residuos sea aproximadamente
normal.
SOLUCIÓN
A través de Excel y con los datos mostrados de este ejercicio, los residuos son:
Como se puede apreciar, la distribución delos residuos no siguen una distribución normal.
g) Trace los residuos calculados en el inciso f) en un diagrama de dispersión con las varianzas
residuales en el eje Y y los valores 𝑌̂ en el eje X. ¿La gráfica revela alguna violación de las
suposiciones de regresión?
SOLUCIÓN
De acuerdo a la tabla con los pronósticos y los residuos, se puede elaborar el siguiente gráfico de
dispersión:
DIAGRAMA DE DISPERSIÓN
6
0
0 5 10 15 20 25 30 35 40
-2
-4
-6