REGRESION LINEAL
PROBLEMA 1
Un consultor está interesado en el grado de dispersión con que un nuevo índice de
desempeño laboral mide lo que es importante para una corporación. Una forma de
verificarlo es analizar la relación entre el índice de evaluación del trabajo y el salario de
un empleado. Se tomó una muestra de ocho empleados y se recabó información del
salario (en miles de dólares) y el índice de evaluación del trabajo (1 a 10, donde 10 es la
mejor calificación.
Trabajador Índice de evaluación Salario(Y)
del trabajo(IET) (X)
1 9 36
2 7 25
3 8 33
4 4 15
5 7 28
6 5 19
7 5 20
8 6 22
a. Determine el coeficiente de correlación.
b. Coeficiente de determinación e interprete.
c. Coeficiente de no determinación e interprete.
d. Determine la ecuación de regresión lineal e interprete los coeficientes de
regresión.
e. Determine el error estándar de estimación.
f. Realice la inferencia sobre los coeficientes de regresión de población (𝛼= 0.05).
g. Realice la prueba de hipótesis para el coeficiente de correlación (𝛼= 0.05).
h. Estimado del intervalo de confianza de B1.
i. Intervalo de confianza y predicción para X=6.
j. Realice el análisis de influencia.
SOLUCION:
Construimos la siguiente tabla para el desarrollo de las preguntas.
IET(X) Salario(Y) X2 XY Y2
9 36 81 324 1296
7 25 49 175 625
8 33 64 264 1089
4 15 16 60 225
7 28 49 196 784
5 19 25 95 361
5 20 25 100 400
6 22 36 132 484
∑𝑿 ∑𝑌 ∑ 𝑋2 ∑ 𝑋𝑌 ∑ 𝑌2
51 198 345 1346 5264
a. Coeficiente de correlación
𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑟=
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 ][𝑛 ∑ 𝑦 2 − (𝑦)2 ]
8𝑥345 − 51𝑥198
𝑟=
√[8𝑥1346 − 512 ][8𝑥198 − 1982 ]
𝑟 = 0.9853
Interpretación: Existe una correlación muy fuerte y positiva entre el índice de
evaluación de trabajo y el salario.
b. Coeficiente de determinación (r2)
𝑟 2 = 0.98532 = 0.9709
Interpretación: El 97.09% de la variación del salario(y) será explicado por la
variación del índice de evaluación del trabajo(x).
c. Coeficiente de la no determinación
1 − 𝑟 2 = 1 − 0.9709 = 0.0291
Interpretación: El 2.91% de la variación del salario(y) no será explicado por la
variación del índice de evaluación del trabajo(x).
d. Ecuación de regresión
𝑦 = 𝑎 + 𝑏𝑥
𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑏=
𝑛 ∑ 𝑥 2 − (∑ 𝑥)2
8𝑥1346 − 51𝑥198
𝑏=
8𝑥345 − 512
𝑏 = 4.2138
∑𝑦 𝑏∑𝑥
𝑎= −
𝑛 𝑛
198 4.2138𝑥51
𝑎= −
8 8
𝑎 = −2.1130
Gráfica de línea ajustada
y = - 2,113 + 4,214 x
S 1,32861
35 R-cuad. 97,1%
R-cuad.(ajustado) 96,6%
30
25
y
20
15
4 5 6 7 8 9
x
Gráfica de la línea ajustada
Entonces la ecuación de regresión estimada es:
𝑦 = −2.1130 + 4.2138𝑥
Resultados en el Minitab:
Análisis de regresión
Análisis de varianza de la regresión
Interpretación: Por cada unidad de aumento en el índice de evaluación del
trabajo, el salario en promedio de un empleado aumentara en 4.2138 miles de
dólares. Cuando el índice de evaluación obtenido es cero, el salario promedio de
un empleado siempre disminuirá en 2.1130 miles de dólares.
e. Error estándar de estimación
∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑆𝑦𝑥 = √
𝑛−2
5264 − (−2.1130)𝑥198 − 4.2138𝑥1346
𝑆𝑦𝑥 = √
8−2
𝑆𝑦𝑥 = 1.3291
Interpretación: Alrededor de la línea de dispersión están dispersos 1.3291.
f. Inferencia sobre los coeficientes de regresión
1) Ho: 𝛽1 = 0 (No hay relación)
Ha: 𝛽1 ≠ 0 (Si hay relación)
2) 𝛼 = 0.05
3) t-student
4) Grafica de la RA y RC
5) Cálculo del estadístico
𝑏 − 𝛽1
𝑡=
𝑆𝑏
𝑆𝑦𝑥
𝑆𝑏1 =
2
√∑ 𝑥 2 − (∑ 𝑥)
𝑛
1.3291
𝑆𝑏1 =
2
√345 − 51
8
𝑆𝑏1 = 0.2981
4.2138 − 0
𝑡=
0.2981
𝑡 = 14.1355
𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎
Se concluye que, existe una relación entre los coeficientes de regresión.
g. Prueba de hipótesis para coeficientes de correlación.
1) Ho: 𝜌 = 0 (No hay relación)
Ha: 𝜌 ≠ 0 (Si hay relación)
2) 𝛼 = 0.05
3) t-student
4) Grafica de la RA y RC
5) Cálculo del estadístico
𝑟√𝑛 − 2
𝑡=
√1 − 𝑟 2
0.9853√8 − 2
𝑡=
√1 − 0.98532
𝑡 = 14.1277
𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎
Interpretación: Existe una correlación entre el índice de evaluación del trabajo y
el salario.
h. Intervalo de confianza de 𝛽1
𝑏 − 𝑡(0.05,10−2) 𝑆𝑏1 ≤ 𝛽1 ≤ 𝑏 + 𝑡(0.05,10−2) 𝑆𝑏1
4.2138 − 2.447𝑥0.2981 ≤ 𝛽1 ≤ 4.2138 + 2.447𝑥0.2981
3.4843 ≤ 𝛽1 ≤ 4.9432
i. Intervalo de confianza y predicción para X=6
𝑦 = −2.1130 + 4.2138𝑥
𝑦(6) = −2.1130 + 4.2138(6)
𝑦 = 23.1698
Intervalo de confianza
1 (𝑥 − 𝑥̅ )
𝐼𝐶 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √ +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛
1 (6 − 6.375)2
𝐼𝐶 = 23.1698 ± 2.447𝑥1.3291√ +
8 512
345 − 8
𝐼𝐶: [21.9878,24.3518]
Interpretación: El intervalo de confianza del 95% para el valor del salario para
un índice de evaluación de 6 es de 21.9878 hasta 24.3518
Intervalo de predicción
1 (𝑥 − 𝑥̅ )2
𝐼𝑃 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √1 + +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛
1 (6 − 6.375)2
𝐼𝑃 = 23.1698 ± 2.447𝑥1.3291√1 + +
8 512
345 − 8
𝐼𝑃: [19.7094,26.6302]
Interpretación: Un índice de evaluación en el trabajo de 6 hará que los valores de
los salarios estén entre 19.7094,26.6302.
j. Análisis de influencia
X Y RESID-T HI COOK
9 36 0,17893 0,471698 0,017042
7 25 -2,90027 0,144654 0,318205
8 33 1,29188 0,257862 0,260861
4 15 0,23166 0,408805 0,022029
7 28 0,46781 0,144654 0,021276
5 19 0,03426 0,220126 0,000199
5 20 0,87185 0,220126 0,111743
6 22 -0,93517 0,132075 0,067962
1) Elementos de la matriz sombrero hi*
ℎ𝑖∗ > 4/𝑛
ℎ𝑖∗ > 4/8
ℎ𝑖∗ > 0.5
𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 ℎ𝑖∗ > 0.5, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠
2) Para los residuales de t-student
|𝑡𝑖∗ | > 𝑡(0.1,8−3)
|𝑡𝑖∗ | > 2.015
En la tabla
𝑡2= |−2,90027| > 2.015 → 𝑡2 𝑒𝑠 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜
𝑡4= |0.23166| > 2.015 → 𝑡4 𝑒𝑠 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜
3) Estadístico de la distancia de Cook Di*
𝐷𝑖∗ > 𝐹(0.5,2,8−2)
𝐷𝑖∗ > 0.759
𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝐷𝑖∗ > 0.759 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠
Conclusión: No existe datos eliminados
PROBLEMA 2
El señor james McWhinney, presidente de la empresa Daniel-James Financial Service,
considera que existe relación entre el número de entrevistas con clientes y el importe en
dólares de las ventas. Para documentar este aserto, recopiló la siguiente información
muestral. La columna muestra el valor de las ventas (en miles de dólares) del mes en
cuestión para cada cliente en la muestra.
Numero de contactos Ventas (Y)
(X)
14 24
12 14
20 28
16 30
46 80
23 30
48 90
50 85
55 120
50 110
a. Determine el coeficiente de correlación.
b. Coeficiente de determinación e interprete.
c. Coeficiente de no determinación e interprete.
d. Determine la ecuación de regresión lineal e interprete los coeficientes de
regresión.
e. Determine el error estándar de estimación.
f. Realice la inferencia sobre los coeficientes de regresión de población (𝛼= 0.05).
g. Realice la prueba de hipótesis para el coeficiente de correlación (𝛼= 0.05).
h. Estimado del intervalo de confianza de B1.
i. Intervalo de confianza y predicción para 40 clientes (X=40).
j. Realice el análisis de influencia.
SOLUCIÓN:
Construimos la siguiente tabla para el desarrollo de las preguntas.
Nro. Ventas X2 XY Y2
Contactos(X) (Y)
14 24 196 336 576
12 14 144 168 196
20 28 400 560 784
16 30 256 480 900
46 80 2116 3680 6400
23 30 529 690 900
48 90 2304 4320 8100
50 85 2500 4250 7225
55 120 3025 6600 14400
50 110 2500 5500 12100
∑𝑿 ∑𝑌 ∑ 𝑋2 ∑ 𝑋𝑌 ∑ 𝑌2
334 611 13970 26584 51581
a. Coeficiente de correlación
𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑟=
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 ][𝑛 ∑ 𝑦 2 − (𝑦)2 ]
10𝑥26584 − 334𝑥611
𝑟=
√[10𝑥13970 − 3342 ][10𝑥51581 − 6112 ]
𝑟 =0.9754
Interpretación: Existe una correlación muy fuerte y positiva entre el número de
contactos(x) y las ventas(y).
b. Coeficiente de determinación (r2)
𝑟 2 = 0.97542 = 0.9514
Interpretación: El 95.14% de la variación del número de ventas será explicado
por la variación del número de contactos.
c. Coeficiente de la no determinación
1 − 𝑟 2 = 1 − 0.9514 = 0.0486
Interpretación: El 4.86% de la variación del número de ventas no será explicado
por la variación del número de contactos.
d. Ecuación de regresión
𝑦 = 𝑎 + 𝑏𝑥
𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑏=
𝑛 ∑ 𝑥 2 − (∑ 𝑥)2
10𝑥26584 − 334𝑥611
𝑏=
10𝑥13970 − 3342
𝑏 = 2.1946
∑𝑦 𝑏∑𝑥
𝑎= −
𝑛 𝑛
611 2.1946𝑥334
𝑎= −
10 10
𝑎 = −12.1996
Entonces la ecuación de regresión estimada es:
𝑦 = −12.1996 + 2.1946𝑥
Resultados en el Minitab:
Gráfica de línea ajustada
y = - 12,20 + 2,195 x
120 S 9,31045
R-cuad. 95,1%
R-cuad.(ajustado) 94,5%
100
80
60
y
40
20
0
10 20 30 40 50 60
x
Gráfica de la línea ajustada
Interpretación: Por cada unidad que se incrementa en el número de cliente el
valor de las ventas incrementará en 2.1946.
Análisis de regresión
Análisis de varianza de la regresión
e. Error estándar de estimación
∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑆𝑦𝑥 = √
𝑛−2
51581 − (−12.1996)𝑥611 − 2.1946𝑥26584
𝑆𝑦𝑥 = √
10 − 2
𝑆𝑦𝑥 = 9.3120
Interpretación: Los valores de las ventas están dispersos alrededor de la línea de
regresión en 9.3120.
f. Inferencia sobre los coeficientes de regresión
1) Ho: 𝛽1 = 0 (No hay relación)
Ha: 𝛽1 ≠ 0 (Si hay relación)
2) 𝛼 = 0.05
3) t-student
4) Grafica de la RA y RC
5) Cálculo del estadístico
𝑏 − 𝛽1
𝑡=
𝑆𝑏
𝑆𝑦𝑥
𝑆𝑏1 =
2
√∑ 𝑥 2 − (∑ 𝑥)
𝑛
9.3120
𝑆𝑏1 =
2
√13970 − 334
10
𝑆𝑏1 = 0.1755
2.1946 − 0
𝑡=
0.1755
𝑡 = 12.5048
𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎
Se concluye que, existe una relación entre el número de clientes y la variable
ventas
g. Prueba de hipótesis para coeficientes de correlación.
1) Ho: 𝜌 = 0 (No hay relación)
Ha: 𝜌 ≠ 0 (Si hay relación)
2) 𝛼 = 0.05
3) t-student
4) Grafica de la RA y RC
5) Cálculo del estadístico
𝑟√𝑛 − 2
𝑡=
√1 − 𝑟 2
0.9754√10 − 2
𝑡=
√1 − 0.97542
𝑡 = 12.5151
𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎
Interpretación: Si existe correlación entre la variable número de contactos y
ventas.
h. Intervalo de confianza de 𝛽1
𝑏 − 𝑡(0.05,10−2) 𝑆𝑏1 ≤ 𝛽1 ≤ 𝑏 + 𝑡(0.05,10−2) 𝑆𝑏1
2.1946 − 2.306𝑥0.1755 ≤ 𝛽1 ≤ 2.1946 + 2.306𝑥0.1755
1.7899 ≤ 𝛽1 ≤ 2.5993
i. Intervalo de confianza y predicción para X=40
𝑦 = −12.1996 + 2.1946𝑥
𝑦(40) = −12.1996 + 2.1946(40)
𝑦 = 75.5844
Intervalo de confianza
1 (𝑥 − 𝑥̅ )
𝐼𝐶 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √ +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛
1 (40 − 33.4)2
𝐼𝐶 = 75.5844 ± 2.306𝑥9.3120√ +
10 3342
13970 − 10
𝐼𝐶: [68.2873,82.8815]
Interpretación: En el intervalo de confianza del 95% para una cantidad de 40
contactos la cantidad de ventas se encuentra en el intervalo 68.2873 hasta
82.8815.
Intervalo de predicción
1 (𝑥 − 𝑥̅ )2
𝐼𝑃 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √1 + +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛
1 (40 − 33.4)2
𝐼𝑃 = 75.5844 ± 2.306𝑥9.3120√1 + +
10 3342
13970 − 10
𝐼𝑃: [52.9049,98.2639]
Interpretación: Una cantidad de 40 contactos hará que los valores de las ventas
estén entre 52.9049 y 98.2639
j. Análisis de influencia
X Y RES-T HI COOK
14 24 0,64703 0,233727 0,068850
12 14 -0,01576 0,262720 0,000051
20 28 -0,41047 0,163800 0,018416
16 30 0,83910 0,207575 0,095760
46 80 -1,02701 0,156410 0,097117
23 30 -0,95199 0,138431 0,073671
48 90 -0,35072 0,175739 0,014727
50 85 -1,65936 0,197911 0,278630
55 120 1,56642 0,265776 0,375804
50 110 1,64793 0,197911 0,275875
1) Elementos de la matriz sombrero hi*
ℎ𝑖∗ > 4/𝑛
ℎ𝑖∗ > 4/10
ℎ𝑖∗ > 0.4
𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 ℎ𝑖∗ > 0.4, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠
2) Para los residuales de t-student
|𝑡𝑖∗ | > 𝑡(0.1,10−3)
|𝑡𝑖∗ | > 1.895
En la tabla
𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝑡𝑖∗ > 1.895 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠
3) Estadístico de la distancia de Cook Di*
𝐷𝑖∗ > 𝐹(0.5,2,10−2)
𝐷𝑖∗ > 0.751
𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝐷𝑖∗ > 0.751 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠
Conclusión: No existe datos eliminados