Estadística Inferencial II
AEF1025
1.1 Regresión lineal múltiple
Everardo Santiago Rendón
Competencia específica
• Aplica los conceptos básicos del modelo de
regresión múltiple y no lineal para predecir
resultados de un proceso industrial, logístico,
comercial o de servicios.
Everardo Santiago Rendón
Modelo de regresión lineal múltiple
El modelo de regresión múltiple es
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘−1 𝑥𝑘−1 +𝛽𝑘 𝑥𝑘 + 𝜖𝑖𝑗
𝑦 →variable de respuesta
𝑥1 , 𝑥2 , … 𝑥𝑘−1 , 𝑥𝑘 → variables de regresión (regresores)
𝛽0 , 𝛽1 , 𝛽2 , … , 𝛽𝑘−1 , 𝛽𝑘 → coeficientes de regresión
𝜖𝑖𝑗 → Error normalmente distribuido con varianza
constante. Everardo Santiago Rendón
Modelo de regresión lineal múltiple
Para encontrar los coeficientes, por mínimos
cuadrados, se resuelve mediante un sistema matricial
𝒚 = 𝑿𝜷
𝒚 → Vector de respuesta (valores y)
𝑿 → Matriz de valores de regresores (valores x)
→ Vector de coeficientes de mínimos cuadrados.
𝜷
𝑿𝑻 → Matriz transpuesta de X
𝑻 −𝟏
𝑿 𝑿 → Matriz inversa de la matriz producto 𝑿𝑻 𝑿
Everardo Santiago Rendón
Modelo de regresión lineal múltiple
Multiplicando, ambos lados
por la derecha, por la matriz
𝑿𝑻 𝒚 = 𝑿𝑻 𝑿 𝜷
transpuesta de 𝑿, 𝑿𝑻
Multiplicando, ambos lados por la
𝑻 −𝟏
derecha, por la inversa 𝑿 𝑿
−𝟏 −𝟏
𝑻
𝑿 𝑿 𝑻
𝑿 𝒚 = 𝑿 𝑿 𝑻 =𝜷
𝑿𝑻 𝑿 𝜷 = 𝑰𝜷
Recordando que
−𝟏
= 𝑿 𝑿
𝜷 𝑻
𝑿𝑻 𝒚
𝑻 −𝟏
𝑿 𝑿 𝑿𝑻 𝑿 = 𝑰 Everardo Santiago Rendón
Modelo de regresión lineal múltiple
Cada dato y se puede expresar de la siguiente forma
𝑦1 = 𝛽0 + 𝛽1 𝑥11 + 𝛽2 𝑥12 + ⋯ + 𝛽𝑘−1 𝑥1𝑘−1 +𝛽𝑘 𝑥1𝑘
𝑦2 = 𝛽0 + 𝛽1 𝑥21 + 𝛽2 𝑥22 + ⋯ + 𝛽𝑘−1 𝑥2𝑘−1 +𝛽𝑘 𝑥2𝑘
.
.
.
𝑦𝑛 = 𝛽0 + 𝛽1 𝑥𝑛1 + 𝛽2 𝑥𝑛2 + ⋯ + 𝛽𝑘−1 𝑥𝑛𝑘−1 +𝛽𝑘 𝑥𝑛𝑘
Everardo Santiago Rendón
Modelo matricial
La forma matricial de los datos es
Everardo Santiago Rendón
Transpuesta de la matriz X
Matriz transpuesta de X
Everardo Santiago Rendón
Matriz XTy
Multiplicación de la matriz transpuesta
𝑿𝑻 por el vector 𝒚
Everardo Santiago Rendón
Matriz XTX
Multiplicación de matriz transpuesta 𝑿𝑻 por su matriz original 𝑿
Everardo Santiago Rendón
Modelo k=2
para el modelo en el cual k = 2, esto es, 2
variables regresoras
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2
La matriz 𝑿𝑻 es
Everardo Santiago Rendón
Modelo k=2
Multiplicación de la matriz transpuesta 𝑿𝑻 por el vector 𝒚
Everardo Santiago Rendón
Para el modelo con 2 variables k=2
Multiplicación de matriz transpuesta 𝑿𝑻 por su matriz original 𝑿
Everardo Santiago Rendón
Vector de coeficientes de mínimos
cuadrados
−𝟏
= 𝑿 𝑿
𝜷 𝑻
𝑿𝑻 𝒚
𝑛 𝑛 −1 𝑛
𝑛 𝑥𝑖1 𝑥𝑖2 𝑦𝑖
𝛽መ0 𝑛
𝑖=1
𝑛 𝑛
𝑖=1
𝑛
𝑖=1
2
𝛽መ1 = 𝑥𝑖1 𝑥𝑖1 𝑥𝑖1 𝑥𝑖2 𝑥𝑖2 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1
መ
𝛽2 𝑛 𝑛 𝑛 𝑛
2
𝑥𝑖2 𝑥𝑖1 𝑥𝑖2 𝑥𝑖2 𝑥𝑖2 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1
Everardo Santiago Rendón
1.1.1.Pruebas de hipótesis en
regresión lineal múltiple
La significancia de la regresión se encuentra mediante
el ANOVA (Analysis of Variance)
Sum of Squares (SS)-> suma de cuadrados
Mean Square (MS) -> Cuadrado medio
Grados de libertad de la regresión n=k, número de regresores.
Everardo Santiago Rendón
Pruebas de hipótesis en regresión
lineal múltiple
Se prueban las siguientes hipótesis
Hipótesis 𝐻0 : 𝛽1 = 𝛽1 = ⋯ = 𝛽𝑘 = 0
para
coeficientes 𝐻1 : 𝛽𝑗 ≠ 0 al menos una 𝛽𝑗
𝛽𝑗
Estadístico de prueba -> F (o valor P vs a)
ANOVA -> Analysis of Variance (Análisis de varianza)
Everardo Santiago Rendón
Coeficiente de determinación
2
𝑆𝑆𝑅
Ecuación 𝑅 =
𝑆𝑆𝑇
proporción de la variación explicada
por los regresores x dentro del
Coeficiente de
modelo
determinación
rango de valores 0 ≤ 𝑅2 ≤ 1
Buen ajuste con valores cercanos 1
Mal ajuste con valores cercanos a 0
Everardo Santiago Rendón
1.1.1.Pruebas de hipótesis en regresión
lineal múltiple
2 𝑀𝑆𝐸
R2 ajustado 𝑅𝑎𝑗 =1−
𝑆𝑆𝑇
𝑛−1
Con muchos
términos en 2
El estadístico 𝑅𝑎𝑗 se
un modelo prefiere en lugar de 𝑅2
2
rango de valores 0 ≤ 𝑅𝑎𝑗 ≤ 𝑅2 ≤ 1
Everardo Santiago Rendón
1.1.2.Intervalos de confianza y
predicción en regresión múltiple
Matriz de varianza-covarianza
El ij-ésimo elemento que no
𝟐 𝑻 −𝟏 pertenece a la diagonal
𝒔 𝒃 = 𝑴𝑺𝑬 𝑿 𝑿
principal es la covarianza
muestral entre 𝛽መ𝑖 y 𝛽መ𝑗 , además
los elementos son simétricos,
El j-ésimo por ejemplo (b21= b12)
elemento de la
diagonal principal
es la varianza
𝑏11 𝑏12 𝑏13
muestral para
𝑏21 𝑏22 𝑏23
cada coeficiente 𝛽መ𝑗
𝑏31 𝑏32 𝑏33
Everardo Santiago Rendón
1.1.2.Intervalos de confianza y
predicción en regresión múltiple
Pruebas t para 𝛽𝑗
para cualquier regresor bj
𝐻0 : 𝛽𝑗 = 0
Prueba de
Hipótesis dos colas
𝐻1 : 𝛽𝑗 ≠ 0
𝑆𝑒 𝛽መ𝑗 →Error estándar de 𝛽መ𝑗 𝑆𝑒 𝛽መ𝑗 = 𝒔𝟐 𝒃𝒋𝒋
Everardo Santiago Rendón
Pruebas t para 𝛽𝑗
Estadístico 𝛽መ𝑗
𝑡0 =
de prueba 𝑆𝑒 𝛽መ𝑗
Comparar con t a/2,n-k-1, ó valor P vs a
Intervalo de confianza para 𝛽𝑗
𝛽መ𝑗 − 𝑡𝛼,𝑛−𝑘−1 𝑆𝑒 𝛽መ𝑗 ≤ 𝛽𝑗 ≤ 𝛽መ1 + 𝑡𝛼,𝑛−𝑘−1 𝑆𝑒 𝛽መ𝑗
2 2
Everardo Santiago Rendón
La estimación puntual para una observación es dada por
el vector 𝒙𝟎 = 1, 𝑥01 , 𝑥02 , … , 𝑥0𝑘
Predicción
Usar vector de
para un
𝑦ො0 = 𝒙𝑻𝟎 𝜷
coeficientes
valor x0
𝑆𝑒 𝑦ො0 →
Error 𝑆𝑒 𝑦ො0 = 𝑀𝑆𝐸 𝒙𝑻𝟎 𝑿𝑻 𝑿 𝒙𝟎
estándar
de 𝑦ො0
Intervalo de confianza para predicción y0
𝑦ො0 − 𝑡𝛼,𝑛−𝑘−1 𝑆𝑒 𝑦ො0 ≤ 𝑦0 ≤ 𝑦ො0 + 𝑡𝛼,𝑛−𝑘−1 𝑆𝑒 𝑦ො0
2 2
Everardo Santiago Rendón
Intervalo de predicción
La estimación puntual para una observación es dada por
el vector 𝒙𝟎 = 1, 𝑥01 , 𝑥02 , … , 𝑥0𝑘
Predicción
Usar vector de
para un 𝑦ො0 = 𝒙𝑻𝟎 𝜷
valor x0 coeficientes
𝑆𝑒𝑝 𝑦ො0 →Error
estándar de la
𝑆𝑒𝑝 𝑦ො0 = 𝑀𝑆𝐸 𝟏 + 𝒙𝑻𝟎 𝑿𝑻 𝑿 𝒙𝟎
predicción para
𝑦ො0
Intervalo de predicción y0
𝑦ො0 − 𝑡𝛼,𝑛−𝑘−1 𝑆𝑒𝑝 𝑦ො0 ≤ 𝑦0 ≤ 𝑦ො0 + 𝑡𝛼,𝑛−𝑘−1 𝑆𝑒𝑝 𝑦ො0
2Everardo Santiago Rendón 2
Everardo Santiago Rendón
Calidad del ajuste en regresión
lineal múltiple
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘−1 𝑥𝑘−1 +𝛽𝑘 𝑥𝑘 + 𝜖𝑖𝑗
El error debe tener distribución normal y
varianza constante además de media cero.
Error o residual (ei)
ෝ
Vector de valores ajustados 𝒚 𝒚
ෝ = 𝑿𝜷
Error o residual es la diferencia entre el valor
original de y el valor ajustado obtenido 𝑦ො
Error o
ෝ = 𝒚 − 𝑿𝜷
𝒆=𝒚−𝒚
residual
𝒚 → Vector de respuesta (valores y)
𝑿 → Matriz de valores de regresores (valores x)
→ Vector de coeficientes de mínimos cuadrados.
𝜷
𝒆 → Vector de residuales.
ෝ → Vector de valores ajustados.
𝒚
Everardo Santiago Rendón
Análisis de residuales
i) Probabilidad normal (residual vs P)
para normalidad del error. También
se pueden realizar pruebas de
normalidad (Kolmogorov-Smirnov,
etc.)
Gráficas
ii) Valores ajustados (valores ajustados
vs residual). buscando la varianza
constante (Homocedasticidad)
iii) Residual vs orden, independencia
del error.
Everardo Santiago Rendón
Matriz Hat o “sombrero
Matriz Hat o “sombrero”
𝑻 𝑻 −𝟏
𝑯=𝑿 𝑿 𝑿 𝑿
Everardo Santiago Rendón
Residual estandarizado
𝑆𝑒 𝑒𝑖 →Error estándar del residual 𝑒𝑖
𝑆𝑒 𝑒𝑖 = 𝑀𝑆𝐸 1 − ℎ𝑖𝑖
hii es el i-ésimo 𝑒𝑖
elemento de la 𝑒𝑠𝑖 =
diagonal principal de 𝑆𝑒 𝑒𝑖
la matriz sombrero
ℎ11 ℎ12 ℎ13
−𝟏 𝑯 = ℎ21 ℎ22 ℎ23
𝑻 𝑻
𝑯=𝑿 𝑿 𝑿 𝑿 ℎ31 ℎ32 ℎ33
Everardo Santiago Rendón
Everardo Santiago Rendón
Calidad del ajuste en regresión lineal múltiple
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘−1 𝑥𝑘−1 +𝛽𝑘 𝑥𝑘 + 𝜖𝑖𝑗
Modelo de regresión Análisis de residuales (error)
lineal múltiple Se comprueba que hay
adecuado para los distribución normal del error
datos con varianza constante.
• R2 valores cercanos a 1
• Rechazar H0 en ANOVA y pruebas t
Everardo Santiago Rendón
Ejercicio 1
Anderson, et al. (2010). Exercise 8-7, page 651.
PC World rated four component characteristics
for 10 ultraportable laptop computers: features,
performance, design, and price. Each
characteristic was rated using a 0–100 point
scale. An overall rating, referred to as the PCW
World Rating, was then developed for each
laptop. The following table shows the
performance rating, features rating, and the
PCW World Rating for the 10 laptop computers
(PC World website, February 5, 2009).
Ejercicio 1
x1 x2 y
Everardo Santiago Rendón
Ejercicio 1
Determine the estimated regression equation
that can be used to predict the PCW World
Rating using both the performance rating and
the features rating.
Predict the PCW World Rating for a laptop
computer that has a performance rating of 80
and a features rating of 70.
Everardo Santiago Rendón
Sumas para los términos de la regresión
multiple, k=2 (2 variables regresoras)
n= 10
Sx1= 685 Sx2= 784 Sy= 777
Sx12= 49221 Sx22= 61750 Sy2= 60493
Sx1x2= 54044 Sx2y= 61064 Sx1y= 53615
Generando la matriz 𝑿𝑻 𝑿
𝑛 𝑛
𝑛 𝑥𝑖1 𝑥𝑖2
𝑛
𝑖=1
𝑛 𝑛
𝑖=1 10 685 784
2
𝑖=1
𝑥𝑖1
𝑖=1
𝑥𝑖1
𝑖=1
𝑥𝑖1 𝑥𝑖2 685 49221 54044
𝑛
𝑥𝑖2
𝑛
𝑥𝑖1 𝑥𝑖2
𝑛
2
𝑥𝑖2
784 54044 61750
𝑖=1 𝑖=1 𝑖=1
Everardo Santiago Rendón
n= 10
Sx1= 685 Sx2= 784 Sy= 777
Sx12= 49221 Sx22= 61750 Sy2= 60493
Sx1x2= 54044 Sx2y= 61064 Sx1y= 53615
Generando el Vector 𝑿𝑻 𝒚
𝑛
𝑦𝑖
𝑖=1
𝑛 777
𝑥𝑖2 𝑦𝑖 = 53615
𝑖=1
𝑛 61064
𝑥𝑖2 𝑦𝑖
𝑖=1
Everardo Santiago Rendón
Identificando matrices
matriz 𝑿 Vector 𝒚
Constante Performance Features 𝑷𝑪𝑾
𝑹𝒂𝒕𝒊𝒏𝒈
1 77 87
83
1 97 85
82
1 83 80
81
1 77 75 78
1 64 80 78
1 56 76 78
1 55 81 77
1 76 73 75
1 46 79 73
Everardo Santiago Rendón
Calculando la transpuesta de 𝑿
𝑿𝑻
1 1 1 1 1 1 1 1 1 1
77 97 83 77 64 56 55 76 46 54
87 85 80 75 80 76 81 73 79 68
Everardo Santiago Rendón
Calculando el vector 𝑻
𝑿 𝒚
𝑿𝑻 𝒚 𝑿𝑻 𝒚
83
82
81
1 1 1 1 1 1 1 1 1 1 777
77 97 83 77 64 56 55 76 46 54 × 78 = 53615
78 61064
87 85 80 75 80 76 81 73 79 68
78
77
75
73
Everardo Santiago Rendón
Calculando la matriz 𝑻
𝑿 𝑿
𝑿𝑻 𝑿 𝑿𝑻 𝑿
1 77 87
1 97 85
1 83 80 10 685 784
1 1 1 1 1 1 1 1 1 1
77 97 83 77 64 56 55 76 46 54 × 1 77 75 = 685 49221 54044
87 85 80 75 80 76 81 73 79 68
1 64 80 784 54044 61750
1 56 76
1 55 81
1 76 73
1 46 79
Everardo Santiago Rendón
𝑻 −𝟏
Calculando la inversa 𝑿 𝑿
59321407 35873 784562
−
−1 2690467 2690467 2690467
10 685 784 35873 1422 −1700
685 49221 54044 =
784 54044 61750 2690467 2690467 2690467
784562 −1700 22985
− −
2690467 2690467 5380934
Everardo Santiago Rendón
Encontrando el
−𝟏
vector de coeficientes = 𝑿𝑻 𝑿
𝜷 𝑿𝑻 𝒚
ajustados
59321407 35873 784562
−
2690467 2690467 2690467
35873 1422 −1700 777
𝜷= 53615
2690467 2690467 2690467 61064
784562 −1700 22985
− −
2690467 2690467 5380934
39.982
= 0.113382
𝜷
0.382033
Everardo Santiago Rendón
𝛽መ0 39.982
vector de
𝛽መ = 𝛽መ1 = 0.113382
coeficientes
ajustados 𝛽መ2 0.382033
La ecuación de predicción (o regresión)
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2
= 39.982 + 0.113382𝑥1 + 0.382033𝑥2
𝑦 = 39.982 + 0.113382 Performance
+0.382033 Features
Everardo Santiago Rendón
n= 10
Sx1= 685 Sx2= 784 Sy= 777
Sx12= 49221 Sx22= 61750 Sy2= 60493
Sx1x2= 54044 Sx2y= 61064 Sx1y= 53615
Suma de σ 𝑦𝑖 2 777 2
2
cuadrados 𝑆𝑆𝑇 = 𝑦𝑖 − = 60493 − = 120.1
𝑛 10
total
Suma de cuadrados Regresión
107570166 305051 1027847 777 777 2
𝑆𝑆𝑅 = 53615 −
2690467 2690467 2690467 61064 10
= 100.511
Everardo Santiago Rendón
Suma de 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑅
cuadrados del error = 120.1 − 100.511 = 19.589
Grados de libertad regresión k=2
Grados de libertad Error= 𝑛 − 𝑘 − 1 = 10 − 2 − 1 = 7
Cuadrado medio 100.511
regresión 𝑀𝑆𝑅 = = 50.2555
2
Cuadrado medio 19.589
error (MSE) 𝑀𝑆𝐸 = = 2.79844
10 − 2 − 1
𝑀𝑆𝑅 50.2555
Estadístico F 𝐹= = = 17.9485
𝑀𝑆𝐸 2.79844
Everardo Santiago Rendón
ANOVA
Fuente de
variación SS n MS F0 Valor P
Regresión 100.511 2 50.255 17.958 0.0018
Error 19.589 7 2.798
Total 120.100 9
Valor P = 0.0018 < a = 0.05, 0.01
Conclusión: Se rechaza H0, existe al menos
una bj ≠ 0
Everardo Santiago Rendón
2 2
𝑅 y 𝑅𝑎𝑗
Fuente de
variación SS n MS F0 Valor P
Regresión 100.511 2 50.255 17.958 0.0018
Error 19.589 7 2.798
Total 120.100 9
2
100.511 2 2.798
𝑅 = = 0.8369 𝑅𝑎𝑗 = 1 − = 0.7903
120.100 120.1
9
Conclusión: 𝑅2 es cercano a 1, adecuado
Everardo Santiago Rendón
Matriz varianza-covarianza
𝑻 −1
𝑀𝑆𝐸 𝑿 𝑿
59321407 35873 784562
−
2690467 2690467 2690467
𝑻 −1 35873 1422 1700
𝑀𝑆𝐸 𝑿 𝑿 = 2.798 −
2690467 2690467 2690467
784562 1700 22985
− −
2690467 2690467 5380934
−1
61.702 0.0373 −0.816
𝑀𝑆𝐸 𝑿𝑻 𝑿 = 𝒔𝟐 𝒃 = 0.0373 0.0015 −0.002
−0.816 −0.002 0.012
Identificar 61.702 0.0373 -0.816
0.0373 0.0015 -0.002
diagonal -0.816 -0.002 0.012
principal Everardo Santiago Rendón
61.702 0.0373 -0.816
0.0373 0.0015 -0.002
-0.816 -0.002 0.012
Se calcula el error
estándar 𝑆𝑒 𝛽0 𝑆𝑒 𝛽0 = 61.702 = 7.8551
Se calcula el error
𝑆𝑒 𝛽1 = 0.0015 =0.0385
estándar 𝑆𝑒 𝛽0
Se calcula el error
estándar 𝑆𝑒 𝛽0 𝑆𝑒 𝛽2 = 0.012 =0.1093
Everardo Santiago Rendón
𝛽መ0 39.982 𝑆𝑒 𝛽መ0 = 61.692 = 7.85
𝛽መ = 𝛽መ1 = 0.113382 𝑆𝑒 𝛽መ1 = 0.001 =0.0316
𝛽መ2 0.382033 𝑆𝑒 𝛽መ2 = 0.012 =0.110
calculando el 𝛽መ0 39.982
𝑡0 = = = 5.09
valor t0 para 𝛽0 𝑆𝑒 𝛽0መ 7.85
calculando el 𝛽መ1 0.113382
𝑡0 = = = 3.588
valor t0 para 𝛽1 𝑆𝑒 𝛽1መ 0.0316
calculando el 𝛽መ2 0.382033
𝑡0 = = = 3.494
valor t0 para 𝛽2 𝑆𝑒 𝛽መ2 0.110
Everardo Santiago Rendón
Pruebas t para bj
Término 𝛽𝑗 𝑆𝑒 𝛽𝑗 Valor T Valor p
Constante 39.982 7.8551 5.09 0.001
Performance 0.1134 0.0385 2.9482 0.021
Features 0.3820 0.1093 3.4942 0.010
Valor de a=0.05, 0.01
Conclusión: se rechaza H0 para las tres
pruebas t, b0, b1 y b2 son diferentes de cero
Everardo Santiago Rendón
ෝ = 𝑿𝜷
Cálculo de valores ajustados 𝒚
Constante Performance Features ෝ
𝒚
1 77 87 81.9492
1 97 85 83.4528
1 83 80 79.9553
1 77 75 39.982 77.3648
1 64 80
0.113382 = 77.8010
1
0.382033 75.3658
56 76
77.1626
1 55 81
76.4874
1 76 73
75.3781
1 46 79
Everardo Santiago Rendón
ෝ
Cálculo de residuales 𝒆 = 𝒚 − 𝒚
𝒚 → PCW Rating ෝ
𝒚 𝒆
83 81.9492 1.0508
82 83.4528 -1.4528
81 79.9553 1.0447
78
− 77.3648
= 0.6352
78 77.8010 0.1990
78 75.3658 2.6342
77 77.1626 -0.1626
75 76.4874 -1.4874
73 75.3781 -2.3781
Everardo Santiago Rendón
𝑘−0.5
Aplicando técnica de probabilidad normal 𝒑 =
10
𝒏 = 10
𝒆 k p
1.0508 9 0.8500
-1.4528 3 0.2500 Está fórmula se usa
1.0447 8 0.7500 para calcular la
0.6352 7 0.6500 probabilidad normal
0.1990 6 0.5500
2.6342 10 0.9500
-0.1626 4 0.3500 k-> Ordenar de
-1.4874 2 0.1500 menor a mayor
-2.3781 1 0.0500
Everardo Santiago Rendón
𝒆 p
1.0508 0.8500
-1.4528 0.2500
1.0447 0.7500
0.6352 0.6500
0.1990 0.5500
2.6342 0.9500
-0.1626 0.3500
-1.4874 0.1500
-2.3781 0.0500
Valor P > a =0.05
Hay distribución
normal del error
Everardo Santiago Rendón
ෝ
𝒚 𝒆
81.9492 1.0508
83.4528 -1.4528
79.9553 1.0447
77.3648 0.6352
77.8010 0.1990
75.3658 2.6342
77.1626 -0.1626
76.4874 -1.4874
75.3781 -2.3781
Everardo Santiago Rendón
Patrón típico esperado cuando se
cumplen los supuestos
Everardo Santiago Rendón
No hay varianza constante
Everardo Santiago Rendón
No hay varianza constante
Everardo Santiago Rendón
No se cumplen los supuestos y es
necesario otra variable independiente
Everardo Santiago Rendón
𝒆
1.0508
-1.4528
1.0447
0.6352
0.1990
2.6342
-0.1626
-1.4874
-2.3781
No hay un patrón discernible, se considera
independencia del error
Everardo Santiago Rendón
Ejercicio 1
Predict the PCW World Rating for a laptop
computer that has a performance rating of 80
and a features rating of 70.
Estimando el valor de 𝑦ො ajustado para un
performance de 80 (𝑥1 ) y para features de 70 (𝑥2 )
𝑦ො = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2
𝑦ො = 39.982 + 0.113382 80 + 0.382033 70
𝑦ො = 75.7948
Everardo Santiago Rendón
calcular Performance ->80 (𝑥1 )
valor de 𝑦ො features -> 70 (𝑥2 )
forma matricial vector 𝑥0 = 1,80,70 ,
𝑇 𝑻 −1
𝑥0 𝑿 𝑿 𝑥0
−1
𝑥0𝑇 𝑻
𝑿 𝑿 𝑥0 =
59321407 35873 784562
−
2690467 2690467 2690467
35873 1422 1700 1
1 80 70 − 80 = 0.5934
2690467 2690467 2690467 70
784562 1700 22985
− −
2690467 2690467 5380934
Everardo Santiago Rendón
calcular
el error 𝑆𝑒𝑝 𝑦ො0 = 𝑀𝑆𝐸 𝟏 + 𝒙𝑻𝟎 𝑿𝑻 𝑿 𝒙𝟎
estándar
𝑆𝑒𝑝 𝑦ො0 = 2.798 1 + 0.5934 = 2.112
calcular a=0.05, n-k-1= 7 (grados de
valor de t libertad del error)
𝑡𝛼,𝑛−𝑘−1 = 𝑡0.025,7 = 2.365
2
39.982
calcular 𝑦ො0 = 𝒙𝑻𝟎 𝜷 = 1 80 70 0.113382
valor 𝑦ො
0.382033
= 75.7948
Everardo Santiago Rendón
Intervalo de predicción
𝑦ො0 − 𝑡𝛼,𝑛−𝑘−1 𝑆𝑒𝑝 𝑦ො0 ≤ 𝑦0 ≤ 𝑦ො0 + 𝑡𝛼,𝑛−𝑘−1 𝑆𝑒𝑝 𝑦ො0
2 2
Sustituyendo valores
75.7948 − 2.365 2.112 < 𝑦 < 75.7948 + 2.365 2.112
70.802 < 𝑦 < 80.788
Everardo Santiago Rendón
Intervalo de confianza para la predicción
calcular el 𝑆𝑒 𝑦ො0 = 𝑀𝑆𝐸 𝒙𝑻𝟎 𝑿𝑻 𝑿 𝒙𝟎
error estándar
𝑡0.025,7 = 2.365,
𝑦ො0 = 75.7948 𝑆𝑒𝑝 𝑦ො0 = 2.798 0.5934 = 1.289
𝑦ො0 − 𝑡𝛼,𝑛−𝑘−1 𝑆𝑒 𝑦ො0 ≤ 𝑦0 ≤ 𝑦ො0 + 𝑡𝛼,𝑛−𝑘−1 𝑆𝑒 𝑦ො0
2 2
75.7948 − 2.365 1.289 < 𝑦 < 75.7948 + 2.365 1.289
Everardo
Santiago
Rendón 72.748 < 𝑦 < 78.842
Everardo Santiago Rendón
Análisis del modelo de regresión lineal múltiple
Modelo de
regresión
𝑦ො = 39.982 + 0.113382𝑥1 + 0.382033𝑥2
lineal
múltiple
• Gráfica de probabilidad normal y la
prueba de normalidad se concluye
Análisis de que hay distribución normal del
residuales error.
(error)
• Gráfica de residuales vs ajustados
se determina que hay varianza
constante.
Everardo Santiago Rendón
Everardo Santiago Rendón
Análisis del modelo de regresión lineal múltiple
Modelo de
regresión 𝑦ො = 39.982 + 0.113382𝑥1 + 0.382033𝑥2
lineal
múltiple
• 𝑅2 = 0.276 valor cercano a cero, no
adecuado
Modelo • Se rechaza H0 en ANOVA y prueba t
para todas las 𝛽𝑗 , por lo cual 𝛽0 , 𝛽1 ,
𝛽2 son significativas (existen).
Conclusión: El modelo de regresión lineal simple
no es adecuado para los datos proporcionados por
valor de R2.
Everardo Santiago Rendón
Ejemplo 2
Bowerman et al. (2012), The hospital labor
needs case, page 564. Table 15.6 presents data
concerning the need for labor in 16 U.S. Navy
hospitals. Here, y monthly labor hours required;
x1 monthly X-ray exposures; x2 monthly
occupied bed days (a hospital has one occupied
bed day if one bed is occupied for an entire day);
and x3 average length of patients’ stay (in days).
Everardo Santiago Rendón
Monthly X-Ray Monthly Occupied Average Length of Monthly Labor
Hospital Exposures Bed Days Stay Hours Required
1 2,463 472.92 4.45 566.52
2 2,048 1,339.75 6.92 696.82
3 3,940 620.25 4.28 1,033.15
4 6,505 568.33 3.9 1,603.62
5 5,723 1,497.60 5.5 1,611.37
6 11,520 1,365.83 4.6 1,613.27
7 5,779 1,687.00 5.62 1,854.17
8 5,969 1,639.92 5.15 2,160.55
9 8,461 2,872.33 6.18 2,305.58
10 20,106 3,655.08 6.15 3,503.93
11 13,313 2,912.00 5.88 3,571.89
12 10,771 3,921.00 4.88 3,741.40
13 15,543 3,865.67 5.5 4,026.52
14 34,703 12,446.33 10.78 11,732.17
15 39,204 14,098.40 7.05 15,414.94
16 86,533 15,524.00 6.35 18,854.45
Everardo Santiago Rendón
Solución por minitab
• Es este ejemplo la solución se realiza por minitab.
La variables son:
• y -> monthly labor hours required; (respuesta)
• x1 -> monthly X-ray exposures; (regresor 1)
• x2 -> monthly occupied bed days (a hospital has
one occupied bed day if one bed is occupied for
an entire day); (regresor 2)
• x3 -> average length of patients’ stay (in days).
(regresor 3)
Everardo Santiago Rendón
Datos
y -> monthly labor
hours required;
x1 -> monthly X-ray
exposures;
x2 -> monthly occupied
bed days
x3 -> average length of
patients’ stay (in
days).
Everardo Santiago Rendón
Ecuación de regresión
Monthly Labor Hours Required = 1947 + 0.0386 Monthly X - Ray Exposures
+ 1.0394 Monthly Occupied Bed Days - 413.8 Average Length of Stay
Por valor P=0.002 vs a=0.05, se rechaza H0 para b0, Valor p del
Por valor P=0.012 vs a=0.05, se rechaza H0 para b1, coeficiente
Por valor P=0.000 vs a=0.05, se rechaza H0 para b2,
Por valor P=0.001 vs a=0.05, se rechaza H0 para b3,
Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante 1946.80204 504.18193 3.86 0.002
Monthly X-Ray Exposures 0.03858 0.01304 2.96 0.012 7.83
Monthly Occupied Bed Days 1.03939 0.06756 15.39 0.000 11.40
Average Length of Stay -413.75780 98.59828 -4.20 0.001 2.52
Valor del Error Pruebas t
Coeficiente estándar del
del coeficiente
Everardo Santiago Rendón coeficiente
Resumen del modelo
S R-cuad. R-cuad.(ajustado) R-cuad.(pred)
387.160 99.61% 99.52% 99.09%
Desviación R2=0.9961,
estándar cercano a 1
muestral del
modelo, raíz
cuadrada de
MSE
Everardo Santiago Rendón
ANOVA
Análisis de Varianza
Fuente GL SC Sec. MC sec. Valor F Valor p
Regresión 3 462327889 154109296 1028.13 0.000
Monthly X-Ray Exposures 1 412294021 412294021 2750.59 0.000
Monthly Occupied Bed Days 1 47394292 47394292 316.19 0.000
Average Length of Stay 1 2639576 2639576 17.61 0.001
Error 12 1798712 149893
Total 15 464126602
Por valor P=0.002 vs a=0.05, se rechaza H0 para b0,
Por valor P=0.012 vs a=0.05, se rechaza H0 para b1,
Por valor P=0.000 vs a=0.05, se rechaza H0 para b2,
Por valor P=0.001 vs a=0.05, se rechaza H0 para b3,
Everardo Santiago Rendón
Everardo Santiago Rendón
Ajustes y diagnósticos para todas las observaciones
Obs Monthly Residual estandarizado
Labor Hours
Required Ajuste Resid Resid est.
1 567 692.1445 -126 -0.35
2 697 555.1294 142 0.42
3 1033 972.5953 61 0.17
4 1604 1174.8082 429 1.21
5 1611 1448.5043 163 0.44
6 1613 1907.5570 -294 -0.81
7 1854 1597.8745 256 0.69
8 2161 1750.7357 410 1.11
9 2306 2701.6564 -396 -1.07
10 3504 3976.8834 -473 -1.31
11 3572 3054.1924 518 1.40
12 3741 4418.6337 -677 -1.93
13 4027 4288.6842 -262 -0.70
14 11732 11761.8492 -30 -0.14
15 15415 15195.9496 219 1.22 X
16 18854 18793.1523 61 0.61 X
X poco común X
𝑒𝑖
𝒚
ෝ = 𝑿𝜷 ෝ
𝒆=𝒚−𝒚 𝑒𝑠𝑖 =
𝒚 𝑆𝑒 𝑒𝑖
Valor P > 0.150 > a=0.05, por lo cual hay
distribución normal del error
Everardo Santiago Rendón
No hay varianza constante
Everardo Santiago Rendón
No hay patrón ->
independencia
Everardo Santiago Rendón
Everardo Santiago Rendón
Análisis del modelo de regresión lineal múltiple
Monthly Labor Hours Required = 1947 + 0.0386 Monthly X - Ray Exposures
+ 1.0394 Monthly Occupied Bed Days - 413.8 Average Length of Stay
Modelo
de
𝑦ො = 1947 + 0.0386𝑥1 + 1.0394𝑥2 − 413.8𝑥3
regresión
lineal
múltiple • Gráfica de probabilidad normal y la prueba
de normalidad se tiene que hay distribución
Análisis de
normal del error.
residuales
(error)
• Gráfica de residuales vs ajustados se
determina que NO hay varianza constante.
Everardo Santiago Rendón
Everardo Santiago Rendón
Análisis del modelo de regresión lineal múltiple
Modelo
de
𝑦ො = 1947 + 0.0386𝑥1 + 1.0394𝑥2 − 413.8𝑥3
regresión
lineal
múltiple
• 𝑅2 = 0.9961 valor adecuado
• Se rechaza H0 en ANOVA y prueba t
Modelo
para todas las 𝛽𝑗 , por lo cual 𝛽0 , 𝛽1 ,
𝛽2 y 𝛽3 son significativas (existen).
Conclusión: El modelo de regresión lineal múltiple no
es adecuado (no tiene varianza constante) para los
datos proporcionados.
Everardo Santiago Rendón
FIV
Variance Inflation factor para evaluar
FIV la multicolinealidad
Factor (VIF)
de los regresores
en el modelo.
1
𝐹𝐼𝑉𝑗 =
1 − 𝑅𝑗2
El j-ésimo regresor se convierte en variable de
respuesta y se calcula 𝑅𝑗2 del nuevo modelo de
regresión.
Everardo Santiago Rendón
Ejemplo FIV
Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante 1946.80204 504.18193 3.86 0.002
Monthly X-Ray Exposures 0.03858 0.01304 2.96 0.012 7.83
Monthly Occupied Bed Days 1.03939 0.06756 15.39 0.000 11.40
Average Length of Stay -413.75780 98.59828 -4.20 0.001 2.52
El término Monthly X-Ray Exposures tiene un
FIV=7.83, se corre un modelo de regresión
donde:
y-> Monthly X-Ray Exposures
x1-> Monthly Occupied Bed Days
x2-> Average Length of Stay.
Everardo Santiago Rendón
Ejemplo FIV
El coeficiente de
𝑅2 = 0.8723
determinación
1 1
𝐹𝐼𝑉 = 2
= = 7.83
1−𝑅 1 − 0.8723
Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante 1946.80204 504.18193 3.86 0.002
Monthly X-Ray Exposures 0.03858 0.01304 2.96 0.012 7.83
Monthly Occupied Bed Days 1.03939 0.06756 15.39 0.000 11.40
Average Length of Stay -413.75780 98.59828 -4.20 0.001 2.52
Everardo Santiago Rendón
1.2 Regresión no lineal
Hay muchos casos en los cuales la regresión no
es lineal y hay que considerar casos con
términos polinomiales (cuadrados, cúbicos,
etc.), interacciones, exponenciales, etc.
Everardo Santiago Rendón
• Las transformaciones son
necesarias para obtener
varianza constante (la
¿Porqué transformación puede acabar
utilizar con la linealidad del modelo)
regresión • El modelo no tiene linealidad.
no lineal? • La teoría indica que el modelo
es no lineal.
Everardo Santiago Rendón
Ejemplo 3
• Gutiérrez y De la Vara (2008), ejercicio 22,
página 381. Se realizó un experimento para
estudiar el sabor del queso panela en función
de la cantidad del cuajo y la sal. La variable de
respuesta observada es el sabor promedio
reportado por un grupo de cinco panelistas
que probaron todos los quesos y los
calificaron con una escala hedónica. Los datos
obtenidos se muestran a continuación:
Everardo Santiago Rendón
Ejemplo 3
Sal Cuajo Sabor
6 0.3 5.67
5.5 0.387 7.44
4.5 0.387 7.33
4 0.3 6.33
4.5 0.213 7.11
5.5 0.213 7.22
5 0.3 6.33
5 0.3 6.66
Everardo Santiago Rendón
Ejemplo 3
a) Ajuste el modelo Y = β0 + β1X1 + β2X2 + ε.
b) ¿El modelo explica la variación observada en
el sabor? Argumente con base en la significancia
del modelo, los residuales y el coeficiente de
determinación.
c) Ajuste un modelo que incluya términos
cuadráticos y analice con detalle la calidad del
ajuste.
Everardo Santiago Rendón
Ejemplo 3
d ) Compare el error estándar de estimación
(CME)1/2 y los coeficientes de determinación
(R2 y R2aj) para ambos modelos.
e) ¿Cuál modelo prefiere para explicar el sabor?
Everardo Santiago Rendón
Solución por minitab
a) Ajuste el modelo Y = β0 + β1X1 + β2X2 + ε.
• Es este ejemplo la solución se realiza por minitab,
las variables son:
• y -> Sabor; (respuesta)
• x1 -> Sal; (regresor 1)
• x2 -> Cuajo; (regresor 2)
Everardo Santiago Rendón
Datos
Fila Sal Cuajo Sabor
1 6.0 0.300 5.67
2 5.5 0.387 7.44
3 4.5 0.387 7.33
4 4.0 0.300 6.33
5 4.5 0.213 7.11
6 5.5 0.213 7.22
7 5.0 0.300 6.33
8 5.0 0.300 6.66
y -> Sabor; (respuesta)
x1 -> Sal; (regresor 1)
x2 -> Cuajo; (regresor 2)
Everardo Santiago Rendón
Ecuación de regresión
Sabor = 7.30 - 0.183 Sal + 1.26 Cuajo
Por valor P=0.029 vs a=0.05, se rechaza H0 para b0,
Por valor P=0.675 vs a=0.05, No se rechaza H0 para b1, Valor p del
Por valor P=0.770 vs a=0.05, No se rechaza H0 para b2, coeficiente
Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante 7.30 2.41 3.03 0.029
Sal -0.183 0.412 -0.45 0.675 1.00
Cuajo 1.26 4.10 0.31 0.770 1.00
Error
Valor del estándar Pruebas t
Coeficiente del del
coeficiente coeficiente
Everardo Santiago Rendón
Resumen del modelo
S R-cuad. R-cuad.(ajustado) R-cuad.(pred)
0.712749 5.55% 0.00% 0.00%
Desviación R2=0.055,
estándar cercano a 0
muestral del No adecuado
modelo, raíz
cuadrada de
MSE
Everardo Santiago Rendón
ANOVA
Análisis de Varianza
Fuente GL SC Sec. MC sec. Valor F Valor p
Regresión 2 0.14923 0.07462 0.15 0.867
Sal 1 0.10083 0.10083 0.20 0.675
Cuajo 1 0.04840 0.04840 0.10 0.770
Error 5 2.54005 0.50801
Falta de ajuste 4 2.48560 0.62140 11.41 0.218
Error puro 1 0.05445 0.05445
Total 7 2.68929
Por valor P=0.675 vs a=0.05, No se rechaza H0 para b1,
Por valor P=0.770 vs a=0.05, No se rechaza H0 para b2,
Everardo Santiago Rendón
Everardo Santiago Rendón
Residual estandarizado
Ajustes y diagnósticos para todas las
observaciones
Obs Sabor Ajuste Resid Resid est.
1 5.670 6.578 -0.908 -1.73
2 7.440 6.780 0.660 1.26
3 7.330 6.963 0.367 0.70
4 6.330 6.945 -0.615 -1.17
5 7.110 6.743 0.367 0.70
6 7.220 6.560 0.660 1.26
7 6.330 6.761 -0.431 -0.65
8 6.660 6.761 -0.101 -0.15
𝒚 𝑒𝑖
ෝ = 𝑿𝜷 ෝ
𝒆=𝒚−𝒚 𝑒𝑠𝑖 =
𝒚 𝑆𝑒 𝑒𝑖
Valor P =0.392 > a=0.05, por lo cual hay
distribución normal del error
Everardo Santiago Rendón
hay varianza constante
Everardo Santiago Rendón
Hay patrón -> no hay independencia
Everardo Santiago Rendón
Everardo Santiago Rendón
b) ¿El modelo explica la variación observada en el sabor?
Argumente con base en la significancia del modelo, los
residuales y el coeficiente de determinación.
Modelo Sabor = 7.30 - 0.183 Sal + 1.26 Cuajo
de
regresión
lineal 𝑦ො = 7.30 − 0183𝑥1 + 1.26𝑥2
múltiple
• Gráfica de probabilidad normal y la prueba
de normalidad se tiene que hay distribución
Análisis de normal del error.
residuales • Gráfica de residuales vs ajustados se
(error) determina que hay varianza constante.
• Gráfica de residuales vs orden, hay un
patrón en los residuales por lo cual no hay
independencia
Everardo Santiago Rendón
Everardo Santiago Rendón
b) ¿El modelo explica la variación observada en el sabor?
Argumente con base en la significancia del modelo, los
residuales y el coeficiente de determinación.
Modelo de
regresión lineal 𝑦ො = 7.30 − 0183𝑥1 + 1.26𝑥2
múltiple
• 𝑅2 = 0.0555 valor no adecuado
• Se rechaza H0 en prueba t para 𝛽0 ,
Modelo
no se H0 rechaza para 𝛽1 , 𝛽2 , no son
significativas (no existen).
Conclusión: El modelo de regresión lineal múltiple no
es adecuado, 𝑅2 cercano a cero, los coeficientes no
son significativos. No explica la variación observada
en el sabor Everardo Santiago Rendón
Solución por minitab
c) Ajuste un modelo que incluya términos
cuadráticos y analice con detalle la calidad del
ajuste. Se agregan las variables cuajo2 y sabor 2
Sal Cuajo Sabor Cuajo2 Sabor2
y 6 0.3 5.67 36 0.09
5.5 0.387 7.44 30.25 0.149769
4.5 0.387 7.33 20.25 0.149769
4 0.3 6.33 16 0.09
4.5 0.213 7.11 20.25 0.045369
5.5 0.213 7.22 30.25 0.045369
5 0.3 6.33 25 0.09
5 0.3 6.66 25 0.09
Everardo Santiago Rendón
Datos
Fila Sal Cuajo Sabor sal^2 cuajo^2
1 6.0 0.300 5.67 36.00 0.090000
2 5.5 0.387 7.44 30.25 0.149769
3 4.5 0.387 7.33 20.25 0.149769
4 4.0 0.300 6.33 16.00 0.090000
5 4.5 0.213 7.11 20.25 0.045369
6 5.5 0.213 7.22 30.25 0.045369
7 5.0 0.300 6.33 25.00 0.090000
8 5.0 0.300 6.66 25.00 0.090000
y -> Sabor; (respuesta)
x1 -> Sal; (regresor 1)
x2 -> Cuajo; (regresor 2)
x3 -> Sal^2; (regresor 3)
x4 -> Cuajo^2; (regresor 4)
Everardo Santiago Rendón
Ecuación de regresión
Sabor = 5.40 + 4.77 Sal - 70.4 Cuajo - 0.495 sal^2 + 119.4 cuajo^2
Por valor P=0.504 vs a=0.05, No se rechaza H0 para b0, (constante)
Por valor P=0.150 vs a=0.05, No se rechaza H0 para b1, (sal)
Por valor P=0.018 vs a=0.05, se rechaza H0 para b2, (cuajo)
Por valor P=0.139 vs a=0.05, No se rechaza H0 para b3, (sal^2)
Por valor P=0.017 vs a=0.05, se rechaza H0 para b4, (cuajo^2)
Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante 5.40 7.13 0.76 0.504
Sal 4.77 2.48 1.92 0.150 301.00
Cuajo -70.4 14.8 -4.76 0.018 108.02
sal^2 -0.495 0.247 -2.00 0.139 301.12
cuajo^2 119.4 24.5 4.87 0.017 108.14
Everardo Santiago Rendón
Resumen del modelo
S R-cuad. R-cuad.(ajustado) R-cuad.(pred)
0.247330 93.18% 84.08% 15.88%
R2=0.9318, cercano a 1, adecuado
Análisis de Varianza
Fuente GL SC Sec. MC sec. Valor F Valor p
Regresión 4 2.50577 0.62644 10.24 0.043
Sal 1 0.10083 0.10083 1.65 0.289
Cuajo 1 0.04840 0.04840 0.79 0.439
sal^2 1 0.90451 0.90451 14.79 0.031
cuajo^2 1 1.45203 1.45203 23.74 0.017
Error 3 0.18352 0.06117
Falta de ajuste 2 0.12907 0.06453 1.19 0.545
Error puro 1 0.05445 0.05445
Total 7 2.68929
Everardo Santiago Rendón
Everardo Santiago Rendón
Ajustes y diagnósticos para todas las
observaciones
Obs Sabor Ajuste Resid Resid est.
1 5.670 5.817 -0.147 -1.45
2 7.440 7.293 0.147 0.92
3 7.330 7.477 -0.147 -0.92
4 6.330 6.183 0.147 1.45
5 7.110 7.257 -0.147 -0.92
6 7.220 7.073 0.147 0.92
7 6.330 6.495 -0.165 -0.94
8 6.660 6.495 0.165 0.94
Valor P < 0.005 < a=0.05, por lo cual NO
existe distribución normal del error
Everardo Santiago Rendón
Hay varianza constante
Everardo Santiago Rendón
Hay patrón -> no hay independencia
Everardo Santiago Rendón
Everardo Santiago Rendón
Análisis del modelo de regresión lineal múltiple
Modelo
de Sabor = 5.40 + 4.77 Sal - 70.4 Cuajo - 0.495 sal^2 + 119.4 cuajo^2
regresión
lineal
múltiple 𝑦ො = 5.40 + 4.77𝑥1 − 70.4𝑥2 − 0.495𝑥12 + 119.4𝑥22
• Gráfica de probabilidad normal y la prueba
de normalidad muestran que no existe
Análisis de distribución normal del error.
residuales • Gráfica de residuales vs ajustados se
(error) determina que hay varianza constante.
• Gráfica de residuales vs orden, hay un
patrón en los residuales por lo cual no hay
independencia
Everardo Santiago Rendón
Everardo Santiago Rendón
Modelo
de
regresión 𝑦ො = 5.40 + 4.77𝑥1 − 70.4𝑥2 − 0.495𝑥12 + 119.4𝑥22
lineal
múltiple
• 𝑅2 = 0.9318 valor adecuado
• No se rechaza H0 en prueba t para
Modelo
𝛽0 , 𝛽1 , 𝛽3 .Se H0 rechaza para 𝛽2 , 𝛽4 ,
son significativas (existen).
Conclusión: El modelo de regresión lineal múltiple no
es adecuado en la parte del error, no tiene
distribución normal y no es independiente.
Everardo Santiago Rendón
Ejemplo 3
d ) Compare el error estándar de estimación (CME)1/2 y los
coeficientes de determinación (R2 y R2aj) para ambos
modelos.
Resumen del modelo
S R-cuad. R-cuad.(ajustado)
0.712749 5.55% 0.00%
Sabor = 7.30 - 0.183 Sal + 1.26 Cuajo
Resumen del modelo
S R-cuad. R-cuad.(ajustado)
0.247330 93.18% 84.08%
𝑦ො = 5.40 + 4.77𝑥1 − 70.4𝑥2 − 0.495𝑥12 + 119.4𝑥22 Mejor
modelo
Everardo Santiago Rendón
Ejemplo 3
e) ¿Cuál modelo prefiere para explicar el sabor?
El modelo con términos cuadráticos, pero tiene
deficiencias en los residuales.
𝑦ො = 5.40 + 4.77𝑥1 − 70.4𝑥2 − 0.495𝑥12 + 119.4𝑥22
Everardo Santiago Rendón
Ejemplo 4
Montgomery et al. (2008), Exercise 5.2 p. 203.
The following table gives the vapor pressure of
water for various temperatures.
Temperature (°K) Vapor Pressure ( mm Hg)
273 4.6
283 9.2
293 17.5
303 31.8
313 55.3
323 92.5
333 149.4
343 233.7
Everardo Santiago Rendón
Ejemplo 4
a. Plot a scatter diagram. Does it seem likely that a
straight - line model will be adequate?
b. Fit the straight - line model. Compute the
summary statistics and the residual plots. What are
your conclusions regarding model adequacy?
c. From physical chemistry the Clausius - Clapeyron
1
equation states that ln 𝑝𝑣 ∝ −
𝑇
Repeat part b using the appropriate transformation
based on this information.
Everardo Santiago Rendón
a. Plot a scatter diagram. Does it seem likely that
a straight - line model will be adequate?
Es evidente que la
relación no es lineal Everardo Santiago Rendón
Solución regresión lineal simple
b. Fit the straight - line model. Compute the
summary statistics and the residual plots. What
are your conclusions regarding model
adequacy?
Resolviendo por regresión lineal simple el
modelo, donde la temperatura es el regresor y
la presión del vapor de agua es la variable de
respuesta, se usa minitab para la solución.
Everardo Santiago Rendón
Solución b.
Datos
Fila Temperature (°K) Vapor Pressure( mm Hg)
1 273 4.6
2 283 9.2
3 293 17.5
4 303 31.8
5 313 55.3
6 323 92.5
7 333 149.4
8 343 233.7
9 353 355.1
10 363 525.8
11 373 760.0
y -> Vapor Pressure( mm Hg)(respuesta)
x -> Temperature (°K) (regresor 1)
Everardo Santiago Rendón
Ecuación de regresión
Vapor Pressure ( mm Hg) = -1956 + 6.69 Temperature (°K)
Por valor P=0.000 vs a=0.05, se rechaza H0 para b0, (constante)
Por valor P=0.000 vs a=0.05, se rechaza H0 para b1, (Temperature (°K)
Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante -1956.26 364 -5.38 0.000
Temperature (°K) 6.69 1.12 5.96 0.000 1.00
Everardo Santiago Rendón
Resumen del modelo
S R-cuad. R-cuad.(ajustado) R-cuad.(pred)
117.569 79.81% 77.56% 64.10%
R2=0.7981, cercano a 1, adecuado
Análisis de Varianza
Fuente GL SC Sec. MC sec.Valor F Valor p
Regresión 1 491662 491662 35.57 0.000
Temperature (°K) 1 491662 491662 35.57 0.000
Error 9 124403 13823
Total 10 616065
Everardo Santiago Rendón
Ajustes y diagnósticos para todas las observaciones
Obs Vapor Pressure( mm Hg) Ajuste Resid Resid est.
1 4.6 -131.1 135.7 1.40
2 9.2 -64.2 73.4 0.71
3 17.5 2.6 14.9 0.14
4 31.8 69.5 -37.7 -0.34
5 55.3 136.3 -81.0 -0.73
6 92.5 203.2 -110.7 -0.99
7 149.4 270.0 -120.6 -1.08
8 233.7 336.9 -103.2 -0.94
9 355.1 403.7 -48.6 -0.45
10 525.8 470.6 55.2 0.54
11 760.0 537.5 222.5 2.29 R
Residuo grande R
Residual grande, porque es 2.29 veces la desviación estándar
para el residual
Everardo Santiago Rendón
Evidente que no existe
varianza constante
Everardo Santiago Rendón
Hay patrón -> no hay independencia
Everardo Santiago Rendón
Valor P > 0.150 > a=0.05, por lo cual
hay distribución normal del error
Everardo Santiago Rendón
Everardo Santiago Rendón
Análisis del modelo de regresión lineal
Modelo
de Vapor Pressure ( mm Hg) = -1956.26 + 6.69 Temperature (°K)
regresión
lineal
múltiple 𝑦ො = −1956.26 + 6.69𝑥
• Gráfica de probabilidad normal y la prueba
de normalidad muestran que hay
distribución normal del error.
Análisis de
• Gráfica de residuales vs ajustados se
residuales
determina que no existe hay varianza
(error)
constante.
• Gráfica de residuales vs orden, hay un
patrón en los residuales por lo cual no hay
independencia
Everardo Santiago Rendón
Everardo Santiago Rendón
Modelo
de
𝑦ො = −1956.26 + 6.69𝑥
regresión
lineal
múltiple
• 𝑅2 = 0.7981 valor adecuado
Modelo • Se rechaza H0 en prueba t para 𝛽0 ,
𝛽1 , son significativas (existen).
Conclusión: El modelo de regresión lineal no es
adecuado en la parte del error, no tiene distribución
varianza constante y no es independiente.
Everardo Santiago Rendón
Ejemplo 4 parte c.
c. From physical chemistry the Clausius - Clapeyron
1
equation states that ln 𝑝𝑣 ∝ −
𝑇
Repeat part b using the appropriate transformation
based on this information.
Everardo Santiago Rendón
Solución c.
Establecer Teoría termodinámica y Caso de bajas
la regresión química de la ecuación temperaturas
no lineal de Clausius-Clapeyron y presiones
Transformaciones 1
propuestas ln 𝑝𝑣 ∝−
𝑇
ln 𝑝𝑣 → 𝑦 Vapor Pressure( mm Hg)(respuesta)
1
− →𝑥 Temperature (°K) (regresor)
𝑇
Everardo Santiago Rendón
Solución c.
Datos
Fila ln(p) -1/T
1 1.52606 -0.0036630
2 2.21920 -0.0035336
3 2.86220 -0.0034130
4 3.45947 -0.0033003
5 4.01277 -0.0031949
6 4.52721 -0.0030960
7 5.00663 -0.0030030
8 5.45404 -0.0029155
9 5.87240 -0.0028329
10 6.26492 -0.0027548
11 6.63332 -0.0026810
ln 𝑝𝑣 → 𝑦 Vapor Pressure( mm Hg)(respuesta)
1
− →𝑥 Temperature (°K) (regresor)
𝑇
Everardo Santiago Rendón
Los datos transformados son casi una línea recta
Everardo Santiago Rendón
Ecuación de regresión
ln(p) = 20.6074 + 5200.8 -1/T
Por valor P=0.000 vs a=0.05, se rechaza H0 para b0, (constante)
Por valor P=0.000 vs a=0.05, se rechaza H0 para b1, -1/T (°K)
Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante 20.6074 0.0633 325.79 0.000
-1/T 5200.8 20.1 258.29 0.000 1.00
Everardo Santiago Rendón
Resumen del modelo
S R-cuad. R-cuad. (ajustado) R-cuad.(pred)
0.0206725 99.99% 99.99% 99.98%
R2=0.9999, casi 1, (demuestra que la teoría es correcta)
Análisis de Varianza
Fuente GL SC Sec. MC sec. Valor F Valor p
Regresión 1 28.5110 28.5110 66715.47 0.000
-1/T 1 28.5110 28.5110 66715.47 0.000
Error 9 0.0038 0.0004
Total 10 28.5149
Everardo Santiago Rendón
Ajustes y diagnósticos para todas las observaciones
Obs ln(p) Ajuste Resid Resid est.
1 1.52606 1.55697 -0.03091 -1.88
2 2.21920 2.23013 -0.01092 -0.61
3 2.86220 2.85734 0.00486 0.26
4 3.45947 3.44315 0.01632 0.84
5 4.01277 3.99153 0.02125 1.08
6 4.52721 4.50595 0.02126 1.08
7 5.00663 4.98948 0.01715 0.88
8 5.45404 5.44481 0.00923 0.48
9 5.87240 5.87434 -0.00194 -0.10
10 6.26492 6.28021 -0.01529 -0.84
11 6.63332 6.66432 -0.03100 -1.77
Valores y & valores ajustados 𝑦ො casi iguales
Everardo Santiago Rendón
Evidente que no existe
varianza constante
Everardo Santiago Rendón
Hay patrón -> no hay independencia
Everardo Santiago Rendón
Valor P = 0.257 > a=0.05, por lo cual
hay distribución normal del error
Everardo Santiago Rendón
Everardo Santiago Rendón
Análisis del modelo de regresión lineal
Modelo Ecuación de regresión
de ln(p) = 20.6074 + 5200.8 -1/T
regresión
lineal
múltiple 𝑦ො = 20.6074 + 5200.8 𝑥
• Gráfica de probabilidad normal y la prueba
de normalidad muestran que hay
distribución normal del error.
Análisis de
• Gráfica de residuales vs ajustados se
residuales
determina que no existe hay varianza
(error)
constante.
• Gráfica de residuales vs orden, hay un
patrón en los residuales por lo cual no hay
independencia
Everardo Santiago Rendón
Everardo Santiago Rendón
Modelo
de
𝑦ො = 20.6074 + 5200.8 𝑥
regresión
lineal
múltiple
• 𝑅2 = 0.9999 casi 1
Modelo • Se rechaza H0 en prueba t para 𝛽0 ,
𝛽1 , son significativas (existen).
Conclusión: El modelo de regresión lineal no es
adecuado en la parte del error, no tiene distribución
varianza constante y no es independiente, pero como
en este caso el error es casi inexistente, muestra como
la teoría de la ecuación de Clausius-Clapeyron se
cumple con los valores analizados.
Everardo Santiago Rendón
Transformaciones de Box-Cox
Montgomery Tranformaciones Corrección de
et al. (2012) y de Box-Cox no normalidad
Montgomery y varianza no
(2013) constante
Everardo Santiago Rendón
Transformaciones de Box-Cox
Corrección de
𝜆 = 0 → usar como respuesta ln 𝑦
no normalidad
y varianza no
constante
Everardo Santiago Rendón
Ejemplo 5
Hanke & Wichern (2014), Exercise 16 p. 216.
Table P-16 contains data for 23 cities on
newsprint consumption (Y) and the number of
families in the city (X) during a particular year.
Everardo Santiago Rendón
Datos
Newsprint Consumption Number of Newsprint Consumption Number of
City (metric tons) Families City (metric tons) Families
1 961 8,600 13 878 8,330
2 469 6,870 14 637 9,010
3 556 9,880 15 3,291 11,790
4 1,252 12,370 16 2,470 18,910
5 902 6,920 17 916 8,550
6 1,399 13,760 18 525 8,850
7 1,877 7,450 19 1,159 8,540
8 921 6,700 20 1,138 6,910
9 494 7,420 21 979 7,060
10 530 6,930 22 1,899 10,920
11 488 7,400 23 5,022 14,800
12 1,253 7,420
Everardo Santiago Rendón
Ejemplo 5
a. Plot newsprint consumption against number
of families as a scatter diagram.
b. Is a simple linear regression model
appropriate for the data in Table P-16? Be sure
your answer includes an analysis of the
residuals.
c. Consider a log transformation of newsprint
consumption and a simple linear regression
model relating (newsprint consumption) to
families. Fit this model.
Everardo Santiago Rendón
Ejemplo 5
d. Examine the residuals from the regression in
part c. Which model, the one in part b or the
one in part c, is better? Justify your answer.
Everardo Santiago Rendón
Datos
Fila Newsprint Consumption Number of Familie
1 961 8600
2
3
469
556
6870
9880
Solución ejemplo
4
5
1252
902
12370
6920
5 por minitab
6 1399 13760
7 1877 7450
8 921 6700
9 494 7420
10 530 6930
11 488 7400
12 1253 7420
13 878 8330
14 637 9010
15 3291 11790
16 2470 18910
17 916 8550
18 525 8850
19 1159 8540
20 1138 6910
21 979 7060
22 1899 10920
23 5022 14800
Everardo Santiago Rendón
a. Plot newsprint consumption against (y)
number of families (x) as a scatter diagram.
Everardo Santiago Rendón
b. Is a simple linear regression model
appropriate for the data in Table P-16?
Ecuación de regresión
Newsprint Consumption = - 811 + 0.2260 Number of Families
Por valor P=0.158 vs a=0.05, No se rechaza H0 para b0, (constante)
Por valor P=0.001 vs a=0.05, se rechaza H0 para b1, (number of families)
Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante -811 554 -1.47 0.158
Number of Families 0.2260 0.0562 4.02 0.001 1.00
Everardo Santiago Rendón
Resumen del modelo
S R-cuad. R-cuad. (ajustado) R-cuad.(pred)
819.812 43.48% 40.78% 16.48%
R2=0.4348, más cercano a cero que a 1, no adecuado
Análisis de Varianza
Fuente GL SC Sec. MC sec. Valor F Valor p
Regresión 1 10855642 10855642 16.15 0.001
Number of Families 1 10855642 10855642 16.15 0.001
Error 21 14113925 672092
Falta de ajuste 20 13825884 691294 2.40 0.474
Error puro 1 288041 288041
Total 22 24969567
Everardo Santiago Rendón
Ajustes y diagnósticos para todas las observaciones
Obs Newsprint Consumption Ajuste Resid Resid est.
1 961 1132 -171 -0.21
2 469 741 -272 -0.34
3 556 1421 -865 -1.08
4 1252 1984 -732 -0.93
5 902 753 149 0.19
6 1399 2298 -899 -1.18 Ajustado
7 1877 872 1005 1.26 grande
8 921 703 218 0.28
9 494 866 -372 -0.47
10 530 755 -225 -0.28
11 488 861 -373 -0.47
12 1253 866 387 0.49
13 878 1071 -193 -0.24
14 637 1225 -588 -0.73
15 3291 1853 1438 1.82 Residual
16 2470 3462 -992 -1.67 X
17 916 1121 -205 -0.26
grande
18 525 1189 -664 -0.83
19 1159 1119 40 0.05
20 1138 750 388 0.49
21 979 784 195 0.25
22 1899 1656 243 0.30
23 5022 2533 2489 3.36 R
Residuo grande R
X poco común X Everardo Santiago Rendón
no existe varianza constante
Everardo Santiago Rendón
Posible independencia (no hay patrón discernible)
Everardo Santiago Rendón
Posible carencia de
distribución normal del error
Everardo Santiago Rendón
Valor P = 0.022 < a=0.05, por lo cual no
existe distribución normal del error
Everardo Santiago Rendón
Everardo Santiago Rendón
Análisis del modelo de regresión lineal
Modelo Ecuación de regresión
de Newsprint Consumption = - 811 + 0.2260 Number of Families
regresión
lineal
múltiple 𝑦ො = −811 + 0.2260 𝑥
• Gráfica de probabilidad normal y la prueba
de normalidad muestran que no existe
distribución normal del error.
Análisis de • Gráfica de residuales vs ajustados se
residuales determina que no existe hay varianza
(error) constante.
• Gráfica de residuales vs orden, hay un
patrón en los residuales por lo cual hay
independencia
Everardo Santiago Rendón
Everardo Santiago Rendón
Análisis del modelo de regresión lineal
Modelo de regresión 𝑦ො = −811 + 0.2260 𝑥
lineal múltiple
• 𝑅2 = 0.4348 no adecuado
Modelo • Se rechaza H0 en prueba t para 𝛽1
(significativa), no se rechaza para 𝛽0 ,
Conclusión: El modelo de regresión lineal no es
adecuado en la parte del error, no tiene varianza
constante, ni distribución normal y no es
independiente, tampoco R2 es significativa es más
cercana a cero que a 1.
Everardo Santiago Rendón
c. Consider a log transformation of newsprint consumption and a
simple linear regression model relating (newsprint consumption)
to families. Fit this model.
En las transformaciones de Box-Cox, usando un l =0,
para logaritmo natural y sin modificar nada más
Everardo Santiago Rendón
c. Consider a log transformation of newsprint consumption and a
simple linear regression model relating (newsprint consumption)
to families. Fit this model.
Método Indica que se
transformación de Box-Cox λ=0 cálculo ln 𝑦
Ecuación de regresión
ln(Newsprint Consumption) = 5.699 + 0.000134 Number of Families
Por valor P=0.000 vs a=0.05, Se rechaza H0 para b0, (constante)
Por valor P=0.001 vs a=0.05, se rechaza H0 para b1, (number of families)
Coeficientes para respuesta transformada
Término Coef EE del coef. Valor T Valor p FIV
Constante 5.699 0.330 17.26 0.000
Number of Families 0.000134 0.000034 4.00 0.001 1.00
Everardo Santiago Rendón
Resumen del modelo para respuesta transformada
S R-cuad. R-cuad.(ajustado) R-cuad.(pred)
0.488968 43.24% 40.54% 27.67%
R2=0.4324, más cercano a cero que a 1, no adecuado
Análisis de varianza para respuesta transformada
Fuente GL SC Sec. MC sec.Valor F Valor p
Regresión 1 3.8252 3.8252 16.00 0.001
Number of Families 1 3.8252 3.8252 16.00 0.001
Error 21 5.0209 0.2391
Falta de ajuste 20 4.5877 0.2294 0.53 0.815
Error puro 1 0.4332 0.4332
Total 22 8.8461
Everardo Santiago Rendón
Ajustes y diagnósticos para todas las observaciones Respuesta transformada
Obs Newsprint Consumption' Ajuste Resid Resid est.
1 6.868 6.852 0.016 0.03
2 6.151 6.620 -0.470 -1.00
3 6.321 7.024 -0.703 -1.47
4 7.132 7.358 -0.225 -0.48
5 6.805 6.627 0.178 0.38
6 7.244 7.544 -0.301 -0.66 Ajustado
7 7.537 6.698 0.839 1.77 grande
8 6.825 6.597 0.228 0.49
9 6.203 6.694 -0.491 -1.04
10 6.273 6.628 -0.355 -0.75
11 6.190 6.691 -0.501 -1.06
12 7.133 6.694 0.439 0.93
13 6.778 6.816 -0.038 -0.08
14 6.457 6.907 -0.450 -0.94
15 8.099 7.280 0.819 1.74
16 7.812 8.235 -0.423 -1.19 X
17 6.820 6.846 -0.025 -0.05
18 6.263 6.886 -0.622 -1.30
19 7.055 6.844 0.211 0.44
20 7.037 6.626 0.411 0.87
21 6.887 6.646 0.241 0.51
22 7.549 7.163 0.386 0.81
23 8.522 7.684 0.838 1.89
Newsprint Consumption' = respuesta transformada
X poco común X Everardo Santiago Rendón
varianza constante
Everardo Santiago Rendón
Posible independencia (no hay patrón discernible)
Everardo Santiago Rendón
Posible distribución normal del
error (hacer prueba de
normalidad)
Everardo Santiago Rendón
Valor P = 0.208 > a=0.05, por lo cual
hay distribución normal del error
Everardo Santiago Rendón
Everardo Santiago Rendón
Análisis del modelo de regresión lineal
Ecuación de regresión
Modelo de ln(Newsprint Consumption)= 5.699 + 0.000134 Number of Families
regresión
lineal
simple ln 𝑦ො = 5.699 + 0.000134 𝑥
• Gráfica de probabilidad normal y la prueba
de normalidad muestran que existe
distribución normal del error.
Análisis de • Gráfica de residuales vs ajustados se
residuales determina que hay varianza constante.
(error) • Gráfica de residuales vs orden, hay un
patrón en los residuales por lo cual hay
independencia
Everardo Santiago Rendón
Everardo Santiago Rendón
Análisis del modelo de regresión lineal
Modelo de regresión ln 𝑦ො = 5.699 + 0.000134 𝑥
lineal múltiple
• 𝑅2 = 0.4324 no adecuado
Modelo • Se rechaza H0 en prueba t para 𝛽1 y
𝛽0 , (significativas),
Conclusión: El modelo de regresión lineal es adecuado
en la parte del error, tiene varianza constante, y
distribución normal y es independiente, R2 no es
significativa es más cercana a cero que a 1.
Everardo Santiago Rendón
Modelo de regresión lineal Modelo de regresión lineal
simple simple con transformación
Box-Cox
𝑦ො = −811 + 0.2260 𝑥 ln 𝑦ො = 5.699 + 0.000134 𝑥
• Varianza constante, • no existe distribución normal del
• distribución normal error.
• independiente, • no existe hay varianza constante.
• 𝑅2 = 0.4324 no • hay independencia
adecuado • 𝛽1 (significativa), 𝛽0 (no
• 𝛽1 y 𝛽0 , (significativas), significativa)
• 𝑅2 = 0.4348 no adecuado
Mejor modelo
Everardo Santiago Rendón
Bibliografía
• Anderson, David R.; Sweeney, Dennis J.; Williams, Thomas A. (2011). Estadística
para negocios y economía. 11a. edición. Cengege Learning.
• Bowerman, Bruce L., O’Connell, Richard T., Koehler, Anne B. (2006). Pronósticos,
Series de Tiempo y regresión. 4a. Edición. Thomson Learning. México.
• Gutiérrez Pulido, Humberto; De la Vara Salazar, Román. (2008). Análisis y Diseño
de Experimentos. 2a. edición. McGraw-Hill/Interamericana. México.
• Hanke, John, Wichern, Dean W. (2014). Business Forecasting. Ninth Edition.
Pearson Education Limited, England, UK.
• Montgomery, Douglas C., Peck, Elizabeth, A., Vining, Geoffrey G., (2001).
Introducción al análisis de regresión lineal.3a. edición. CECSA. México.
• Montgomery, Douglas C. (2013). Design and Analysis of Experiments. Eighth
Edition. John Wiley & Sons, Inc. New Jersey , USA.
Everardo Santiago Rendón