Tema
18 REGRESIÓN Y
CORRELACIÓN
MULTIPLE
OBJETIVOS
Al finalizar la Sesión 18, el participante será capaz de:
1. Construir un modelo utilizando dos o más
variables explicativas.
2. Probar una hipótesis para aceptar la validez de
un modelo de regresión múltiple
3. Realizar pruebas de hipótesis individuales para
descartar aquellas variables no significativas en
un modelo de regresión múltiple
4. Calcular en interpretar medidas de asociación
múltiples.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
5. Entender la importancia de los residuos en el
análisis de regresión.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
CONTENIDO
1. El modelo de regresión múltiple
2. Deducción de la ecuación de regresión
múltiple.
3. La computadora y la regresión múltiple
4. Inferencias sobre parámetros de la
población.
5. Técnicas de modelado
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
18.1 El modelo
La regresión múltiple y el análisis de correlación
múltiple consiste en estimar una variable
dependiente, utilizando dos o más variables
independientes.
El modelo genérico será
Yˆ f (X1 , X 2 , X3 ,....)
Variable Variables
dependiente independientes
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Ejemplos
1. La cantidad de pacientes de enfermedades
respiratorias, dependen de la variación del
clima, el nivel nutricional del paciente y de la
calidad de sus viviendas entre otros factores.
2. La duración de la hospitalización depende del
tipo de afección, de la gravedad de la afección,
de la presencia de complicaciones, del sexo, de
la edad y peso del paciente, entre otros
factores.
3. El nivel de colesterol de un paciente podría ser
explicado por la edad, el peso, el nivel de
hemoglobina y el perímetro abdominal.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
La ventaja
Permite utilizar más información disponible para
estimar la variable dependiente de una manera
confiable.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Proceso
En el proceso de regresión y correlación múltiple,
se debe:
1. Describir la ecuación de regresión múltiple.
2. Examinar el error estándar de regresión
múltiple de la estimación.
3. Utilizar la ecuación de regresión para
determinar qué tan bien describe los datos
observados.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Alcance
1. Permite ajustar los datos tanto a curvas como a
rectas.
2. Se puede incluir variables cualitativas,
haciendo uso de las “variables ficticias”.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
18.2 La ecuación de regresión múltiple
La forma simbólica de la ecuación lineal con dos
variables independientes:
donde: Ŷ b0 b1X1 b 2 X 2
Ŷ : Valor estimado correspondiente a la variable
dependiente
b 0 : intersección con el eje Y.
X1 y X 2 : valores de las dos variables independientes.
b1 y b2 : pendientes asociadas con X1 y X2
respectivamente
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Visualización: se puede representar una
ecuación de regresión múltiple con dos
variables, como un plano
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
El método de mínimos cuadrados
El problema consiste en decidir cuál de los planos
posibles que podemos dibujar, será el que mejor se
ajuste
El método de mínimos cuadrados garantiza que la
suma de los cuadrados de los errores es mínimo. Las
ecuaciones normales serán
Y nb 0 b1 X1 b2 X2
1X Y b 0 X 1 b1 X 1 b 2 X1X 2
2
2X Y b 0 X 2 b 1 X 1 X 2 b 2 X 2
2
Donde bo, b1 y b2 son los coeficientes de regresión
estimados.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Aplicación
En el siguiente caso, interesa construir un modelo
para determinar los niveles de colesterol,
conociendo el peso (en Kg), el diámetro de la
cintura (en cms) y el nivel de hemoglobina (en grs.)
COLESTEROL PESO CINTURA HEMOGLOBINA
250 76 80 13.5
220 61 72 12.1
200 50 70 11.6
350 94 122 12.5
210 55 75 13.5
205 61 95 14
285 80 120 12.5
190 52 68 14.5
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Al aplicar las ecuaciones normales a los datos
obtenemos los siguientes coeficientes de regresión:
bo = 121,704 b1 = 2,949
b2 = 0,276 b3 = -7,843
Construyendo la siguiente ecuación de regresión:
Ŷ 121,704 + 2,949 X1+ 0,276X2 - 7,843X3
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
18.3 El error estándar de la regresión
múltiple (Syx)
Es una medida de dispersión la
estimación se hace más precisa
conforme el grado de dispersión
alrededor del plano de regresión se
hace mas pequeño.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Para medirla se utiliza la formula:
Sy x ( Y Ŷ ) 2
n k 1
donde:
Y : Valores observados en la muestra
Yˆ : valores estimados a partir a partir de la
ecuación de regresión
n : número de datos
k : número de variables independientes
En los resultados de Excel se llama error típico y para el
caso de colesterol que se viene desarrollando es 14,89
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
18.4 El coeficiente de determinación
múltiple (r2)
Mide la tasa porcentual de los cambios de Y
que pueden ser explicados por X1, X2 y X3
simultáneamente.
SCregresión
r
2
SCtotal
19950,57
r 2
0,95
20837,5
Interpretación: El 95% de los cambios en el nivel
de colesterol de un paciente puede ser explicado
por el peso, perímetro abdominal y nivel de
hemoglobina.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Coeficiente de determinación múltiple ajustado (r2a)
Hay personas que prefieren “ajustar” el r2 de acuerdo a:
n = número de datos
k = número de variables independientes
r 1 1 r
2
a n 1
n k 1
2
8 1
r 1 1 0,95
2
0,9125
8 3 1
a
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Coeficiente de correlación: r
r r2
Para el caso de colesterol, tenemos:
r 0,95 0,9746
De acuerdo al valor de r podemos afirmar que
las variables peso, perímetro abdominal y
hemoglobina se encuentran asociadas en forma
directa, de una manera muy fuerte.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Los resultados de Excel nos da la siguiente
información:
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.97 r
Coeficiente de determinación R2 0.95 r2
R2 ajustado 0.92 r 2a
Error típico 14.89 Syx
Observaciones 8
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
18.5 La prueba global del modelo
No se debe perder de vista que como
trabajamos con una muestra, sólo tendremos
estimaciones de los parámetros.
El modelo de la muestra es
Ŷ b0 b1X1 b 2 X2
Para el ejemplo será:
Ŷ 121,704 + 2,949 X1+ 0,276X2 - 7,843X3
que estima al modelo de la población:
Y = o + 1X1 + 2X2 + 3X3
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
1. Formulación de hipótesis
Hp : 1 = 2 = 3 = 0
Ha : 1 2 3 0
Si se acepta la hipótesis planteada, significa
que ninguno de los factores (X1,X2 y X3) son
relevantes para explicar los cambios en Y.
2. Determinación del nivel de significación
= 0,10
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
3. Selección de la prueba estadística:
Se realiza a partir del Análisis de Varianza de la
Regresión y tiene como objeto aceptar o rechazar
la validez del modelo.
CMeregresión
F
CMeresiduos
4. Determinación el criterio de decisión
El valor de F tabular se determina con 3
y 4 grados de libertad y /2 = 0,05
Si Fc es > 6,59 se rechaza la Hp
/2=0,01
(1 -
0,95
F
2
6,59
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
5. Cálculos
6650,19
Fc 29,99
221,73
Lo que se puede verificar con la salida de Excel.
El p-valor es 0,003 y como es menor al valor del
nivel de significación, por lo tanto se rechaza la Hp.
Resultado en Excel
GL SC CMe F p-valor
calculado
Regresión 3 19950.57 6650.19 29.99 0.003
Residuos 4 886.926 221.73
Total 7 20837.5
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
6. Conclusiones
A. Se rechaza la hipótesis planteada, se acepta la
alternante a un nivel de significación de 0,10. La
prueba resultó ser significativa.
B. Hay evidencia muestral suficiente para rechazar
la hipótesis planteada
C. Probablemente al menos uno de los factores
seleccionados (peso, diámetro de la cintura y
hemoglobina) explican el nivel de colesterol en
un paciente.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
18.6 Hipótesis sobre parámetros en la
ecuación de regresión
Una vez que se realiza la prueba global del
modelo, y se concluye que al menos uno de
los factores tiene efecto significativo sobre Y
(nivel de colesterol), se deberá a probar
cada uno de los factores, a fin de determinar
cuál o cuales factores permanecen en el
modelo, y cuales son descartados.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
(A) Hipótesis acerca de una pendiente
individual: B1
Procedimiento
1) Planteo de hipótesis
Hp : 1 = 0
Ha : 1 0
2) Nivel de significación
= 0,10
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
3) Prueba estadística
b1 B1
tc
Sb1
donde
bi : pendiente de la regresión ajustada
(muestra)
Bio : pendiente real hipotizada para la población
Sbi : error estándar del coeficiente de regresión
con los supuestos
a) la población normal con , 2
b) la muestra fue seleccionada al azar
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
4) Criterios de decisión
t con Gl = n - k - 1
=8-3-1=6
= 0,10
-1,94318 1,94318
Si 1,94318 tc -1,94318 se acepta Hp, en caso
contrario se rechaza
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
b1 B10
5) Cálculos tc
Sb1
Sy x
Sb1 0,704
nx
2 2
X
Resultados en Excel
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior Inferior Superior
95% 95.0% 95.0%
Intercepción 121.704 83.00 1.466 0.216 -108.752 352.161 -108.752 352.161
PESO 2.949 0.70 4.189 0.014 0.995 4.904 0.995 4.904
CINTURA 0.276 0.49 0.558 0.607 -1.095 1.646 -1.095 1.646
HEMOGLO -7.843 5.73 -1.37 0.24 -23.74 8.06 -23.74 8.06
BINA
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Reemplazando en la ecuación:
2,949 0
tc
0,704
t c 4,189
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
6) Conclusiones
A. Se rechaza la hipótesis planteada. Se acepta
la hipótesis nula.
B) Existe una diferencia suficientemente grande
entre el valor del estimador b1= 2,949 y el valor
hipotizado del parámetro 1= 0 y que nos
permite concluir que el factor X1 (peso del
paciente) afecta significativamente a Y (nivel
de colesterol).
C) La variable X1 (peso) será considerada en el
modelo de regresión múltiple.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
(B) Hipótesis acerca del coeficiente de
correlación poblacional: (rho)
1. Planteo de hipótesis
Hp : = 0
Ha : 0
2. Nivel de significación
= 0,05
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
3. Criterio de decisión:
-1,94318 1,94318
Si 1,94318 tc -1,94318 se acepta Hp, en
caso contrario se rechaza
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
4. Prueba estadística
r n2
tc
1 r 2
5. Cálculos
0,9746 8 2
tc 10,66
1 0,9746
2
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
6. Conclusiones
A) Se rechaza la hipótesis planteada, se
acepta la hipótesis alternante a un nivel de
significación de 0,10. La prueba fue
significativa.
B) La evidencia empírica permite afirmar que
existe una alta correlación entre los factores
peso, perímetro abdominal y hemoglobina.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
18.7 Análisis de residuos
Multicolinealidad: Varias X tienen alta
asociación entre ellas.
Homoscedasticidad: Residuos constantes
a lo largo de toda la data.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
HOJA DE COMPROBACIÓN
1. La ventaja principal de la regresión multiple con repecto a la
regresión simple consiste en que la primera nos permite usar más
de la información disponible para estimar la variable dependiente
2. Suponga que en la ecuación de regresión Yˆ 24.4 5.6 X 1 6.8 X 2 , Yˆ
múltiple es el peso (en libras) y X2 es la edad (en años). Por cada
año adicional en la edad, entonces, se puede esperar que el peso
aumente en 24.4 libras
3. Aunque teóricamente posible hacer cálculos de regresión múltiple
a mano, muy pocas veces lo hacemos.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
4. Suponga que usted está intentando formar un intervalo de
confianza para un valor de Y de una ecuación de regresión
múltiple. Si existen 20 elementos en la muestra y se utilizan
cuatro variables independientes en la regresión, deberá usar 16
grados de libertad cuando obtenga un valor de la tabla t
5. El error estándar del coeficiente b2 en una regresión múltiple se
denota con S2
6. Suponga que deseamos probar si los valores de Y en una
regresión múltiple realmente dependen de los valores de X1. La
hipótesis nula para nuestra prueba será B1 = 0
7. Para determinar si una regresión es significativa como un todo, se
calcula un valor observado de F y se le compara con un valor
obtenido de una tabla
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
8. Si uno conoce la suma total de cuadrados y la suma de regresión
de cuadrados para una regresión múltiple, la suma de error de
cuadrados puede calcularse siempre rápidamente
9. Ciertos patrones en los signos de los residuos de un modelo de
regresión de segundo grado indican que deberiamos utilizar mejor
un modelo lineal
[Link] regresiones simples de Y sibre X1 y de Y sobre X2 muestran
que X1 y X2 son ambas variables explicativas significativas de Y.
Pero una regresión múltiple de Y sobre X1 y X2 nos dice que ni X1
ni X2 son variables explicativas significativas para Y. Claramente,
éste es un caso de multicolinealidad
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
[Link] variables ficticias son una técnica que puede utilizarse para
incorporar datos cualitaticos en las regresiones múltiples
[Link] se utiliza una variable ficticia con valores 0 y 1, es muy
importante asegurarse de que los ceros y los unos se usen de
acuerdo con la práctica estándar. El invertir la codificación
destruirá completamente los resultados de la regresión múltiple
13. Podemos formar un modelo de regresión de segundo grado si
multiplicamos por dos los valores observados de una variable
independiente
[Link] agregar variables adicionales a una regresión múltiple siempre
reducirá el error estándar de la estimación
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
[Link] que una regresión múltiple ha producido la siguiente
ecuación: Yˆ 5.6 2.8 X 1 3.9 X 2 5.6 X 3 . Si X1, X2 y X3 tienen valor
de cero, entonces se esperaría que Y tuviera el valor de 5.6.
[Link] análisis de residuos en un modelo de regresión líneal se hace
para determinar el valor correcto de Se
17.A pesar de que es posible hacer inferencias acerca de la
regresión como un todo, no es posible hacer inferencias acerca
de los coeficientes de regresión estimados.
[Link] existe un alto nivel de correlación entre variables explicativas,
por lo general es posible separar las contribuciones de tales
variables en una regresión
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
19. El error estándar de los datos de la población se denota con Se
20. Si una regresión incluye a todos los factores explicativos
relevantes, los residuos serán aleatorios
[Link] relación líneal entre variables explicativas con toda
seguridad producirá multicolinealidad en el modelo de regresión
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003