1
Universidad Santa María
Facultad de Ingeniería y Arquitectura
Especialidad: INGENIERÍA VARIAS, CIVIL,
INDUSTRIAL, SISTEMAS.
Cátedra: ESTADÍSTICA.
Profesor: Pedro Camargo.
Horario: De 1,00 Am a 2,30 Pm. DOS HORAS DE CLASE.
Día LUNES:
Día MIERCOLES:
Horario: De 11,30 Am a 2,30 Pm. TRES HORAS DE CLASE.
TOTAL 5 HORAS, CADA SEMANA.
Material de Clase Enviado: En fecha 01 enero de 2021. Día jueves. Hora: 10,00 Am.
Delegado de las Secciónes. A, B, y C.
CHACON LA ROSA, WILLIAM ALEXANDER
Correo:
[email protected] Tlf: 0414-1785505.
C. I. 27.670.801
HORARIO DE LOS PARCIALES: 4,00 PM, AULA 822
PRIMER PARCIAL: FECHA: SEGUNDO PARCIAL: FECHA: TERCER PARCIAL:
FECHAS:
03/11/2020 01/12/2020 09/02/2021
Catedra: ESTADÍSTICA.
Código de la Catedra: 1441-10- 444 / 1441-20-301 / 1441-60-431
TEMA X
Análisis de Regresión Múltiple
Capítulo I
Teórica.
2
El análisis de regresión es un método estadístico que permite examinar la relación entre
dos o más variables e identificar cuáles son las que tienen mayor impacto en un tema de
interés.
Este método permite clasificar matemáticamente a través de diferentes preguntas como:
¿Qué factores importan más? ¿Qué factores se pueden ignorar? ¿Cómo interactúan
estos factores entre sí?, y por último, ¿Qué tan seguro te siente de todos estos factores?
El proceso de realizar una regresión permite determinar con confianza cuáles son los
factores más importantes, cuáles se pueden ignorar y cómo influyen entre sí. Dichos
factores se denominan variables las cuales se clasifican en:
● Variable(s) dependiente(s): Es el factor más importante, el cual se está tratando de
entender o predecir.
● Variable(s) independiente(s): Es el factor que tú crees que puede impactar en tu
variable dependiente.
Tal vez te interese leer este artículo acerca de la investigación de mercados.
Tipos de análisis de regresión
Los diferentes tipos de análisis de regresión son los siguientes:
Modelo de regresión lineal simple
La regresión lineal simple es la técnica más utilizada, es una forma que permite modelar
una relación entre dos conjuntos de variables. El resultado es una ecuación que se puede
utilizar para hacer proyecciones o estimaciones sobre los datos.
Este modelo se considera un predictor x y una variable dependiente o
respuesta Y. Imagina que la verdadera relación entre Y y x es una línea recta y que la
observación Y en cada nivel x es una variable aleatoria.
El modelo de regresión lineal simple se caracteriza por predecir la variable dependiente a
través de la siguiente ecuación:
3
E (Y/x) = 0 + β1 x
Donde la ordenada al origen β0 y la pendiente β1 son coeficientes desconocidos de la
regresión.
Algunos consejos que puedes tomar en cuenta al utilizar el modelo de regresión lineal
simple son:
● Debes tener cuidado al seleccionar las variables con las que se construyen las
ecuaciones de regresión y determinar la forma del modelo.
● Las relaciones de regresión sólo son válidas para los valores del regresor que están
dentro del rango de los datos originales.
Mejora el análisis de datos en tu investigación de mercados con estos consejos que
tenemos para ti.
Modelo de regresión lineal múltiple
La regresión lineal múltiple es una técnica estadística que se encarga de analizar
situaciones que involucran más de una variable.
Este método permite identificar cuáles son las variables independientes son las que
pueden explicar una variable independiente, comprobar las causas y predecir de forma
aproximada los valores
El modelo de regresión lineal múltiple puede ser descrito a partir de la siguiente ecuación:
Y = 0 + β1X1 + β2X2 +… + βnXn + ε
Donde Y es una variable dependiente, β representa sus estimadores y la ε representa el
residuo o error.
Modelo de regresión no lineal
La regresión no lineal es un proceso más complicado donde puede ocurrir que en el
número de parámetros no coincida con el de variables explicativas.
4
Un ejemplo de un modelo no lineal en los parámetros sería el dado por la siguiente
función exponencial:
Υ= αΧβ
En muchas ocasiones se pueden transformar las variables originales para convertir la
función no lineal en una lineal y así, aplicar dichas técnicas. Por lo tanto, si la no linealidad
afecta solamente a las variables explicativas pero no a los coeficientes, se pueden definir
nuevas variables.
Te recomiendo leer este artículo sobre el análisis de datos para el crecimiento de tu
negocio.
Importancia del análisis de regresión
El análisis de regresión es útil para una organización, ya que permite determinar el grado
en que las variables independientes influyen en las variables dependientes. Además,
permite explicar un fenómeno y predecir cosas acerca del futuro, además de obtener
información empresarial valiosa y accionable.
Este método ofrece información sobre la organización de los costos y cómo las funciones
de las variables pueden afectar al producto.
Realizar un análisis de regresión te permitirá tomar decisiones empresariales más
informadas y eficientes y desarrollar estrategias para mejorar la calidad de tus productos y
servicios, lo que posteriormente beneficiará los ingresos en tu organización.
El análisis de regresión múltiple permite entender la relación entre dos o más variables.
Implica una variable explicada – la variable dependiente – y variables adicionales (las
variables independientes) que se estima producen o están asociadas con cambios de la
variable dependiente.
Utilizamos regresión múltiple cuando estudiamos la posible relación entre varias
variables independientes (predictoras o explicativas) y otra variable dependiente (criterio,
explicada, respuesta).
5
La regresión lineal múltiple trata de ajustar modelos lineales o linealizables entre una
variable dependiente y más de una variables independientes. En este tipo de modelos es
importante testar la heterocedasticidad, la multicolinealidad y la especificación.
En estadística, el análisis de la regresión es un proceso estadístico para estimar las
relaciones entre variables. ... El análisis de regresión se utiliza
también para comprender cuales de las variables independientes están relacionadas con
la variable dependiente, y explorar las formas de estas relaciones.
Sería multicolinealidad cuando la relación lineal fuerte se produce entre más de dos
variables independientes. El supuesto de Gauss-Markov sobre
no multicolinealidad exacta define que las variables explicativas en una muestra no
pueden ser constantes.
Capítulo II
Ejercicio Práctico Ilustrativo.
Ejercicio N° 1
Como parte de un estudio para investigar la relación entre la tensión nerviosa (estrés) y otras
variables (tamaño de la empresa, número de años en la posición actual, salario anual en miles de
dólares, edad en años), se reunieron los siguientes datos a partir de una muestra aleatoria simple
de quince ejecutivos de una empresa.
La salida de análisis con SPPS es:
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ.
Estrés 15 10 184 67.20 51.164
Tamaño empresa 15 127 812 415.73 187.513
Años en posición 15 2 16 8.27 4.148
15 20 38.60 16.745
Salario anual 84
15 44.53 10.947
Edad 27 63
15
N válido (según lista)
6
Resumen del modelo
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación
1 .918a .842 .779 24.031
a. Variables predictoras: (Constante), Edad, Tamaño empresa, Salario
anual, Años en posición
ANOVAb
Suma de Media
cuadrados cuadrátic
Modelo gl a F Sig.
1 Regresión 30873.46 4 7718.367 13.36 .001a
Residual 8 1 577.493 5
Total 5774.932 0
36648.400 14
a. Variables predictoras: (Constante), Edad, Tamaño empresa, Salario anual, Años en posición
b. Variable dependiente: Estrés
Coeficientes
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) - 32.28 .64 - .00
Tamaño empresa 126.505 1 6 3.91 3
Años en posición .176 - .04 -.12 9 .00
Salario anual 1.563 0 7 .5 4.39 1
1.57 2.012 .44 15 7 .45
Edad
5 6 -.777 5
.349
1.62 3.53 .00
.62
3 5
9
7
9 2.59 .02
1 7
a. Variable dependiente: Estrés
a) Escriba la recta de regresión múltiple estimada a partir de estos datos. Interprete los
coeficientes de regresión.
b) ¿Cuál es el valor del coeficiente de determinación que usaría para describir la bondad de
ajuste del modelo? Interprételo en términos del problema de regresión
c) Examine los tests t de los coeficientes de regresión. ¿Le parece que es este un modelo
adecuado para describir el estrés o propone otro?
d) Qué supuestos se deben cumplir para la utilización de este modelo.
e) Dé un estimador de la desviación estándar poblacional. ¿A qué se refiere esta medida de
variabilidad?
Solución 1 (a):
La recta de regresión es:
Estrés=−126,505+0,176Tamaño−1,563Años+1,575Salario+1
,629Edad
Interpretación de los coeficientes de regresión:
Intercepto=-126,505 Si el tamaño de la empresa, el número de años, el salario y la edad fueran
cero, es decir, si todas las variables explicativas fueran cero, el puntaje de estrés del ejecutivo sería
menos 126,505
8
Pendiente de Tamaño: Por cada unidad que aumenta el tamaño de la empresa, el estrés del
ejecutivo aumenta en 0,176 unidades.
Pendiente de Años: Por cada año en posición actual, el estrés del ejecutivo disminuye en 1,563
puntos.
Pendiente de Salario: Por cada mil dólares que aumenta el salario, el estrés del ejecutivo aumenta
en 1,575 puntos.
Pendiente de la edad: por cada año de edad, el estrés del ejecutivo aumenta en 1,629 puntos.
Solución 1 (b):
El coeficiente de determinación que se usa en regresión lineal múltiple es el R 2 ajustado, que en
este caso es de 0,779.
Este coeficiente nos indica que las variables usadas en el modelo explican en un 77,9% la
variabilidad total del estrés.
Solución 1 (c):
Los test t de los coeficientes de regresión sirven para docimar la hipótesis:
Ho: βj =0
H1: βj ≠0 En este problema tenemos 4 tests de esta forma (j=1,2,3,4).
Al examinar los valores p correspondientes a cada uno de los tests nos damos cuenta que casi
todas las pendientes son significativas (distintas de cero), salvo la de la variable Años en posición
9
actual, cuyo valor p es 0,455, por lo tanto aceptamos la hipótesis nula, y concluimos que la
pendiente es igual a cero.
Por lo tanto este no sería un modelo adecuado para describir el estrés de los ejecutivos,
deberíamos ajustar otro modelo sin la variable "Años en posición actual".
Solución 1 (d):
Los supuestos que debe cumplir el modelo son:
1) Linealidad: La relación entre la variable respuesta y las explicativas debe ser lineal
2) Nocolinealidad: las variables explicativas no deben estar correlacionadas entre sí
3) Normalidad de los residuos
4) Homocedasticidad de los residuos (varianza constante).
Solución 1 (e):
El estimador de la desviación estándar poblacional es 24,031 o la raíz de la media cuadrática
residual: raíz de 577,493= 24,03
Este es un estimador de la variabilidad del estrés considerando las variables explicativas del
modelo, y lo podemos contrastar con el estimador de la variabilidad del estrés de 51,164 que es la
desviación estándar del estrés sin tomar en cuenta estas variables.
Ejercicio N° 2
En un estudio de la Seguridad e Higiene en el Trabajo se contrastó la incidencia del
tabaquismo en la gravedad de los accidentes laborales. Considerando una
gradación de Muy fumador hasta No fumador como media del tabaquismo, y una
gradación de Muy grave a Leve en el tipo de accidente. Se extrajo una muestra de
525 individuos que habían sufrido un accidente laboral. Los resultados se
presentan en la siguiente tabla de contingencia(tabla de doble entrada):
Muy Grave Lesiones Leves
10
Grave Med
Muy Fumador 20 1 10 3
0 0
Fumador 30 4 20 5
0 0
Fumador 10 6 80 6
Esporádico 0 0
No Fumador 5 2 30 5
0 0
Se pide:
1. Representar los datos anteriores gráficamente
2. Calcular las distribuciones marginales para cada una de las variables de
estudio.
3. Construir una tabla de distribución de frecuencias porcentuales donde
aparezcan las distribuciones de la variable de tipo de Lesión condicionada a
cada una de las variables del Fumador.
4. Estudiar si las variables están asociadas o no por medio de una medida
descriptiva. Realizar un análisis gráfico y comentar los resultados.
SOLUCIÓN:
a)
11
b) Se obtiene a partir de la tabla de doble entrada sumando las frecuencias y las filas, o
bien por columnas según el caso.
Marg. Tabaquismo FREC. Marg.Accid. Lab. FREC.
Muy fumador 70 Muy grave 65
Fumador 140 Grave 130
Fumador Esporádico 210 Lesión media 140
No fumador 105 Leve 190
525 525
c) La distribución de una variable condicionada a que otra variable tome un determinado
valor de la distribución de frecuencias de la variable cuando mantenemos fijo el valor
condicionante de otra variable.
Muy Grave Grave Lesión Med. Leve
12
Muy Fum. 28.57 14.29 14.29 42.86 100%
Fumador 21.43 28.57 14.29 35.71 100%
Fum.Espor. 4.76 28.57 38.10 28.57 100%
No Fum. 4.76 19.05 28.57 47.62 100%
Marg.Lesión 12.38 24.76 26.67 36.19 100%
Como ejemplo del cálculo de la distribución porcentual del Tipo de lesión condicionado
al individuo sea Muy Fumador se realizará dividiendo cada una de las frecuencias de la
fila Fumador entre el número total de Muy Fumadores y después multiplicariamos como
((20/70)*100=28.57; (10/70)*100=14.29,…).
d) (Este apartado lo vamos a realizar sobre una misma tabla)
La medida descriptiva de la asociación entre las variables viene dada a través de la
medida que indica la distancia relativa que existe entre la tabla de frecuencias
observadas en la tabla de frecuencias esperadas si las variables fueran independientes.
La expresión para las frecuencias esperadas es la siguiente:
Donde E es la frecuencia esperada en la celda (i,j), F es la suma de las frecuencias de f y
C es la suma de las frecuencias de la fila j.
La distancia relativa al cuadrado que existe entre una celda de la tabla de frecuencias
observadas es la misma celda de la tabla de esperadas viene dada por:
Y la suma de todas ellas recibe el nombre de x 2(ji-cuadrado).
13
Por otra parte podemos estudiar cuáles son los pares de categorías que influyen en mayor
medida en la existencia de la asociación. Este lo realizaremos por medio de análisis
gráfico atendiendo al siguiente criterio:
[zij]<1.645, le asignaremos el símbolo . (influencia muy débil)
1.645<[zij] 1.960, le asignamos o. (influencia débil)
1.960<[zij] 2.576 le asignamos O (influencia fuerte)
[zij] >2.576, le asignamos @ (influencia muy fuerte)
La tabla donde se refleja lo expuesto es la siguiente:
Muy Grave Grave Lesión Med. Leve Marg.Tab
M.F Obs. 20 10 10 30 70
M.F Esp 8.667 17.333 18.667 25.333 70
M.F z 3.850 -1.761 -2.006 0.927 70
M.F Sim. @ O O . 70
F. Obs. 30 40 20 50 140
F Esp. 17.333 34.667 37.333 50.667 140
F: z 3.043 0.906 -2.837 -0.094 140
F. Sim. @ . @ . 140
F.E Obs. 10 60 80 60 210
F.E Esp. 26 52 56 76 210
F.E z -3.138 1.109 3.207 -1.835 210
14
F.E Sim. @ . @ O 210
No F. Obs. 5 20 30 50 105
No F. Esp. 13 26 28 38 105
No F. z -2.219 -1.177 0.378 1.947 105
No F. Sim.. O O . o 105
Marg. Lesión 65 130 140 190 525
X2 = 75.917 este valor depende del tamaño de la muestra y de la forma de la tabla, por
tanto utilizaremos el valor V de Cramer como medida descriptiva de la asociación entre
variables, esta medida está comprendida entre 0 y 1, siendo las variables independientes
cuando vale 0 y existiendo asociación perfecta cuando vale1. La expresión para V es:
En este caso vale 0.220.
Ejercicio N° 3
En un estudio sobre el sexismo en el trabajo se contrastaron los variables sexo y
nivel de ingresos. Los resultados obtenidos sobre una muestra de 528 individuos se
presentan en una tabla de doble entrada:
Alto Medio Bajo Bajo
Hombre 50 135 78
Mujer 20 147 98
Se pide:
15
a) Representar gráficamente las variables en estudio.
b) Calcular una medida descriptiva del nivel de asociación entre ambas variables.
Realizar un análisis gráfico y analizar los resultados.
SOLUCIÓN:
a)
b)
Alto Medio Bajo Marg.Sexo
Hombre Obs. 50 135 78 263
Hombre Esp 34.867 140.466 87.667 263
Hombre z. 2.563 -0.461 -1.032 263
Hombre Sim. O . . 263
Mujer Obs. 20 147 98 265
Mujer Esp. 35.133 141.534 88.333 265
Mujer z. -2.553 0.459 1.029 265
Mujer Sim. O . . 265
16
Marg. Salario 70 176 176 528
V=0.172
Estudien con Tiempo y Justo a Tiempo.
Buena suerte.
Pedro Camargo.