DiapositivasI 1
DiapositivasI 1
3
PROPÓSITO DEL ANÁLISIS
ECONOMÉTRICO: OBJETIVOS Y
UTILIDAD, CORRELACIÓN Y REGRESIÓN,
TIPOS DE MODELOS Y METODOLOGÍA
ECONOMÉTRICA 4
¿Qué es y para qué sirve la econometría?
TEORÍA La econometría es el instrumento
ECONÓMICA matemático – estadístico que se usa en
el ámbito de la economía y la empresa
MATEMÁTICAS
ESTADÍSTICA
para explicar relaciones estocásticas
ECONOMETRÍA entre variables. Mediante la
modelización de dichas relaciones
podemos explicar hechos pasados y
INFORMÁTICA SENTIDO COMÚN predecir en el futuro.
6
Correlación, causalidad y regresión
• En estadística, el análisis más básico que nos permite caracterizar la relación entre variables cuantitativas es
el análisis de correlación lineal. El coeficiente de correlación lineal es una medida estadística que da
información sobre el signo e intensidad de la relación entre dos variables cuantitativas (−1 ≤ 𝒓 ≤ 1).
• Sin embargo, recordemos que una elevada correlación o un buen ajuste en un análisis de regresión no
implica la existencia de una relación de causalidad entre las variables implicadas, es decir, que una relación
estadística no implica una relación causal. Debe distinguirse por tanto entre causalidad y casualidad.
• Las correlaciones fruto de la casualidad las conocemos como correlaciones espurias.
7
Fuente: www.tylervigen.com
• Diremos por tanto que la variable Y depende (es función) de la variable o las variables X.
𝑌 = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑘 )
“El análisis de regresión trata del estudio de la dependencia de la variable dependiente, respecto a una o más 8
variables (las variables explicativas), con el objetivo de estimar y/o predecir la media o valor promedio poblacional
de la primera en términos de los valores conocidos o fijos de las últimas.” (Gujarati, 2003)
Correlación, causalidad y regresión
Atendiendo a las características del modelo planteado, se puede distinguir entre los siguientes tipos de modelos:
• Según la estructura de los datos de los que dispongamos para el análisis econométrico, hablaremos de:
• Modelos con datos de corte transversal: Datos para un conjunto de observaciones en un mismo momento (Ejemplo: Estudio de la relación
entre el gasto mensual y el descuento acumulado en cupones de los clientes de un supermercado en el mes de enero de 2020)
• Modelos con datos de corte temporal: Datos para una única observación a lo largo del tiempo (Ejemplo: Estudio de la relación entre el gasto
mensual y el descuento acumulado en cupones de un cliente entre enero de 2019 y enero de 2021.)
• Modelos con datos de panel: Datos para un conjunto de observaciones a lo largo del tiempo (Ejemplo: Estudio de la relación entre el gasto
mensual y el descuento acumulado en cupones de los clientes de un supermercado entre enero de 2019 y enero de 2021.)
11
Especificación y notación del modelo econométrico
• Modelo de regresión lineal simple
𝑌𝑖 = 𝛽𝑜 + 𝛽1 𝑋𝑖 + 𝑢𝑖 <- Función de regresión poblacional
𝑌𝑖 𝛽መ1
𝑌𝑖 = 𝑌𝑖 + 𝑢ො 𝑖 𝑢ො 𝑖
𝑌𝑖
▪ Y: Variable explicada, endógena o dependiente
▪ X: Variable explicativa, exógena o independiente
መ Estimadores de los parámetros poblacionales
▪ 𝛽´s: 𝛽መ𝑜
▪ 𝑢:
ො Término de error o término de perturbación aleatoria 12
𝑋𝑖 X
Especificación y notación del modelo econométrico
¿Cómo se expresaría en forma
¿Cómo sería la base de datos matricial?
para construir este modelo? 𝑌𝑖 = 𝛽መ𝑜 + 𝛽መ1 𝑋𝑖 + 𝑢ො 𝑖
𝑌𝑖 𝑋𝑖
𝑌1 𝑋1
𝑌2 𝑋2 𝑌 = 𝑋𝛽መ + 𝑈
𝑌3 𝑋3
𝑌1 1 𝑋1 𝑢ො 1
… … 𝑌2 1 𝑋2 𝑢ො 2
𝑌𝑛 𝑋𝑛 𝑌3 1 𝑋2 𝛽መ𝑜 𝑢ො 3
= × +
⋮ ⋮ ⋮ 𝛽መ1 ⋮
⋮ ⋮ ⋮ ⋮ 13
𝑌𝑛 1 𝑋𝑛 𝑢ො 𝑛
Especificación y notación del modelo econométrico
precio con respecto a sup (con ajuste mínimo-cuadrático)
3000
𝑌𝑖 = 𝛽መ𝑜 + 𝛽መ1 𝑋𝑖 + 𝑢ො 𝑖
Y = -435. + 2.68X
𝑌𝑖 = 𝛽𝑜 + 𝛽1 𝑋𝑖 + 𝑢𝑖
2500
𝑌𝑖 𝑋𝑖
precio
350 258,3 1500
360 330,8
1000
365 292,6
… … 500
2500,5 900,0 0
300 400 500 600 700 800 900 1000 1100
sup 14
Precio Superficie
2500
𝑌𝑖 𝑋𝑖
350 258,3
2000
360 330,8
precio
365 292,6 1500
… …
1000
2500,5 900,0
500
15
0
300 400 500 600 700 800 900 1000 1100
sup
Especificación y notación del modelo econométrico
• Modelo de regresión lineal múltiple
17
Especificación y notación del modelo econométrico
¿Cómo se expresaría en forma
¿Cómo sería la base de datos matricial?
para construir este modelo?
18
Especificación y notación del modelo econométrico
Precio Superficie Gar Tipo_
𝑌𝑖 𝑋𝟏𝑖 𝑋𝟐𝑖 muni.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝑢𝑖
𝑋𝟑𝑖
350 258,3 3 0
360 330,8 3 0 𝑌𝑖 = 𝛽መ0 + 𝛽መ1 𝑋1𝑖 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 + 𝑢ො 𝑖
365 292,6 3 0
… … … …
2725 1200,0 7,5 1
19
𝑃𝑟𝑒𝑐𝑖𝑜𝑖 = −705,2 + 2,2𝑆𝑢𝑝𝑖 + 129,3𝐺𝑎𝑟𝑖 + 101,3𝑡𝑖𝑝𝑜_𝑚𝑢𝑛𝑖𝑖 + 𝑢𝑖
El papel de la perturbación aleatoria en el modelo de
regresión lineal
El término de error aparece como consecuencia de todos los factores omitidos en el modelo
que tienen influencia sobre la variable endógena (Y).
60
2500
55
50 2000
foodexp
45
temp
1500
40
35 1000
30
500
25
20 0
0.26 0.28 0.3 0.32 0.34 0.36 0.38 0.4 0.42 0.44 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
demand income
𝑢ො 𝑖 = (𝑌𝑖 − 𝛽መ0 − 𝛽መ1 𝑋1𝑖 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖 )
𝒏 𝒏 23
𝟎 − 𝜷
ෝ 𝟐𝒊 = (𝒀𝒊 − 𝜷
𝒖 𝟏 𝑿𝟏𝒊 − 𝜷
𝟐 𝑿𝟐𝒊 − 𝜷
𝟑 𝑿𝟑𝒊 − ⋯ − 𝜷
𝒌 𝑿𝒌𝒊 )𝟐
𝒊=𝟏 𝒊=𝟏
Estimación de los parámetros
• ESTIMADOR MÍNIMO CUADRÁTICO (MCO)
𝒏 𝒏
𝟎 − 𝜷
ෝ 𝟐𝒊 = 𝒎𝒊𝒏 (𝒀𝒊 − 𝜷
𝒎𝒊𝒏 𝒖 𝟏 𝑿𝟏𝒊 − 𝜷
𝟐 𝑿𝟐𝒊 − 𝜷
𝟑 𝑿𝟑𝒊 − ⋯ − 𝜷
𝒌 𝑿𝒌𝒊 )𝟐
𝒊=𝟏 𝒊=𝟏
𝛿 σ𝑛𝑖=1(𝑌𝑖 − 𝛽መ0 − 𝛽መ1 𝑋1𝑖 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖 )2
=0
𝛿 𝛽0
2
𝛿 σ𝑛𝑖=1 𝑌𝑖 − 𝛽መ0 − 𝛽መ1 𝑋1𝑖 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖
=0
Resolviendo el 𝛿 𝛽1
sistema,
llegaremos a las
expresiones con …
las que obtener
los estimadores 𝛿 σ𝑛𝑖=1(𝑌𝑖 − 𝛽መ0 − 𝛽መ1 𝑋1𝑖 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖 )2 24
=0
𝛿 𝛽𝑘
Estimación de los parámetros
• ESTIMADOR MÍNIMO CUADRÁTICO (MCO)
𝒏 𝒏
𝟎 − 𝜷
ෝ 𝟐𝒊 = 𝒎𝒊𝒏 (𝒀𝒊 − 𝜷
𝒎𝒊𝒏 𝒖 𝟏 𝑿𝟏𝒊 − 𝜷
𝟐 𝑿𝟐𝒊 − 𝜷
𝟑 𝑿𝟑𝒊 − ⋯ − 𝜷
𝒌 𝑿𝒌𝒊 )𝟐
𝒊=𝟏 𝒊=𝟏
Para obtener una expresión que nos sirva para cualquier modelo de regresión
independientemente del número de variables explicativas, vamos a trabajar con la
notación matricial. Recordemos que:
25
Estimación de los parámetros
• ESTIMADOR MÍNIMO CUADRÁTICO (MCO)
𝒏 𝒏
𝟎 − 𝜷
ෝ 𝟐𝒊 = 𝒎𝒊𝒏 (𝒀𝒊 − 𝜷
𝒎𝒊𝒏 𝒖 𝟏 𝑿𝟏𝒊 − 𝜷
𝟐 𝑿𝟐𝒊 − 𝜷
𝟑 𝑿𝟑𝒊 − ⋯ − 𝜷
𝒌 𝑿𝒌𝒊 )𝟐
𝒊=𝟏 𝒊=𝟏
ෝ 𝟐𝒊
𝒎𝒊𝒏 𝒖
𝒊=𝟏
26
Estimación de los parámetros
• ESTIMADOR MÍNIMO CUADRÁTICO (MCO)
27
Estimación de los parámetros
• ESTIMADOR MÍNIMO CUADRÁTICO (MCO)
Para poder obtener el vector de
Despejando el vector de parámetros: estimadores necesitamos que se
cumpla:
𝑋´𝑋 = 0
𝜌 𝑋 =𝑘+1
28
0
Estimación de los parámetros
• Para determinar el valor del estimador MV de un parámetro poblacional debemos partir de:
• Esperanza igual a 0: 𝑬 𝒖𝒊 = 𝟎 ∀ 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝑵
• Distribución normal: Esta hipótesis unida a las dos primeras implica que
30
𝒖𝒊 ~ 𝑵(𝟎, 𝝈)
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
• Así, si asumimos la distribución de la perturbación aleatoria como
normal, tendremos que la expresión de la función de densidad para
cada uno de los valores es:
1 𝑢𝑖2
−
𝑓 𝑢𝑖 = 𝑒 2𝜎2
2𝜋𝜎 2
31
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
• Si recordamos de estadística los pasos para obtener el estimador
máximo verosímil de un parámetro poblacional:
• Partimos de la función de densidad
𝑛
1 σ𝑛 𝑢𝑖2
Función de − 𝑖=1
𝐿 = 𝑓 𝑢 = ෑ 𝑓 𝑢𝑖 = 𝑛 𝑒 2𝜎2 33
verosimilitud 2𝜋𝜎 2
𝑖=1
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
መ dicho
• Ahora se trata de maximizar la función de verosimilitud respecto a los 𝛽.O
que otra manera, se trata de obtener los 𝛽መ que hacen máxima la función de
verosimilitud:
𝑛
1 σ𝑛
𝑖=1 𝑢𝑖2
−
𝑀𝑎𝑥(𝐿) = 𝑀𝑎𝑥(𝑓 𝑢 ) = 𝑀𝑎𝑥 ෑ 𝑓 𝑢𝑖 = 𝑀𝑎𝑥 𝑛 𝑒 2𝜎2
𝑖=1 2𝜋𝜎 2
ෝ 𝟐𝒊
𝒖 34
𝒊=𝟏
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
• Si, para simplificar el cálculo, tomamos logaritmos en la expresión anterior (la que
maximiza la función de verosimilitud) y luego derivamos respecto a los 𝛽መ :
𝑛
1 σ𝑛 𝑢 2
𝑖
− 𝑖=12
𝑀𝑎𝑥(𝐿) = 𝑀𝑎𝑥(𝑓 𝑢 ) = 𝑀𝑎𝑥 ෑ 𝑓 𝑢𝑖 = 𝑀𝑎𝑥 𝑛𝑒 2𝜎
𝑖=1 2𝜋𝜎 2
1 σ𝑛
𝑖=1 𝑢𝑖2 𝑛 σ𝑛𝑖=1 𝑢𝑖2
−
𝑙𝑛 𝑛𝑒 2𝜎2 = ln 1 − ln 2𝜋𝜎 2 − 35
2𝜋𝜎 2 2𝜎 2
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
• Si, para simplificar el cálculo, tomamos logaritmos en la expresión anterior (la que
maximiza la función de verosimilitud) y luego derivamos respecto a los 𝛽መ :
𝑛 σ𝑛𝑖=1 𝑢𝑖2
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2
𝑛 𝑈
𝑈´
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2
𝑛 መ
(𝑌 − 𝑋𝛽)´(𝑌 መ
− 𝑋𝛽) 36
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
• Llegados a este punto, podemos ver que:
መ
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] → 𝑀𝑖𝑛(𝑌 − 𝑋𝛽)´(𝑌 መ
− 𝑋𝛽)
38
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes la podemos abordar desde una
triple perspectiva:
• La interpretación matemática de los coeficientes
• La interpretación gráfica de los coeficientes
• La interpretación en el contexto de un problema concreto de los coeficientes.
39
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes desde una perspectiva
MATEMÁTICA:
Si partimos del modelo de regresión lineal simple:
𝑌𝑖 = 𝛽መ𝑜 + 𝛽መ1 𝑋𝑖
Y
𝛽መ𝑜 : Es la ordenada en el origen 𝛽መ1
𝛽መ𝑜
41
X
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes en el CONTEXTO de un problema
concreto:
𝑖 = −435,0 + 2,68 𝑆𝑢𝑝𝑖
𝑃𝑟𝑒𝑐𝑖𝑜
(Sabiendo que el precio está expresado en miles de euros y la superficie en metros
cuadrados)
𝛽መ𝑜= -435,0 => Una vivienda cuya superficie son 0 metros cuadrados, tiene un precio
esperado de -435.000 euros. Este coeficiente no siempre tiene una interpretación lógica en el
contexto del problema.
𝛽መ1 = + 2,68 => Por cada metro cuadrado adicional que tenga la vivienda, el incremento
esperado en el precio será de 2.680 euros. 42
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes en el CONTEXTO de un problema
concreto:
𝑖 = 691,4 − 1,94 𝑅𝑎𝑡𝑖𝑜𝑖
𝑁𝑜𝑡𝑎
(Supongamos que se ha construido el modelo anterior para hacer un estudio de la relación
entre la nota media en matemáticas en 5º de primaria y el número de alumnos por profesor
en dicho curso en una muestra de 400 colegios. Sabiendo que la “nota” está expresada en
puntos (0-1000) y la “ratio” representa el número de alumnos por profesor)
𝛽መ𝑜= 691,4 => En un colegio en el que en 5º de primaria haya 0 alumnos por profesor, la
nota media esperada sería 691,4.
𝛽መ1 = - 1,94 => Por cada alumno más por profesor que tenga la clase de 5º de primaria, la
reducción esperada en la nota media será de 1,94 puntos.
43
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes desde una perspectiva
MATEMÁTICA:
Si partimos del modelo de regresión lineal múltiple:
𝛽መ𝑜 : Es el valor esperado para 𝑌𝑖 cuando todas las 𝑋 son iguales a 0
𝛽መ1 , 𝛽መ2 ,… 𝛽መ𝑘 : Es la variación esperada para 𝑌𝑖 por cada incremento unitario
en 𝑋1𝑖 , 𝑋2𝑖 ,…𝑋𝑘𝑖 respectivamente ceteris paribus. 44
𝜕𝑌𝑖 𝜕𝑌𝑖 𝜕𝑌𝑖
𝛽መ1 = 𝛽መ2 = … 𝛽መ𝑘 =
𝜕𝑋1𝑖 𝜕𝑋2𝑖 𝜕𝑋𝑘𝑖
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes en el CONTEXTO de un
problema concreto:
𝑖 = −550,7 + 261,6 𝐻𝑎𝑏𝑖
𝑃𝑟𝑒𝑐𝑖𝑜
𝛽መ𝑜 = -550,7 => Una vivienda con 0 habitaciones, tiene un precio esperado de -
550.000 euros.
𝛽መ1 = + 261,6 => Por cada habitación adicional que tenga la vivienda, el
incremento esperado en el precio será de 261.600 euros.
45
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes en el CONTEXTO de un problema
concreto:
𝑖 = −711,1 + 81,6 𝐻𝑎𝑏𝑖 + 236,2 𝐵𝑎ñ𝑜𝑠𝑖
𝑃𝑟𝑒𝑐𝑖𝑜
(Sabiendo que el precio está expresado en miles de euros)
𝛽መ𝑜= -711,1 => Una vivienda con 0 habitaciones y 0 baños, tiene un precio esperado de -
711.100 euros.
𝛽መ1 = + 81,6 => Por cada habitación adicional que tenga la vivienda, el incremento
esperado en el precio será de 81.600 euros siempre y cuando el resto de variables
permanezca constante. Sin embargo… esta conclusión difiere de la obtenida anteriormente
46
𝛽መ2 = + 236,2 => Por cada baño adicional que tenga la vivienda, el incremento esperado en
el precio será de 236.200 euros siempre y cuando el resto de variables permanezca constante.
Interpretación de los estimadores ante cambios
de escala en las variables
• Supongamos que partimos de un modelo en el • Supongamos que partimos del mismo ejemplo
que queremos explicar el gasto semanal en que en la diapositiva anterior en el que
función del ingreso semanal de un grupo de 30 queremos estimar un modelo para explicar el
jóvenes: gasto semanal en función del ingreso semanal
de un grupo de 30 jóvenes:
𝑖 = 9,29 + 0,64 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖
𝐺𝑎𝑠𝑡𝑜 𝑖 = 9,29 + 637,8 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖
𝐺𝑎𝑠𝑡𝑜
(Sabiendo que tanto el ingreso como el gasto están (Sabiendo que el ingreso está expresado en miles
expresados en euros) euros y el gasto en euros, es decir, respecto al
ejemplo anterior, hemos cambiado de escala los
ingresos)
¿Cómo interpretamos los coeficientes?
¿Podemos decir que como el coeficiente que ¿Cómo interpretamos ahora los coeficientes?
acompaña al ingreso está próximo a 0 casi no hay
relación entre las variables?
¿Podemos decir que como el coeficiente que
acompaña al ingreso se ha incrementado
significativamente la relación entre las variables es
ahora más intensa? 47
Interpretación de los coeficientes estimados en modelos log/log,
log/nivel, nivel/log
• Hacer transformaciones logarítmicas en las variables de un modelo puede aportarnos
ciertas ventajas, pero tenemos que tener en cuenta que la interpretación de los coeficientes
cambia en función de si la transformación se aplica a la variable endógena, a la exógena o a
ambas.
• NIVEL-NIVEL
• Partimos de un modelo en el que disponemos del peso al nacer (en
kg) de un grupo de 1388 niños y el número de cigarrillos que
fumaron sus madres durante el embarazo.
• En este caso, un incremento de un cigarrillo tiene una disminución
esperada en el peso de 0,015 kg.
𝑃𝑒𝑠𝑜𝑁𝑎𝑐𝑖 = 3,59 − 0,015 𝑐𝑖𝑔𝑖
49
Interpretación de los coeficientes estimados en modelos log/log,
log/nivel, nivel/log
• LOG-NIVEL
• Partimos de un modelo en el que disponemos del salario por hora
(en €) de 526 empleados de una gran empresa y sus años de
educación. Aplicamos una transformación logarítmica sobre la
variable salario por hora.
• En este caso, un incremento de 1 año en la educación se traduce en
un incremento de un 8,27% en el salario por hora.
𝑙_𝑠𝑎𝑙𝑎𝑟𝑖𝑜𝑖 = 0,584 + 0,083 𝑒𝑑𝑢𝑐𝑖
50
Interpretación de los coeficientes estimados en modelos log/log,
log/nivel, nivel/log
• NIVEL-LOG
• Partimos de un modelo en el que disponemos del precio de venta
(en $) de 321 viviendas y la distancia (en km) de cada una de ellas a
una incineradora. Aplicamos una transformación logarítmica sobre
la variable distancia.
• En este caso, un incremento del 1% en la distancia se traduce en un
aumento esperado del precio de venta de la vivienda de 236,29$ .
𝑃𝑟𝑖𝑐𝑒𝑖 = 55.323,2 + 23.629,7 𝑙_𝑑𝑖𝑠𝑡𝑎𝑖
51
Interpretación de los coeficientes estimados en modelos log/log,
log/nivel, nivel/log
• LOG-LOG
• Partimos de un modelo en el que disponemos del gasto mensual con
tarjeta de crédito (en €) y el salario anual (también en €) de un grupo de
72 personas. Transformamos ambas variables en logaritmos.
• En este caso, un incremento de un 1% en el salario anual se traduce en
un incremento esperado en el gasto mensual con tarjeta de crédito de un
1,33%.
𝑙_𝐺𝑎𝑠𝑡𝑜𝑇𝐶𝑖 = −8,78 + 1,33 𝑙_𝑠𝑎𝑙𝑎𝑟𝑖𝑜𝑖
52
Interpretación de los coeficientes estimados en modelos log/log,
log/nivel, nivel/log
• ¿En qué casos nos interesará hacer transformaciones logarítmicas sobre las
variables del modelo?
Y • Para “linealizar” un modelo que en su forma original no es lineal:
𝑌𝑖 = 𝐴 𝐾 𝛼 𝐿𝛽
ln (𝑌𝑖 ) = ln 𝐴 + 𝛼 ln 𝐾 + 𝛽 ln (𝐿)
L
• Para reducir el grado de dispersión de las variables implicadas. El uso de
logaritmos en este caso puede ser de gran utilidad como medio para evitar la
aparición de heterocedasticidad (varianza no constante del término de error) en
un modelo. Variable Media Mediana D. T. Mín Máx 53
wage 13.3 11.5 9.08 1.02 91.3
lwage 2.41 2.45 0.594 0.0233 4.51
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Una variable categórica es una variable cualitativa que puede tomar varios estados diferentes
• 1: Norte 2: Sur 3: Este 4: Oeste
• 1: Primavera 2: Verano 3: Otoño 4:Invierno
• …
• Una variable dicotómica es un tipo concreto de variable categórica que puede tomar dos estados
mediante los valores 0 y 1. Por ejemplo:
• 0: Hombre 1: Mujer; 0
• 0: Municipio rural 1: Municipio urbano
• 0: Norte 1: Sur
• …
• En ambos casos, el valor numérico asignado a cada estado no tiene valor como número. Si ponemos
como ejemplo el caso de las estaciones del año, no podemos decir que la primavera “sea o valga el
doble” que el verano. Además de que resulta absurdo, hay que tener en cuenta que la asignación de
los valores numéricos a cada estado es completamente aleatoria. 54
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Interpretación de los coeficientes para variables dicotómicas:
El coeficiente aporta
información sobre la diferencia
entre ambos estados en el
valor de la variable endógena.
56
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Variables categóricas de más de dos estados:
57
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Variables categóricas de más de dos estados:
1 1 0 0 0
1 0 1 0 0
𝑋= 1 0 0 1 0
1 0 0 0 1
1 ⋮
1 0 0 0 1
La primera columna es siempre la suma
de las demás, por tanto, nos encontramos
ante el caso de combinación lineal
perfecta, lo que implica que:
𝑋 =0 𝑋´𝑋 = 0 58
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Variables categóricas de más de dos estados:
−1 𝐴𝑑𝑗(𝑋´𝑋)𝑡
𝑋´𝑋 = 0 No se puede calcular (𝑋´𝑋) =
𝑋´𝑋
Por tanto, cuando nos encontramos ante una variable categórica que toma
más de dos estados, no podremos incorporar todos los estados en forma de
variable dicotómica 0-1 en el modelo, sino que tendremos que tomar un
estado como referencia y expresar el resto como dicotómicas 0-1 en el 59
modelo.
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Interpretación de los coeficientes con variables categóricas de más
de dos estados:
En este caso se interpretarán los
coeficientes tomando como
referencia la variable omitida “FALL”.
𝛽መ2 = 56,49 => El aumento esperado
en las ventas en invierno respecto
a otoño es de 56.485 vehículos
ceteris paribus.
62
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Interpretación de los coeficientes con interacción de variables
dicotómicas:
La variable “GENDER_MAINT”
(producto de las variables GENDER
y MAINT) toma el valor 1 cuando la
persona es hombre y trabaja en
labores de mantenimiento y 0 en el
resto de casos.
Aunque con la inclusión de las variables GENDER y MAINT podemos saber el efecto que
tiene sobre el salario ser hombre y trabajar en mantenimiento, el efecto que podemos
estudiar de esa manera es un efecto “aislado” de cada variable sobre la endógena. Al
introducir la variable “interacción” podemos analizar el efecto conjunto de la 63
coincidencia de ambos estados.
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Interpretación de los coeficientes con interacción de variables
dicotómicas:
En la siguiente tabla se indica el salario esperado en función del género
y de si se trabaja o no en mantenimiento
Mantenimiento No mantenimiento Dif.
Mantenimiento-
No mantenimiento
Hombre β0+β1+β2+β3 β0+β1 β2+β3
Mujer β0+β2 β0 β2
Dif. Hombre -Mujer β1+β3 β1
64
PROPIEDADES DE LOS
ESTIMADORES MCO EN EL MARCO
DEL MODELO BÁSICO DE REGRESIÓN
LINEAL
65
Propiedades de los estimadores MCO (Introducción)
• Hasta ahora hemos visto cómo se construye un modelo
econométrico, aspectos que hay que tener en cuenta a la hora de
elegir los datos y las variables, cómo se obtienen los estimadores y,
por último, cómo interpretamos los coeficientes estimados en un
modelo de regresión lineal.
• El paso siguiente es la validación del modelo, pero para ello
necesitamos algunas condiciones de partida, así como conocer ciertas
propiedades de los estimadores.
• En concreto, si en el marco de la validación del modelo quiero hacer
inferencia sobre los coeficientes, necesito conocer su distribución de
probabilidad (¿qué es una distribución de probabilidad?) 66
Propiedades de los estimadores MCO (Introducción)
• Los coeficientes que hemos obtenido hasta ahora en el contexto de
los modelos estudiados, son estimadores de los parámetros
poblacionales que desconocemos. Recordemos:
𝑃𝑟𝑒𝑐𝑖𝑜𝑖 = 𝛽0 + 𝛽1 𝑆𝑢𝑝𝑖 + 𝛽2 𝐻𝑎𝑏𝑖 + 𝑢𝑖 FRP
68
Propiedades de los estimadores MCO (Introducción)
72
Propiedades de los estimadores MCO (Introducción)
• Si recordamos de Estadística… De acuerdo con el Teorema Central del Límite, si tenemos 𝑋1, 𝑋2 , … 𝑋𝑛 variables
aleatorias independientes e idénticamente distribuidas con media μ y varianza 𝜎 2 entonces cuando n→∞:
𝑋ത − 𝜇
𝑍=𝜎
ൗ 𝑛
Converge a una distribución normal estandarizada.
• Si aplicamos el teorema central del límite sobre lo visto en relación al término de error y sabiendo que:
𝑬 𝒖𝒊 = 𝟎 ∀ 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝑵
𝑽𝒂𝒓 𝒖𝒊 = 𝝈𝟐 ∀ 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝑵
𝒖𝒊 ~ 𝑵(𝟎, 𝝈)
73
Propiedades de los estimadores MCO (Introducción)
• Por otro lado, se puede demostrar que los coeficientes del modelo
son una función lineal de los errores:
𝑊 = (𝑋´𝑋)−1 𝑋´
𝛽መ = (𝑋´𝑋)−1 𝑋´𝑌 𝛽መ = 𝑊´𝑌
𝑌 = 𝑋𝛽 + 𝑈
𝛽መ = (𝑋´𝑋)−1 𝑋´(𝑋𝛽 + 𝑈)
• Por las propiedades de la distribución normal, podemos decir que los estimadores
𝛽መ también se distribuirán según una normal. Esto facilitará más adelante la
75
inferencia sobre los parámetros (pruebas de hipótesis e intervalos de confianza).
Propiedades de los estimadores MCO
• Eficiencia
• Consistencia
• Los 𝛽መ del modelo de regresión que hemos visto hasta ahora, son
estimadores de los verdaderos y desconocidos 𝛽.
• En las diapositivas siguientes vamos a ver, desde un punto de vista intuitivo,
la definición básica de las propiedades deseables para un buen estimador y
qué hipótesis deben cumplirse para que el estimador MCO presente dichas
propiedades.
77
𝛽መ𝑀𝐶𝑂 = (𝑋´𝑋)−1 𝑋´𝑌
Propiedades de los estimadores MCO: Insesgadez
𝑆𝑒𝑠𝑔𝑜 𝛽መ = 𝐸 𝛽መ − 𝛽
Si el estimador es
insesgado (sesgo=0)
𝐸 𝛽መ = 𝛽
𝐸 𝛽መ = 𝛽
“La insesgadez es una propiedad de muestreo repetido, no de una muestra dada: manteniendo fijo el
tamaño de la muestra, se obtienen diversas muestras y se consigue cada vez una estimación del parámetro 78
desconocido. Se espera que el valor promedio de estas estimaciones sea igual al verdadero valor si el
estimador es insesgado” (Gujarati, 2006)
Propiedades de los estimadores MCO: Insesgadez
• Partiendo del ejemplo conocido de clases anteriores:
𝑃𝑟𝑒𝑐𝑖𝑜𝑖 = 𝛽0 + 𝛽1 𝑆𝑢𝑝𝑖 + 𝛽2 𝐻𝑎𝑏𝑖 + 𝑢𝑖 FRP
para 𝛽መ1 , pero según nos indica su distribución de probabilidad, hay valores más probables que
otros. En concreto, el valor más probable es el que se encuentra en el centro de la distribución
(𝐸 𝛽መ1 ).
Si el estimador
es insesgado
80
𝐸 𝛽መ1 𝐸 𝛽መ1 = 𝛽1
Propiedades de los estimadores MCO: Insesgadez
• Vamos a comprobar que, efectivamente, cuando un estimador es
insesgado y se cumplen algunas hipótesis sobre la perturbación
aleatoria, se cumple que:
𝐸 𝛽መ = 𝛽
𝛽መ = (𝑋´𝑋)−1 𝑋´𝑌 𝑌 = 𝑋𝛽 + 𝑈
−1 −1 −1
𝐸 𝛽መ = 𝐸 𝑋′𝑋 𝑋′𝑋𝛽 + 𝑋′𝑋 𝑋′𝑈 = 𝐸 𝛽 + 𝑋′𝑋 𝑋′𝑈
En temas anteriores establecimos las siguientes hipótesis sobre la perturbación aleatoria:
o Ausencia de relación con las variables exógenas: 𝑬 𝒖𝒊 /𝑿𝑲 = 𝑬 𝒖𝒊
o Esperanza igual a 0: 𝑬 𝒖𝒊 = 𝟎
−1 −1
𝐸 𝑋′𝑋 𝑋′𝑈 = 𝐸 𝑋′𝑋 𝑋′ · 𝐸 𝑈 = 0
𝑴𝑪𝑶 = 𝜷
𝑬𝜷
83
Propiedades de los estimadores MCO: Consistencia
Un estimador es consistente si converge en probabilidad al parámetro poblacional. Es
decir, que a medida que el tamaño de la muestra se acerca al tamaño de la población,
el estimador se acerca al valor del parámetro poblacional.
𝑝𝑙𝑖𝑚 𝛽መ = 𝛽
𝑛→∞
También podemos usar la siguiente expresión equivalente:
መ =0
𝑝𝑙𝑖𝑚 (𝑣𝑎𝑟( 𝛽))
𝑛→∞
84
Propiedades de los estimadores MCO: Eficiencia
• Un estimador es eficiente En la imagen se muestra la distribución
de 4 estimadores insesgados pero con
cuando tiene varianza mínima
distinta varianza.
entre todos los estimadores
insesgados. La eficiencia por
tanto tiene que ver con la
precisión del estimador.
• Según esta propiedad el
estimador debería generar
estimaciones parecidas para
las diferentes muestras 𝐸 𝛽መ = 𝛽
extraídas de la población. 85
Propiedades de los estimadores MCO: Eficiencia
−1
𝜕 2 𝐿 𝑢, 𝛽
መ ≥ −𝐸
𝑉𝑎𝑟(𝛽)
𝜕𝛽2
𝑛
1 σ𝑛 𝑢𝑖2
Función de − 𝑖=1
𝐿 = 𝑓 𝑢 = ෑ 𝑓 𝑢𝑖 = 𝑛 𝑒 2𝜎2 88
verosimilitud 2𝜋𝜎 2
𝑖=1
¡RECUERDA! Derivación matemática de la
expresión del estimador de Máxima Verosimilitud
መ dicho
• Ahora se trata de maximizar la función de verosimilitud respecto a los 𝛽.O
que otra manera, se trata de obtener los 𝛽መ que hacen máxima la función de
verosimilitud:
𝑛
1 σ𝑛
𝑖=1 𝑢𝑖2
−
𝑀𝑎𝑥(𝐿) = 𝑀𝑎𝑥(𝑓 𝑢 ) = 𝑀𝑎𝑥 ෑ 𝑓 𝑢𝑖 = 𝑀𝑎𝑥 𝑛 𝑒 2𝜎2
𝑖=1 2𝜋𝜎 2
ෝ 𝟐𝒊
𝒖 89
𝒊=𝟏
¡RECUERDA! Derivación matemática de la
expresión del estimador de Máxima Verosimilitud
• Si, para simplificar el cálculo, tomamos logaritmos en la expresión anterior (la que
maximiza la función de verosimilitud) y luego derivamos respecto a los 𝛽መ :
𝑛
1 σ𝑛 𝑢 2
𝑖
− 𝑖=12
𝑀𝑎𝑥(𝐿) = 𝑀𝑎𝑥(𝑓 𝑢 ) = 𝑀𝑎𝑥 ෑ 𝑓 𝑢𝑖 = 𝑀𝑎𝑥 𝑛𝑒 2𝜎
𝑖=1 2𝜋𝜎 2
1 σ𝑛
𝑖=1 𝑢𝑖2 𝑛 σ𝑛𝑖=1 𝑢𝑖2
−
𝑙𝑛 𝑛𝑒 2𝜎2 = ln 1 − ln 2𝜋𝜎 2 − 90
2𝜋𝜎 2 2𝜎 2
¡RECUERDA! Derivación matemática de la
expresión del estimador de Máxima Verosimilitud
• Si, para simplificar el cálculo, tomamos logaritmos en la expresión anterior (la que
maximiza la función de verosimilitud) y luego derivamos respecto a los 𝛽መ :
𝑛 σ𝑛𝑖=1 𝑢𝑖2
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2
𝑛 𝑈
𝑈´
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2
𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽) 91
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2
Propiedades de los estimadores MCO:
Eficiencia
• Según la CCR, para obtener la cota inferior de la varianza del estimador,
deberíamos hallar la segunda derivada de la siguiente expresión respecto a 𝛽መ que
es nuestro estimador de interés:
𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2
• Pero primero, para operar de forma más sencilla, vamos a desarrollar la segunda
parte de la expresión:
𝑛 𝑌´𝑌 − 2𝛽´𝑋´𝑌 + 𝛽´𝑋´𝑋𝛽 92
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2
Propiedades de los estimadores MCO:
Eficiencia
• Obtenemos la primera derivada respecto a 𝛽መ
𝑛 መ
𝑌´𝑌 − 2𝛽´𝑋´𝑌 + 𝛽´𝑋´𝑋𝛽
𝜕 − ln 2𝜋𝜎 2 −
𝜕𝐿 𝑢, 𝛽 2𝜎 2
= =
𝜕𝛽 𝜕𝛽
𝜕 2 𝐿 𝑢, 𝛽 2𝑋´𝑋 2𝜎 2 𝑋´𝑋
2
=− 2 2
=−
𝜕𝛽 2𝜎 𝜎2
• Entonces
𝑉𝑎𝑟 − 𝐶𝑜𝑣 𝛽መ = 𝐸 𝛽መ − 𝐸 𝛽መ 𝛽መ − 𝐸 𝛽መ ´
𝛽 𝛽
96
𝑉𝑎𝑟 − 𝐶𝑜𝑣 𝛽መ = 𝐸 𝑋´𝑋 −1 𝑋´𝑈 𝑋´𝑋 −1 𝑋´𝑈 ´
Propiedades de los estimadores MCO: Eficiencia
• Si 𝐸 𝑈𝑈´ = 𝜎 2 𝐼𝑛 entonces:
𝑉𝑎𝑟 − 𝐶𝑜𝑣 𝛽መ = 𝜎 2 𝑋´𝑋 −1 𝑋´𝑋 𝑋´𝑋 −1
Como hemos visto antes, la varianza de una variable aleatoria es 𝑉𝑎𝑟 𝑋 = 𝐸 𝑋 − 𝐸 𝑋 2 por
tanto, para la perturbación aleatoria: 𝑉𝑎𝑟 𝑢i = 𝐸 𝑢i − 𝐸 𝑢i 2 = 𝐸 𝑢𝑖2 = 𝐸 𝑢i 𝑢i . Por otro lado: 99
𝐶𝑜𝑣 𝑢𝑖 , 𝑢𝑗 = 𝐸 𝑢𝑖 − 𝐸 𝑢𝑖 𝑢𝑗 − 𝐸 𝑢𝑗 = 𝐸 𝑢𝑖 𝑢𝑗
Propiedades de los estimadores MCO: Eficiencia
Cuando:
100
Propiedades de los estimadores MCO: Eficiencia
• Como resumen de lo anterior diríamos que si se cumple que:
𝜎2 0 0 … 0
0 𝜎2 0 … 0
𝐸 𝑈𝑈 ′ = 0 0 𝜎2 … 0 = 𝜎 2 𝐼𝑛
… … … … …
0 0 0 … 𝜎2
101
eficientes
Estimadores 𝜷
• HOMOCEDASTICIDAD (o varianza constante del término de error):
HOMOCEDASTICIDAD HETEROCEDASTICIDAD
Los modelos de aprendizaje en los que el error disminuye con el tiempo, los
modelos que dependen del nivel de ingresos, los errores de especificación, el
cambio estructural, la omisión de variables relevantes o la presencia de datos 103
atípicos son causas frecuentes de presencia de heterocedasticidad.
• NO AUTOCORRELACIÓN (no correlación entre perturbaciones
aleatorias):
La autocorrelación se define como la existencia de
relación entre perturbaciones aleatorias de periodos u
observaciones distintas.
𝑨𝒖𝒕𝒐𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏: 𝒄𝒐𝒗 𝒖𝒊 , 𝒖𝒋 ≠ 𝟎
𝑵𝒐 𝒂𝒖𝒕𝒐𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏: 𝒄𝒐𝒗 𝒖𝒊 , 𝒖𝒋 = 𝟎
104
𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2
• Por tanto:
𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2
𝑛 2
(𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛 𝐿 = − ln 2𝜋𝜎 −
2 2𝜎 2
𝑛 𝑛 2
(𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛 𝐿 = − ln 2𝜋 − ln 𝜎 −
2 2 2𝜎 2
109
Estimadores de la varianza de la perturbación aleatoria: Estimador
insesgado y estimador de máxima verosimilitud.
𝜕𝑙𝑛 𝐿 𝑛 2 𝑌 − 𝑋𝛽 ´ 𝑌 − 𝑋𝛽
= − 2+ =0
𝜕𝜎 2 2𝜎 2𝜎 2 2
−2𝜎 2 𝑛 + 2 𝑌 − 𝑋𝛽 ´ 𝑌 − 𝑋𝛽
=0
2𝜎 2 2
• Como 𝑌 − 𝑋𝛽 = 𝑈 :
−2𝜎 2 𝑛 + 2𝑈´𝑈 = 0
σ 𝒏 𝟐
𝑼´𝑼 ෝ
𝒖
𝒊=𝟏 𝒊
ෝ𝟐 =
𝝈 =
𝒏 𝒏
• Para muestras grandes 𝜎ො 2 cumple con todas las propiedades de un
110
buen estimador.
Estimadores de la varianza de la perturbación aleatoria: Estimador
insesgado y estimador de máxima verosimilitud.
σ𝒏 𝟐
𝑼´𝑼 𝒊=𝟏 ෝ
𝒖 𝒊
ෝ𝟐 =
𝝈 =
𝒏 − (𝒌 + 𝟏) 𝒏 − (𝒌 + 𝟏)
111
Multicolinealidad
• La multicolinealidad se identifica con la existencia de relación lineal entre variables explicativas. En función del
tipo de relación entre las variables explicativas, podremos hablar de multicolinealidad exacta o perfecta, y
multicolinealidad aproximada:
• Multicolinealidad exacta o perfecta: Se da en un modelo cuando la relación lineal entre variables explicativas es
exacta. Por ejemplo, si suponemos un modelo con dos variables explicativas X1 y X2 tales que X2 = 2*X1; estaríamos
ante un caso de multicolinealidad perfecta ya que una variable es exactamente el doble que la otra. En este caso el
coeficiente de correlación lineal entre ambas variables sería igual a 1 (relación lineal perfecta).
• Multicolinealidad aproximada: Se da en un modelo cuando existe relación lineal entre variables explicativas pero
ésta no es exacta. Por ejemplo, en un modelo explicativo del gasto personal se consideran como variables
independientes la renta y la riqueza personal; en este caso habrá una fuerte relación lineal entre variables
explicativas (el coeficiente de correlación entre ambas será elevado) pero sin ser exacta. Este es el tipo de
multicolinealidad más frecuente en los modelos econométricos.
• La multicolinealidad se puede dar tanto en modelos de corte temporal como en modelos de corte
transversal.
Con multicolinealidad aproximada |X´X|≠0 pero |X´X|→0 , por lo tanto, podremos calcular los
estimadores MCO, pero puesto que |X´X|→0 , (X´X)-1 no será indeterminado pero tomará
valores elevados.
Si tenemos en cuenta que:
115
las varianzas de los estimadores, y por tanto sus errores estándar, serán muy elevados; y por tanto,
los intervalos de confianza serán muy amplios.
• Variables no significativas
• Coeficientes de correlación elevados entre variables
• Si el modelo de regresión tiene sólo dos variables explicativas, coeficientes de correlación elevados
indicarán presencia de multicolinealidad; mientras que coeficientes de correlación bajos indicarán
ausencia de dicho problema.
• Si el modelo de regresión tiene más de dos variables explicativas, coeficientes de correlación elevados
indicarán presencia de multicolinealidad; mientras que coeficientes de correlación bajos, no indicarán
necesariamente ausencia de dicho problema ya que los coeficientes de correlación sólo nos dan
información de la relación de las variables “dos a dos”. En esta situación, para saber si estamos ante un 116
problema de multicolinealidad, deberíamos recurrir a la Regla de Klein.
Multicolinealidad
• Regla de Klein:
La regla de Klein consiste en la realización de tantas regresiones auxiliares como explicativas tenga
el modelo original. Cada regresión auxiliar tendrá como endógena una de las explicativas del
modelo original, y como exógenas, el resto de explicativas del modelo original. Si tenemos un
modelo con tres variables explicativas.
117
Multicolinealidad
• Factor de inflación de la varianza (FIV):
1
𝐹𝐼𝑉𝑘 =
1 − 𝑅𝑘2
• Cuando para una variable explicativa FIV > 10, diremos que su grado de colinealidad con
el resto de explicativas el elevado. 118
Multicolinealidad
POSIBLES SOLUCIONES
• La influencia exacta de la omisión de las variables sobre las propiedades de los estimadores, no se puede saber,
puesto que en la realidad, al no tener dichas variables relevantes, no podremos comparar los resultados con su
inclusión y omisión.
• No obstante, sí podemos saber algunas cosas sobre la influencia de la omisión de variables relevantes:
• Las consecuencias sobre las propiedades de los estimadores, serán mayores cuanto más relevante sea la
variable o variables omitidas.
• El sesgo en los parámetros del resto de variables será mayor cuanto mayor sea la relación de la/s
variable/s omitida/s con la/s incluida/s.
• Los errores estándar de los parámetros aumentan como consecuencia del aumento en la varianza de los 123
errores.
124
𝛽መ = 𝑊´𝑌
125
• El modelo está correctamente especificado, es decir, no hay sesgo por error de
especificación (recordemos que la especificación del modelo hace referencia a:
forma funcional, variables –exógenas y endógena- y observaciones).
• No hay multicolinealidad perfecta (no hay relaciones lineales perfectas entre
variables explicativas).
• Debe existir variabilidad suficiente en las variables explicativas, es decir, deben
contener información.
• Teorema de Gauss-Markov: Dados los puestos del modelo de regresión lineal, los estimadores 𝛽መ
obtenidos por MCO entre todos los estimadores lineales e insesgados, además son los que tienen
varianza mínima, es decir, son MELI.
Las propiedades anteriores son propiedades de muestra finita, es decir, se mantienen independientemente del
tamaño de la muestra
Si alguno de los supuestos del modelo de regresión se incumple, también se incumplirá el Teorema de Gauss-
Markov.
Cuando añadimos el supuesto de normalidad de la perturbación aleatoria, entonces decimos que los estimadores 𝛽 MCO 126
son MEI (tienen varianza mínima entre todos los estimadores insesgados, tanto lineales como no lineales).
INFERENCIA ESTADÍSTICA CON EL
MBRL: ELABORACIÓN DE
INTERVALOS DE CONFIANZA Y
CONTRASTES DE PARÁMETROS
127
Intervalos de confianza
𝜎
𝐼𝐶𝜇 ⋮ 𝑥ҧ ± 𝑧𝛼ൗ2
𝑛
𝜎 𝜎
𝑥ҧ − 𝑧𝛼ൗ2 ; 𝑥ҧ + 𝑧𝛼ൗ2
𝑛 𝑛
𝜎 𝜎
𝑃 𝑥ҧ − 𝑧𝛼ൗ2 ≤ 𝜇 ≤ 𝑥ҧ + 𝑧𝛼ൗ2 = 1−𝛼 % 128
𝑛 𝑛
Intervalos de confianza
𝑣𝑎𝑟 𝛽መ0
𝑣𝑎𝑟 − 𝑐𝑜𝑣 𝛽መ = 𝜎 2 𝑋´𝑋 −1
= 𝑣𝑎𝑟 𝛽መ𝑗
⋱ 129
𝑣𝑎𝑟 𝛽መ𝑘
Intervalos de confianza
መ 130
𝑣𝑎𝑟 − 𝑐𝑜𝑣 𝛽መ = 𝜎ො 2 𝑋´𝑋 −1 𝛽~𝑡(𝛽; 𝑒𝑒 𝛽መ )
Intervalos de confianza
𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2
• Por tanto:
𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2
𝑛 2
(𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛 𝐿 = − ln 2𝜋𝜎 −
2 2𝜎 2
𝑛 𝑛 2
(𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛 𝐿 = − ln 2𝜋 − ln 𝜎 −
2 2 2𝜎 2
133
Intervalos de confianza
𝜕𝑙𝑛 𝐿 𝑛 2 𝑌 − 𝑋𝛽 ´ 𝑌 − 𝑋𝛽
= − 2+ =0
𝜕𝜎 2 2𝜎 2𝜎 2 2
−2𝜎 2 𝑛 + 2 𝑌 − 𝑋𝛽 ´ 𝑌 − 𝑋𝛽
=0
2𝜎 2 2
• Como 𝑌 − 𝑋𝛽 = 𝑈 :
−2𝜎 2 𝑛 + 2𝑈´𝑈 = 0
σ 𝒏 𝟐
𝑼´𝑼 ෝ
𝒖
𝒊=𝟏 𝒊
ෝ𝟐 =
𝝈 =
𝒏 𝒏
• Para muestras grandes 𝜎ො 2 cumple con todas las propiedades de un
134
buen estimador.
Intervalos de confianza
σ𝒏 𝟐
𝑼´𝑼 ෝ
𝒖
𝒊=𝟏 𝒊
ෝ𝟐 =
𝝈 =
𝒏 − (𝒌 + 𝟏) 𝒏 − (𝒌 + 𝟏)
135
Intervalos de confianza
• Con esto, podemos obtener los intervalos de confianza de los
parámetros a través de la siguiente expresión:
1−𝛼
𝛼ൗ 𝛼ൗ
2 2
𝛽መ𝑗 137
𝛽መ𝑗 − 𝑡𝛼ൗ 𝑒𝑒 𝛽መ𝑗 𝛽መ𝑗 + 𝑡𝛼ൗ 𝑒𝑒 𝛽መ𝑗
2;𝑛− 𝑘+1 2;𝑛− 𝑘+1
Intervalos de confianza
• Tamaño de la muestra
• Nivel de confianza
• Nivel de significación
• Grados de libertad
• Error estándar
138
Intervalos de confianza
Con estos resultados podemos decir
que las variables “baths” y “garage”
son significativas a los tres niveles de
confianza habituales (90%, 95% y
99%) mientras que la variables
“bedrms” lo es sólo al 90% y al 95%
pero no al 99%.
𝑃𝑟 𝛽𝑗 − 𝑡𝛼ൗ 𝑒𝑒 𝛽𝑗 ≤ 𝛽𝑗 ≤ 𝛽𝑗 + 𝑡𝛼ൗ 𝑒𝑒 𝛽𝑗 = 1−𝛼 %
2;𝑛− 𝑘+1 2;𝑛− 𝑘+1
𝐻0 : 𝛽1 = 112,6
𝐻0 : 𝛽1 = 0
𝐻0 : 𝛽𝑗 = 𝛽𝑖∗
𝛽መ𝑗 − 𝛽𝑗∗
𝑡=
𝑒𝑒 𝛽መ𝑗
𝐻0 : 𝛽1 = 0
El “valor p” o “p-valor” nos da información útil para decidir en el contraste de nulidad de los parámetros del
modelo. Así, cuando dicho valor esté por debajo del nivel de significación elegido (de 0,05 si trabajamos con
una confianza del 95%, de 0,10 si trabajamos con un nivel de confianza del 90%,…) rechazamos la hipótesis nula.
Visto de otra manera (1-”p-valor”) es el máximo nivel de confianza al que rechazaríamos la hipótesis nula.
En el caso de la variable ´”bedrms” diríamos que es significativa hasta el nivel de confianza 97,69% (1-0,0231);
lo que es coherente con el hecho ya comentado de que es significativa al 90% y al 95% pero no al 99%.
145
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• La prueba de significancia global nos servirá para contrastar si todos
“coeficientes de pendiente” del modelo de regresión son
simultáneamente iguales a 0.
• Estadístico de contraste:
• Regla de decisión:
146
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• En Gretl el estadístico y el p-valor del test F para contrastar la
significancia global aparecen en la salida principal del modelo:
En este caso el valor del estadístico F es 362,89; así observando el p-valor o comparando el
valor del estadístico con el valor teórico de tablas (F(4,219)=2,413<362,89), podemos
rechazar la hipótesis nula de nulidad de todos los coeficientes (a excepción del 𝛽0 ) con una 147
confianza del 99%.
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• La prueba de igualdad de coeficientes nos servirá para contrastar si
dos “coeficientes de pendiente” del modelo de regresión son iguales.
• Estadístico de contraste:
𝛽መ𝑖 − 𝛽መ𝑗
𝑡=
𝑣𝑎𝑟 𝛽መ𝑖 + 𝑣𝑎𝑟 𝛽መ𝑗 − 2𝑐𝑜𝑣 𝛽መ𝑖 𝛽መ𝑗
• Regla de decisión:
148
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• En Gretl a través de la opción “Contrastes” -> “Restricciones lineales”
podemos llevar a cabo cualquier contraste que suponga una
restricción lineal para los parámetros del modelo usando el
estadístico F:
149
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• Si, como hemos planteado al principio, queremos comprobar si una
habitación adicional tiene el mismo efecto sobre el precio que un
baño adicional (b[3]-b[4]=0):
En este caso el valor del estadístico F es 1,201; así
observando el p-valor o comparando el valor del estadístico
con el valor teórico de tablas (F(1,219)=6,752>1,201),
podemos aceptar la hipótesis nula de igualdad de
coeficientes con una confianza del 99%.
150
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• Para contrastar la exclusión de conjuntos de variables, podemos usar
la opción anterior de contrastes de restricciones lineales o la opción
de “Contrastes”->”Omisión de variables”:
152
Importancia del análisis de errores en la
modelización empírica
𝑌𝑖
𝑌𝑖 = 𝑌𝑖 + 𝑢ො 𝑖
153
𝑢ො 𝑖 = 𝑌𝑖 − 𝑌𝑖
Importancia del análisis de errores en la
modelización empírica
• El análisis de los errores en el contexto del modelo de regresión resulta
fundamental porque nos da información sobre “dónde” y en qué medida “falla” el
modelo.
• Esta información es imprescindible en la etapa de validación porque nos permite
plantearnos mejoras en el modelo que nos aporten una mejor capacidad
explicativa y predictiva.
• Además, cuando vamos a hacer uso de un modelo ya validado, éste siempre
tendrá un determinado grado de error que debemos tener en cuenta a la hora de
hacer predicciones o estimaciones y obtener conclusiones.
• En línea con el análisis de los errores, la bondad de ajuste también nos da
información muy relevante sobre la calidad del modelo para su uso si bien, como
veremos más adelante, en algunos casos un valor a priori bueno o muy bueno de
la medida de bondad de ajuste no implica necesariamente que el modelo pueda 154
ser validado.
Detección de puntos de Influencia
Así, un dato atípico es una
observación que genera un
error anormalmente grande
y un punto de influencia es
un dato atípico que tiene
capacidad para afectar de
forma significativa al
resultado del modelo.
155
Fuente: www.imarranz.com
Detección de puntos de Influencia
Criterios (Gretl):
2(𝑘+1)
• Detección de punto de apalancamiento con h >
𝑛
𝑘+1
• Detección de punto influyente con DFFITS > 2
𝑛
156
Medidas resumen de error
2500
2000
1500
1000
158
500
-500
0 50 100 150 200
Medidas de ajuste global
• Coeficiente de determinación R2
Teniendo en cuenta que el coeficiente de determinación es una medida de bondad de ajuste que nos
mide la proporción de variabilidad de la variable endógena que somos capaces de explicar a través
de la regresión:
161
Medidas de ajuste global
• Coeficiente de determinación R2
Como se ha indicado en la diapositiva anterior el coeficiente de determinación R2 toma
valores entre 0 y 1, representando el valor 1 un ajuste perfecto y el valor 0 el peor ajuste
posible. Sin embargo:
El coeficiente de determinación R2 es quizás la medida más empleada para valorar la capacidad explicativa
de un modelo, sin embargo, presenta una serie de limitaciones que hacen que a la hora de elegir un
modelo, debamos basarnos también en otros criterios:
• Sirve para comparar entre modelos que tengan la misma variable endógena
• Siempre aumenta ante la inclusión de nuevas variables explicativas en el modelo, lo cual hace posible que se 162
acaben incorporando variables poco relevantes dando lugar a modelos sobredeterminados.
Medidas de ajuste global
• R2 – ajustada o R2 – corregida
La R2 – ajustada o R2 – corregida es otra medida de bondad de ajuste pero con la ventaja sobre el
coeficiente de determinación R2 de no ser tan sensible a la incorporación de variables explicativas en el
modelo:
𝑛−1
𝑅ത 2 = 1 − 1 − 𝑅2
𝑛 − (𝑘 + 1)
• La R2 – ajustada siempre tomará un valor menor o igual que la R2 pudiendo incluso llegar a tomar valores
negativos.
• Al igual que la R2 , la R2 – ajustada solo sirve para comparar entre modelos con la misma variable endógena y 163
distinta combinación de explicativas. Pero, puesto que es menos sensible a la incorporación de variables
explicativas, al comparar modelos es más conveniente usar la R2 – ajustada .
Medidas de ajuste global
• Criterio de información de Akaike (AIC) y Criterio de Información de
Schwarz (BIC)
𝑆𝐶𝑅 𝑘+1 Τ𝑛
𝑆𝐶𝑅
2 𝑘+1 Τ𝑛 𝐵𝐼𝐶 = 𝑛
AIC = 𝑒
𝑛 𝑛
Puesto que ambas medidas se basan en cálculos a partir de los errores, un modelo será mejor 164
cuanto menor sea el valor de ambos criterios.
Medidas de ajuste global
165
Tema I.1.-
Repaso de Fundamentos Básicos
de Econometría
Asignatura: Econometría de la Empresa
Profesora: Beatriz Sánchez
166