0% encontró este documento útil (0 votos)
702 vistas166 páginas

DiapositivasI 1

Este documento presenta el programa de la asignatura "Econometría de la Empresa", que cubre problemas y soluciones habituales en la especificación de modelos de regresión. Los temas incluyen fundamentos básicos de econometría, problemas relacionados con el tamaño muestral, forma funcional incorrecta, multicolinealidad, cambio estructural y problemas de regresores estocásticos e ineficiencia en los estimadores.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
702 vistas166 páginas

DiapositivasI 1

Este documento presenta el programa de la asignatura "Econometría de la Empresa", que cubre problemas y soluciones habituales en la especificación de modelos de regresión. Los temas incluyen fundamentos básicos de econometría, problemas relacionados con el tamaño muestral, forma funcional incorrecta, multicolinealidad, cambio estructural y problemas de regresores estocásticos e ineficiencia en los estimadores.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 166

Programa de la asignatura (Sección I)

• Sección I.- Problemas y soluciones habituales en la especificación de Modelos


de Regresión
• Tema I. 1.- Repaso de Fundamentos Básicos de Econometría
• Tema I. 2.- Problemas relacionados con el tamaño muestral: muestra pequeña, no
normalidad y media no nula
• Tema I. 3.- Problema de forma funcional incorrecta: test sobre formas funcionales y
manejo de la no linealidad
• Tema I. 4.- Problemas de multicolinealidad: definición, consecuencias y estrategias
de detección y solución
• Tema I. 5.- Problema de cambio estructural: definición, detección y alternativas de
especificación
• Tema I. 6.- Problemas de regresores estocásticos: omisión de variables relevantes,
errores de medida, endogeneidad, modelos multiecuacionales y modelos dinámicos.
• Tema I. 7.- Problemas de ineficiencia en los estimadores MCO: heterocedasticidad y 1
autocorrelación
Tema I.1.-
Repaso de Fundamentos Básicos
de Econometría
Asignatura: Econometría de la Empresa
Profesora: Beatriz Sánchez
2
Índice de contenidos
• Propósito del análisis econométrico: Objetivos y utilidad,
correlación y regresión, tipos de modelos y metodología
econométrica

3
PROPÓSITO DEL ANÁLISIS
ECONOMÉTRICO: OBJETIVOS Y
UTILIDAD, CORRELACIÓN Y REGRESIÓN,
TIPOS DE MODELOS Y METODOLOGÍA
ECONOMÉTRICA 4
¿Qué es y para qué sirve la econometría?
TEORÍA La econometría es el instrumento
ECONÓMICA matemático – estadístico que se usa en
el ámbito de la economía y la empresa
MATEMÁTICAS
ESTADÍSTICA
para explicar relaciones estocásticas
ECONOMETRÍA entre variables. Mediante la
modelización de dichas relaciones
podemos explicar hechos pasados y
INFORMÁTICA SENTIDO COMÚN predecir en el futuro.

Así, os modelos econométricos en el ámbito de la economía y la empresa sirven para estimar


relaciones entre variables económicas, contrastar teorías económicas, evaluar políticas
públicas o de negocio o predecir. Algunos ejemplos de aplicación serían: la estimación de 5
ventas en una empresa, el análisis de elasticidad de precios, el análisis de la influencia de la
publicidad en las ventas, la predicción del PIB, …
1.3.- CONCEPTO DE CORRELACIÓN,
CAUSALIDAD, CORRELACIÓN PARCIAL Y
REGRESIÓN

6
Correlación, causalidad y regresión
• En estadística, el análisis más básico que nos permite caracterizar la relación entre variables cuantitativas es
el análisis de correlación lineal. El coeficiente de correlación lineal es una medida estadística que da
información sobre el signo e intensidad de la relación entre dos variables cuantitativas (−1 ≤ 𝒓 ≤ 1).
• Sin embargo, recordemos que una elevada correlación o un buen ajuste en un análisis de regresión no
implica la existencia de una relación de causalidad entre las variables implicadas, es decir, que una relación
estadística no implica una relación causal. Debe distinguirse por tanto entre causalidad y casualidad.
• Las correlaciones fruto de la casualidad las conocemos como correlaciones espurias.

7
Fuente: www.tylervigen.com

Fuente: New England Journal of Medicine


Correlación, causalidad y regresión
• En algunas ocasiones interesará saber, no sólo el tipo de relación que existe entre dos variables en
cuanto a signo e intensidad (información que obtenemos a través del coeficiente de correlación), sino
también la relación funcional que hay entre ellas o, dicho de otro modo, la función matemática que las
relaciona.

• La primera diferencia fundamental que encontramos entre el concepto de correlación y el de regresión,


es que en el primero se suele suponer que las variables implicadas en el análisis son (ambas) aleatorias,
mientras que en regresión, juegan papeles distintos, una se considera aleatoria y otra fija.

• En el análisis de regresión cada variable implicada tiene un papel diferenciado:


• Variable Y: Variable dependiente, endógena o explicada
• Variable X´s: Variables independientes, exógenas o explicativas

• Diremos por tanto que la variable Y depende (es función) de la variable o las variables X.

𝑌 = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑘 )

“El análisis de regresión trata del estudio de la dependencia de la variable dependiente, respecto a una o más 8
variables (las variables explicativas), con el objetivo de estimar y/o predecir la media o valor promedio poblacional
de la primera en términos de los valores conocidos o fijos de las últimas.” (Gujarati, 2003)
Correlación, causalidad y regresión
Atendiendo a las características del modelo planteado, se puede distinguir entre los siguientes tipos de modelos:

• Según la estructura de los datos de los que dispongamos para el análisis econométrico, hablaremos de:
• Modelos con datos de corte transversal: Datos para un conjunto de observaciones en un mismo momento (Ejemplo: Estudio de la relación
entre el gasto mensual y el descuento acumulado en cupones de los clientes de un supermercado en el mes de enero de 2020)
• Modelos con datos de corte temporal: Datos para una única observación a lo largo del tiempo (Ejemplo: Estudio de la relación entre el gasto
mensual y el descuento acumulado en cupones de un cliente entre enero de 2019 y enero de 2021.)
• Modelos con datos de panel: Datos para un conjunto de observaciones a lo largo del tiempo (Ejemplo: Estudio de la relación entre el gasto
mensual y el descuento acumulado en cupones de los clientes de un supermercado entre enero de 2019 y enero de 2021.)

• Según el número de variables explicativas:


• Modelos de regresión simples: Una única variable explicativa (Ej. Modelo explicativo de las ventas en función, únicamente, de la inversión en
publicidad)
• Modelos de regresión múltiples: Más de una variable explicativa (Ej. Modelo explicativo de las ventas en función de la inversión en publicidad,
el día de la semana, la inflación, …)

• Según el número de variables endógenas:


• Modelos uniecuacionales: Una única variable endógena (Ej. Modelo explicativo de las ventas en función de la inversión en publicidad, siendo
la inversión una variable exógena)
• Modelos multiecuacionales: Más de una variable endógena (Ej. Modelo explicativo de las ventas en función de la inversión en publicidad,
siendo la inversión a su vez una variable endógena)

• Según el tipo de relación entre variables:


• En los modelos deterministas las relaciones entre variables son «exactas». Son la relaciones propias de las ciencias como la física o la química
en las que el error que se comente se debe fundamentalmente al error experimental.
• En los modelos estocásticos las relaciones entre las variables no son exactas al estar influenciadas por factores incontrolables, como por 9
ejemplo el comportamiento humano. Son las relaciones propias de las ciencias sociales.
Proceso de elaboración de un modelo econométrico
(Metodología econométrica)
• Fase 1.- Planteamiento de la teoría o hipótesis
En esta fase se define el objetivo de análisis. Al plantear la hipótesis establecemos qué relación queremos explicar o sobre qué relación
queremos predecir y suponemos algún resultado sobre dicha relación (Ejemplo: “La relación entre renta y consumo viene definida por un
coeficiente que se sitúa entre 0 y 1.”)
• Fase 2.- Especificación del modelo matemático
El modelo matemático es un modelo determinista. Su especificación consiste en decidir o elegir sobre los siguientes aspectos: variables
explicada y explicativas, forma funcional y observaciones ( Ejemplo: 𝐶 = 𝑐0 + 𝑐1 𝑌)
• Fase 3.- Especificación del modelo econométrico
En la especificación del modelo econométrico tenemos en consideración el carácter estocástico/aleatorio de las variables en el ámbito de
la economía y la empresa ( Ejemplo: 𝐶 = 𝑐0 + 𝑐1 𝑌 + 𝒖)
• Fase 4.- Obtención de los datos
Los datos podrán obtenerse de fuentes primarias o secundarias. (Ejemplo: Realización de encuesta, obtención de datos de fuentes
oficiales, …)
• Fase 5.- Estimación de parámetros del modelo econométrico
𝑌𝑖 = 𝜷𝒐 + 𝜷𝟏 𝑋𝑖 + 𝑢𝑖 (Ejemplo: 𝑌𝑖 = 125,2 + 0,65 𝑋𝑖 + 𝑢𝑖 )
• Fase 6.- Validación del modelo
En esta fase comprobaremos que se cumplen una serie de supuestos necesarios para que el modelo “funcione” correctamente y pueda ser
utilizado. Usaremos conceptos y procedimientos conocidos de inferencia estadística.
• Fase 7.- Utilización del modelo
Si todos los supuestos se cumplen, habremos validado el modelo y éste podrá ser utilizado para explicar relaciones entre variables o para
predecir. (Ejemplo: En nuestro caso podríamos estar interesados en saber cómo afectaría una subida salarial del 1,2% al consumo de las
familias.) Si no se puede validar el modelo, habría que corregir los fallos detectados (que siempre nos harán volver a replantearnos alguna
10
etapa previa como la especificación o el planteamiento de la hipótesis).
MODELO DE REGRESIÓN LINEAL: TIPOS
DE DATOS Y FORMULACIÓN

11
Especificación y notación del modelo econométrico
• Modelo de regresión lineal simple
𝑌𝑖 = 𝛽𝑜 + 𝛽1 𝑋𝑖 + 𝑢𝑖 <- Función de regresión poblacional

𝑌𝑖 = 𝛽መ𝑜 + 𝛽መ1 𝑋𝑖 + 𝑢ො 𝑖 <- Función de regresión muestral


Ecuación de la recta Componente estocástico
(parte determinista) Y

𝑌𝑖 𝛽መ1
𝑌𝑖 = 𝑌෠𝑖 + 𝑢ො 𝑖 𝑢ො 𝑖
𝑌෠𝑖
▪ Y: Variable explicada, endógena o dependiente
▪ X: Variable explicativa, exógena o independiente
መ Estimadores de los parámetros poblacionales
▪ 𝛽´s: 𝛽መ𝑜
▪ 𝑢:
ො Término de error o término de perturbación aleatoria 12
𝑋𝑖 X
Especificación y notación del modelo econométrico
¿Cómo se expresaría en forma
¿Cómo sería la base de datos matricial?
para construir este modelo? 𝑌𝑖 = 𝛽መ𝑜 + 𝛽መ1 𝑋𝑖 + 𝑢ො 𝑖
𝑌𝑖 𝑋𝑖
𝑌1 𝑋1
𝑌2 𝑋2 𝑌 = 𝑋𝛽መ + 𝑈

𝑌3 𝑋3
𝑌1 1 𝑋1 𝑢ො 1
… … 𝑌2 1 𝑋2 𝑢ො 2
𝑌𝑛 𝑋𝑛 𝑌3 1 𝑋2 𝛽መ𝑜 𝑢ො 3
= × +
⋮ ⋮ ⋮ 𝛽መ1 ⋮
⋮ ⋮ ⋮ ⋮ 13
𝑌𝑛 1 𝑋𝑛 𝑢ො 𝑛
Especificación y notación del modelo econométrico
precio con respecto a sup (con ajuste mínimo-cuadrático)
3000

𝑌𝑖 = 𝛽መ𝑜 + 𝛽መ1 𝑋𝑖 + 𝑢ො 𝑖
Y = -435. + 2.68X
𝑌𝑖 = 𝛽𝑜 + 𝛽1 𝑋𝑖 + 𝑢𝑖
2500

Precio Superficie 2000

𝑌𝑖 𝑋𝑖

precio
350 258,3 1500

360 330,8
1000

365 292,6
… … 500

2500,5 900,0 0
300 400 500 600 700 800 900 1000 1100
sup 14

𝑃𝑟𝑒𝑐𝑖𝑜𝑖 = 𝛽𝑜 + 𝛽1 𝑆𝑢𝑝𝑖 + 𝑢𝑖 𝑃𝑟𝑒𝑐𝑖𝑜𝑖 = −435,0 + 2,68 𝑆𝑢𝑝𝑖 + 𝑢ො 𝑖


Concepto de residuo y valor estimado
a) ¿Cuál es el precio estimado para una
𝑃𝑟𝑒𝑐𝑖𝑜𝑖 = −435,0 + 2,68 𝑆𝑢𝑝𝑖 + 𝑢ො 𝑖
vivienda de 360 metros cuadrados? ¿Y
el error cometido?
෣ 𝑖 = −435,0 + 2,68 𝑆𝑢𝑝𝑖
𝑃𝑟𝑒𝑐𝑖𝑜
b) ¿Cuál sería el precio estimado para una
vivienda de 60 metros cuadrados?
precio con respecto a sup (con ajuste mínimo-cuadrático)
c) ¿Tiene sentido la estimación anterior? 3000
Y = -435. + 2.68X

Precio Superficie
2500
𝑌𝑖 𝑋𝑖
350 258,3
2000

360 330,8

precio
365 292,6 1500

… …
1000
2500,5 900,0

500

15
0
300 400 500 600 700 800 900 1000 1100
sup
Especificación y notación del modelo econométrico
• Modelo de regresión lineal múltiple

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝑢𝑖 <- Función de regresión poblacional

<- Función de regresión muestral


Ecuación de la recta
(parte determinista) Componente estocástico

▪ Y: Variable explicada, endógena o dependiente 𝑌𝑖 = 𝑌෠𝑖 + 𝑢ො 𝑖


▪ X: Variables explicativas, exógenas o independientes
መ Estimadores de los parámetros poblacionales
▪ 𝛽´s:
▪ 𝑢:
ො Término de error o término de perturbación aleatoria
𝑋𝑘𝑖 16
Variable Observación
Especificación y notación del modelo econométrico
• Algunas notas resumen sobre la Función de Regresión Poblacional (FRP) y la
Función de Regresión Muestral (FRM):

• La FRP tiene como base todos los elementos de la población


• La FRM tiene como base los elementos de la muestra
• En cada estudio, partiremos de una FRP pero podemos obtener diferentes FRM en
función de las diferentes muestras que podemos tomar de base.
• El objetivo del análisis de regresión es la estimación de la FRP a través de la FRM

17
Especificación y notación del modelo econométrico
¿Cómo se expresaría en forma
¿Cómo sería la base de datos matricial?
para construir este modelo?

𝑌𝑖 𝑋𝟏𝑖 𝑋𝟐𝑖 𝑋𝟑𝑖 𝑋𝒌𝑖


𝑌1 𝑋11 𝑋21 𝑋31 𝑋𝑘1 𝑌 = 𝑋𝛽መ + 𝑈

𝑌2 𝑋12 𝑋22 𝑋32 𝑋𝑘2
𝑌2 𝑋13 𝑋23 𝑋33 𝑋𝑘3
… … … … …
𝑌𝑛 𝑋1𝑛 𝑋2𝑛 𝑋3𝑛 𝑋𝑘𝑛

18
Especificación y notación del modelo econométrico
Precio Superficie Gar Tipo_
𝑌𝑖 𝑋𝟏𝑖 𝑋𝟐𝑖 muni.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝑢𝑖
𝑋𝟑𝑖
350 258,3 3 0
360 330,8 3 0 𝑌𝑖 = 𝛽መ0 + 𝛽መ1 𝑋1𝑖 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 + 𝑢ො 𝑖
365 292,6 3 0
… … … …
2725 1200,0 7,5 1

𝑃𝑟𝑒𝑐𝑖𝑜𝑖 = 𝛽0 + 𝛽1 𝑆𝑢𝑝𝑖 + 𝛽2 𝐺𝑎𝑟𝑖 + 𝛽3 𝑡𝑖𝑝𝑜_𝑚𝑢𝑛𝑖𝑖 + 𝑢𝑖

19
𝑃𝑟𝑒𝑐𝑖𝑜𝑖 = −705,2 + 2,2𝑆𝑢𝑝𝑖 + 129,3𝐺𝑎𝑟𝑖 + 101,3𝑡𝑖𝑝𝑜_𝑚𝑢𝑛𝑖𝑖 + 𝑢𝑖
El papel de la perturbación aleatoria en el modelo de
regresión lineal
El término de error aparece como consecuencia de todos los factores omitidos en el modelo
que tienen influencia sobre la variable endógena (Y).

• Forma funcional incorrecta


• Variables omitidas por:
• Factores inobservables
• No disponibilidad
• Principio de parsimonia
• Desconocimiento
• Aleatoriedad del comportamiento humano 20
El papel de la perturbación aleatoria en el modelo de regresión lineal
A continuación se indican algunas hipótesis básicas sobre el término de perturbación aleatoria que tendrán
importancia más adelante:
• Esperanza igual a 0: 𝑬 𝒖𝒊 = 𝟎 ∀ 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝑵
• Varianza constante: 𝑽𝒂𝒓 𝒖𝒊 = 𝝈𝟐 ∀ 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝑵
temp con respecto a demand (con ajuste mínimo-cuadrático) foodexp con respecto a income (con ajuste mínimo-cuadrático)
65 3000
Y = -23.2 + 196.X Y = 147. + 0.485X

60

2500

55

50 2000

foodexp
45
temp

1500

40

35 1000

30

500

25

20 0
0.26 0.28 0.3 0.32 0.34 0.36 0.38 0.4 0.42 0.44 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
demand income

• Ausencia de relación con las variables exógenas:


𝑬 𝒖𝒊 /𝑿𝑲 = 𝑬 𝒖𝒊 ∀ 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝑵 ; ∀ 𝒌
21
• Distribución normal: Esta hipótesis unida a las dos primeras implica que 𝒖𝒊 ~ 𝑵(𝟎, 𝝈)
ESTIMACIÓN DE LOS PARÁMETROS
POR MÍNIMOS CUADRADOS
ORDINARIOS (MCO) Y MÁXIMA
VEROSIMILITUD (MV)
22
Estimación de los parámetros
• ESTIMADOR MÍNIMO CUADRÁTICO (MCO)
Para obtener los estimadores (𝛽መ0 , 𝛽መ1 , 𝛽መ2 , 𝛽መ3 …, 𝛽መ𝑘 ) este procedimiento se basa en
obtener la combinación de parámetros que minimizan la suma de errores al
cuadrado.
𝑌෠𝑖 𝑌𝑖 = 𝑌෠𝑖 + 𝑢ො 𝑖

𝑌𝑖 = 𝛽መ0 + 𝛽መ1 𝑋1𝑖 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 + ⋯ + 𝛽መ𝑘 𝑋𝑘𝑖 + 𝑢ො 𝑖


𝑢ො 𝑖 = 𝑌𝑖 − 𝑌෠𝑖

𝑢ො 𝑖 = (𝑌𝑖 − 𝛽መ0 − 𝛽መ1 𝑋1𝑖 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖 )

𝒏 𝒏 23
෡𝟎 − 𝜷
ෝ 𝟐𝒊 = ෍(𝒀𝒊 − 𝜷
෍𝒖 ෡ 𝟏 𝑿𝟏𝒊 − 𝜷
෡ 𝟐 𝑿𝟐𝒊 − 𝜷
෡ 𝟑 𝑿𝟑𝒊 − ⋯ − 𝜷
෡ 𝒌 𝑿𝒌𝒊 )𝟐
𝒊=𝟏 𝒊=𝟏
Estimación de los parámetros
• ESTIMADOR MÍNIMO CUADRÁTICO (MCO)
𝒏 𝒏
෡𝟎 − 𝜷
ෝ 𝟐𝒊 = 𝒎𝒊𝒏 ෍(𝒀𝒊 − 𝜷
𝒎𝒊𝒏 ෍ 𝒖 ෡ 𝟏 𝑿𝟏𝒊 − 𝜷
෡ 𝟐 𝑿𝟐𝒊 − 𝜷
෡ 𝟑 𝑿𝟑𝒊 − ⋯ − 𝜷
෡ 𝒌 𝑿𝒌𝒊 )𝟐
𝒊=𝟏 𝒊=𝟏
𝛿 σ𝑛𝑖=1(𝑌𝑖 − 𝛽መ0 − 𝛽መ1 𝑋1𝑖 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖 )2
=0
𝛿 ෡𝛽0

2
𝛿 σ𝑛𝑖=1 𝑌𝑖 − 𝛽መ0 − 𝛽መ1 𝑋1𝑖 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖
=0
Resolviendo el 𝛿 ෡𝛽1
sistema,
llegaremos a las
expresiones con …
las que obtener
los estimadores 𝛿 σ𝑛𝑖=1(𝑌𝑖 − 𝛽መ0 − 𝛽መ1 𝑋1𝑖 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖 )2 24
=0
𝛿 ෡𝛽𝑘
Estimación de los parámetros
• ESTIMADOR MÍNIMO CUADRÁTICO (MCO)
𝒏 𝒏
෡𝟎 − 𝜷
ෝ 𝟐𝒊 = 𝒎𝒊𝒏 ෍(𝒀𝒊 − 𝜷
𝒎𝒊𝒏 ෍ 𝒖 ෡ 𝟏 𝑿𝟏𝒊 − 𝜷
෡ 𝟐 𝑿𝟐𝒊 − 𝜷
෡ 𝟑 𝑿𝟑𝒊 − ⋯ − 𝜷
෡ 𝒌 𝑿𝒌𝒊 )𝟐
𝒊=𝟏 𝒊=𝟏

Para obtener una expresión que nos sirva para cualquier modelo de regresión
independientemente del número de variables explicativas, vamos a trabajar con la
notación matricial. Recordemos que:

25
Estimación de los parámetros
• ESTIMADOR MÍNIMO CUADRÁTICO (MCO)
𝒏 𝒏
෡𝟎 − 𝜷
ෝ 𝟐𝒊 = 𝒎𝒊𝒏 ෍(𝒀𝒊 − 𝜷
𝒎𝒊𝒏 ෍ 𝒖 ෡ 𝟏 𝑿𝟏𝒊 − 𝜷
෡ 𝟐 𝑿𝟐𝒊 − 𝜷
෡ 𝟑 𝑿𝟑𝒊 − ⋯ − 𝜷
෡ 𝒌 𝑿𝒌𝒊 )𝟐
𝒊=𝟏 𝒊=𝟏

ෝ 𝟐𝒊
𝒎𝒊𝒏 ෍ 𝒖
𝒊=𝟏

26
Estimación de los parámetros
• ESTIMADOR MÍNIMO CUADRÁTICO (MCO)

Si derivamos respecto al vector de parámetros e igualamos a 0:

27
Estimación de los parámetros
• ESTIMADOR MÍNIMO CUADRÁTICO (MCO)
Para poder obtener el vector de
Despejando el vector de parámetros: estimadores necesitamos que se
cumpla:
𝑋´𝑋 = 0

𝜌 𝑋 =𝑘+1

Donde k es el número de variables


explicativas. Por tanto, la segunda
expresión implica que la matriz X
tenga rango pleno.

28
0
Estimación de los parámetros

• ESTIMADOR DE MÁXIMA VEROSIMILITUD (MV)


Se trata de un método alternativo para obtener una expresión que nos permita calcular los
estimadores de los parámetros del modelo de regresión. El fundamento que hay detrás de este
método es maximizar la probabilidad de obtener una determinada muestra partiendo de una serie de
hipótesis.

• Para determinar el valor del estimador MV de un parámetro poblacional debemos partir de:

• Determinar las hipótesis relativas a la distribución teórica del parámetro en la población


• Expresar matemáticamente la probabilidad de obtener una determinada muestra, en función
de las hipótesis asumidas, de modo que esa expresión sea matemáticamente “maximizable” en
función del parámetro muestral de interés.
29
Estimación de los parámetros
Recordemos que al final del tema anterior, establecimos unas hipótesis sobre el término la
perturbación aleatoria. Estas hipótesis son las que necesitaremos plantear de partida para aplicar el
método MV y obtener la expresión matemática del estimador MV en este tema:

• Esperanza igual a 0: 𝑬 𝒖𝒊 = 𝟎 ∀ 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝑵

• Varianza constante: 𝑽𝒂𝒓 𝒖𝒊 = 𝝈𝟐 ∀ 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝑵

• Ausencia de relación con las variables exógenas:


𝑬 𝒖𝒊 /𝑿𝑲 = 𝑬 𝒖𝒊 ∀ 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝑵 ; ∀ 𝒌

• Distribución normal: Esta hipótesis unida a las dos primeras implica que
30
𝒖𝒊 ~ 𝑵(𝟎, 𝝈)
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
• Así, si asumimos la distribución de la perturbación aleatoria como
normal, tendremos que la expresión de la función de densidad para
cada uno de los valores es:

1 𝑢𝑖2

𝑓 𝑢𝑖 = 𝑒 2𝜎2
2𝜋𝜎 2

31
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
• Si recordamos de estadística los pasos para obtener el estimador
máximo verosímil de un parámetro poblacional:
• Partimos de la función de densidad

• Obtenemos la función de verosimilitud (aplicamos logaritmos para


facilitar el cálculo)

• Maximizamos la función de verosimilitud derivando respecto a los


32
parámetros de interés e igualando a 0.
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
• Así, si asumimos la distribución de la perturbación aleatoria como normal,
tendremos que la expresión de la función de densidad para cada uno de los
valores es:
1 𝑢𝑖2

𝑓 𝑢𝑖 = 𝑒 2𝜎2
2𝜋𝜎 2

𝑛
1 σ𝑛 𝑢𝑖2
Función de − 𝑖=1
𝐿 = 𝑓 𝑢 = ෑ 𝑓 𝑢𝑖 = 𝑛 𝑒 2𝜎2 33
verosimilitud 2𝜋𝜎 2
𝑖=1
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
መ dicho
• Ahora se trata de maximizar la función de verosimilitud respecto a los 𝛽.O
que otra manera, se trata de obtener los 𝛽መ que hacen máxima la función de
verosimilitud:
𝑛
1 σ𝑛
𝑖=1 𝑢𝑖2

𝑀𝑎𝑥(𝐿) = 𝑀𝑎𝑥(𝑓 𝑢 ) = 𝑀𝑎𝑥 ෑ 𝑓 𝑢𝑖 = 𝑀𝑎𝑥 𝑛 𝑒 2𝜎2
𝑖=1 2𝜋𝜎 2

• Por otro lado sabemos que:


𝒏

ෝ 𝟐𝒊
෍𝒖 34
𝒊=𝟏
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
• Si, para simplificar el cálculo, tomamos logaritmos en la expresión anterior (la que
maximiza la función de verosimilitud) y luego derivamos respecto a los 𝛽መ :
𝑛
1 σ𝑛 𝑢 2
𝑖
− 𝑖=12
𝑀𝑎𝑥(𝐿) = 𝑀𝑎𝑥(𝑓 𝑢 ) = 𝑀𝑎𝑥 ෑ 𝑓 𝑢𝑖 = 𝑀𝑎𝑥 𝑛𝑒 2𝜎
𝑖=1 2𝜋𝜎 2

1 σ𝑛
𝑖=1 𝑢𝑖2 𝑛 σ𝑛𝑖=1 𝑢𝑖2

𝑙𝑛 𝑛𝑒 2𝜎2 = ln 1 − ln 2𝜋𝜎 2 − 35
2𝜋𝜎 2 2𝜎 2
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
• Si, para simplificar el cálculo, tomamos logaritmos en la expresión anterior (la que
maximiza la función de verosimilitud) y luego derivamos respecto a los 𝛽መ :
𝑛 σ𝑛𝑖=1 𝑢𝑖2
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2

𝑛 ෡𝑈
𝑈´ ෡
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2

𝑛 መ
(𝑌 − 𝑋𝛽)´(𝑌 መ
− 𝑋𝛽) 36
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2
3.2.- Derivación matemática de la expresión del
estimador de Máxima Verosimilitud (MV)
• Llegados a este punto, podemos ver que:


𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] → 𝑀𝑖𝑛(𝑌 − 𝑋𝛽)´(𝑌 መ
− 𝑋𝛽)

• Que es exactamente el problema que resolvíamos para obtener la expresión


matemática de los estimadores MCO, por tanto, los estimadores MCO y de MV
coincidirán.
෡ 𝑴𝑪𝑶 = 𝜷
𝜷 ෡ 𝑴𝑽
37
INTERPRETACIÓN DE LOS
COEFICIENTES ESTIMADOS

38
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes la podemos abordar desde una
triple perspectiva:
• La interpretación matemática de los coeficientes
• La interpretación gráfica de los coeficientes
• La interpretación en el contexto de un problema concreto de los coeficientes.

39
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes desde una perspectiva
MATEMÁTICA:
Si partimos del modelo de regresión lineal simple:
𝑌෠𝑖 = 𝛽መ𝑜 + 𝛽መ1 𝑋𝑖

𝛽መ𝑜 : Es el valor esperado para 𝑌෠𝑖 cuando 𝑋𝑖 es igual a 0

𝛽መ0 = 𝑌෠𝑖 /𝑋𝑖 = 0

𝛽መ1 : Es la variación esperada para 𝑌෠𝑖 por cada incremento unitario en 𝑋𝑖


𝜕𝑌෠𝑖 40
𝛽መ1 =
𝜕𝑋𝑖
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes desde una perspectiva GRÁFICA:

𝑌෠𝑖 = 𝛽መ𝑜 + 𝛽መ1 𝑋𝑖

Y
𝛽መ𝑜 : Es la ordenada en el origen 𝛽መ1

𝛽መ1 : Es la pendiente de la recta

𝛽መ𝑜
41
X
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes en el CONTEXTO de un problema
concreto:
෣ 𝑖 = −435,0 + 2,68 𝑆𝑢𝑝𝑖
𝑃𝑟𝑒𝑐𝑖𝑜
(Sabiendo que el precio está expresado en miles de euros y la superficie en metros
cuadrados)

𝛽መ𝑜= -435,0 => Una vivienda cuya superficie son 0 metros cuadrados, tiene un precio
esperado de -435.000 euros. Este coeficiente no siempre tiene una interpretación lógica en el
contexto del problema.

𝛽መ1 = + 2,68 => Por cada metro cuadrado adicional que tenga la vivienda, el incremento
esperado en el precio será de 2.680 euros. 42
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes en el CONTEXTO de un problema
concreto:
෣ 𝑖 = 691,4 − 1,94 𝑅𝑎𝑡𝑖𝑜𝑖
𝑁𝑜𝑡𝑎
(Supongamos que se ha construido el modelo anterior para hacer un estudio de la relación
entre la nota media en matemáticas en 5º de primaria y el número de alumnos por profesor
en dicho curso en una muestra de 400 colegios. Sabiendo que la “nota” está expresada en
puntos (0-1000) y la “ratio” representa el número de alumnos por profesor)

𝛽መ𝑜= 691,4 => En un colegio en el que en 5º de primaria haya 0 alumnos por profesor, la
nota media esperada sería 691,4.

𝛽መ1 = - 1,94 => Por cada alumno más por profesor que tenga la clase de 5º de primaria, la
reducción esperada en la nota media será de 1,94 puntos.
43
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes desde una perspectiva
MATEMÁTICA:
Si partimos del modelo de regresión lineal múltiple:

𝑌෠𝑖 = 𝛽መ0 + 𝛽መ1 𝑋1𝑖 + 𝛽መ2 𝑋2𝑖 + ⋯ + 𝛽መ𝑘 𝑋𝑘𝑖

𝛽መ𝑜 : Es el valor esperado para 𝑌෠𝑖 cuando todas las 𝑋 son iguales a 0

𝛽መ0 = 𝑌෠𝑖 /𝑋1𝑖 = 0, 𝑋2𝑖 = 0, … , 𝑋𝑘𝑖 = 0

𝛽መ1 , 𝛽መ2 ,… 𝛽መ𝑘 : Es la variación esperada para 𝑌෠𝑖 por cada incremento unitario
en 𝑋1𝑖 , 𝑋2𝑖 ,…𝑋𝑘𝑖 respectivamente ceteris paribus. 44
𝜕𝑌෠𝑖 𝜕𝑌෠𝑖 𝜕𝑌෠𝑖
𝛽መ1 = 𝛽መ2 = … 𝛽መ𝑘 =
𝜕𝑋1𝑖 𝜕𝑋2𝑖 𝜕𝑋𝑘𝑖
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes en el CONTEXTO de un
problema concreto:
෣ 𝑖 = −550,7 + 261,6 𝐻𝑎𝑏𝑖
𝑃𝑟𝑒𝑐𝑖𝑜

(Sabiendo que el precio está expresado en miles de euros)

𝛽መ𝑜 = -550,7 => Una vivienda con 0 habitaciones, tiene un precio esperado de -
550.000 euros.

𝛽መ1 = + 261,6 => Por cada habitación adicional que tenga la vivienda, el
incremento esperado en el precio será de 261.600 euros.
45
Interpretación básica de la cuantía de los
coeficientes
• La interpretación de la cuantía de los coeficientes en el CONTEXTO de un problema
concreto:
෣ 𝑖 = −711,1 + 81,6 𝐻𝑎𝑏𝑖 + 236,2 𝐵𝑎ñ𝑜𝑠𝑖
𝑃𝑟𝑒𝑐𝑖𝑜
(Sabiendo que el precio está expresado en miles de euros)

𝛽መ𝑜= -711,1 => Una vivienda con 0 habitaciones y 0 baños, tiene un precio esperado de -
711.100 euros.

𝛽መ1 = + 81,6 => Por cada habitación adicional que tenga la vivienda, el incremento
esperado en el precio será de 81.600 euros siempre y cuando el resto de variables
permanezca constante. Sin embargo… esta conclusión difiere de la obtenida anteriormente
46
𝛽መ2 = + 236,2 => Por cada baño adicional que tenga la vivienda, el incremento esperado en
el precio será de 236.200 euros siempre y cuando el resto de variables permanezca constante.
Interpretación de los estimadores ante cambios
de escala en las variables
• Supongamos que partimos de un modelo en el • Supongamos que partimos del mismo ejemplo
que queremos explicar el gasto semanal en que en la diapositiva anterior en el que
función del ingreso semanal de un grupo de 30 queremos estimar un modelo para explicar el
jóvenes: gasto semanal en función del ingreso semanal
de un grupo de 30 jóvenes:
෣ 𝑖 = 9,29 + 0,64 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖
𝐺𝑎𝑠𝑡𝑜 ෣ 𝑖 = 9,29 + 637,8 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖
𝐺𝑎𝑠𝑡𝑜

(Sabiendo que tanto el ingreso como el gasto están (Sabiendo que el ingreso está expresado en miles
expresados en euros) euros y el gasto en euros, es decir, respecto al
ejemplo anterior, hemos cambiado de escala los
ingresos)
¿Cómo interpretamos los coeficientes?
¿Podemos decir que como el coeficiente que ¿Cómo interpretamos ahora los coeficientes?
acompaña al ingreso está próximo a 0 casi no hay
relación entre las variables?
¿Podemos decir que como el coeficiente que
acompaña al ingreso se ha incrementado
significativamente la relación entre las variables es
ahora más intensa? 47
Interpretación de los coeficientes estimados en modelos log/log,
log/nivel, nivel/log
• Hacer transformaciones logarítmicas en las variables de un modelo puede aportarnos
ciertas ventajas, pero tenemos que tener en cuenta que la interpretación de los coeficientes
cambia en función de si la transformación se aplica a la variable endógena, a la exógena o a
ambas.

Especificación Expresión Interpretación de

Nivel-Nivel 𝑌𝑖 = 𝛽መ𝑜 + 𝛽መ1 𝑋𝑖 + 𝑢ො 𝑖 Variación en unidades en “y” por cada incremento en 1


unidad de la “X”

log (𝑌𝑖 ) = 𝛽መ𝑜 + 𝛽መ1 𝑋𝑖 + 𝑢ො 𝑖


= variación porcentual de “y” por cada
Log-nivel incremento en 1 unidad de la “X”

Nivel-log 𝑌𝑖 = 𝛽መ𝑜 + 𝛽መ1 log (𝑋𝑖 ) + 𝑢ො 𝑖 = variación en unidades de “y” cuando


aumenta un 1% la “X”
48
Log-Log log (𝑌𝑖 ) = 𝛽መ𝑜 + 𝛽መ1 log (𝑋𝑖 ) + 𝑢ො 𝑖 Incremento porcentual de “y” cuando aumenta un 1%
la “X”
Interpretación de los coeficientes estimados en modelos log/log,
log/nivel, nivel/log

• NIVEL-NIVEL
• Partimos de un modelo en el que disponemos del peso al nacer (en
kg) de un grupo de 1388 niños y el número de cigarrillos que
fumaron sus madres durante el embarazo.
• En este caso, un incremento de un cigarrillo tiene una disminución
esperada en el peso de 0,015 kg.
𝑃𝑒𝑠𝑜𝑁𝑎𝑐𝑖 = 3,59 − 0,015 𝑐𝑖𝑔𝑖

49
Interpretación de los coeficientes estimados en modelos log/log,
log/nivel, nivel/log

• LOG-NIVEL
• Partimos de un modelo en el que disponemos del salario por hora
(en €) de 526 empleados de una gran empresa y sus años de
educación. Aplicamos una transformación logarítmica sobre la
variable salario por hora.
• En este caso, un incremento de 1 año en la educación se traduce en
un incremento de un 8,27% en el salario por hora.
𝑙_𝑠𝑎𝑙𝑎𝑟𝑖𝑜𝑖 = 0,584 + 0,083 𝑒𝑑𝑢𝑐𝑖

50
Interpretación de los coeficientes estimados en modelos log/log,
log/nivel, nivel/log

• NIVEL-LOG
• Partimos de un modelo en el que disponemos del precio de venta
(en $) de 321 viviendas y la distancia (en km) de cada una de ellas a
una incineradora. Aplicamos una transformación logarítmica sobre
la variable distancia.
• En este caso, un incremento del 1% en la distancia se traduce en un
aumento esperado del precio de venta de la vivienda de 236,29$ .
𝑃𝑟𝑖𝑐𝑒𝑖 = 55.323,2 + 23.629,7 𝑙_𝑑𝑖𝑠𝑡𝑎𝑖

51
Interpretación de los coeficientes estimados en modelos log/log,
log/nivel, nivel/log

• LOG-LOG
• Partimos de un modelo en el que disponemos del gasto mensual con
tarjeta de crédito (en €) y el salario anual (también en €) de un grupo de
72 personas. Transformamos ambas variables en logaritmos.
• En este caso, un incremento de un 1% en el salario anual se traduce en
un incremento esperado en el gasto mensual con tarjeta de crédito de un
1,33%.
𝑙_𝐺𝑎𝑠𝑡𝑜𝑇𝐶𝑖 = −8,78 + 1,33 𝑙_𝑠𝑎𝑙𝑎𝑟𝑖𝑜𝑖

52
Interpretación de los coeficientes estimados en modelos log/log,
log/nivel, nivel/log
• ¿En qué casos nos interesará hacer transformaciones logarítmicas sobre las
variables del modelo?
Y • Para “linealizar” un modelo que en su forma original no es lineal:

𝑌𝑖 = 𝐴 𝐾 𝛼 𝐿𝛽

ln (𝑌𝑖 ) = ln 𝐴 + 𝛼 ln 𝐾 + 𝛽 ln (𝐿)
L
• Para reducir el grado de dispersión de las variables implicadas. El uso de
logaritmos en este caso puede ser de gran utilidad como medio para evitar la
aparición de heterocedasticidad (varianza no constante del término de error) en
un modelo. Variable Media Mediana D. T. Mín Máx 53
wage 13.3 11.5 9.08 1.02 91.3
lwage 2.41 2.45 0.594 0.0233 4.51
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Una variable categórica es una variable cualitativa que puede tomar varios estados diferentes
• 1: Norte 2: Sur 3: Este 4: Oeste
• 1: Primavera 2: Verano 3: Otoño 4:Invierno
• …

• Una variable dicotómica es un tipo concreto de variable categórica que puede tomar dos estados
mediante los valores 0 y 1. Por ejemplo:

• 0: Hombre 1: Mujer; 0
• 0: Municipio rural 1: Municipio urbano
• 0: Norte 1: Sur
• …

• En ambos casos, el valor numérico asignado a cada estado no tiene valor como número. Si ponemos
como ejemplo el caso de las estaciones del año, no podemos decir que la primavera “sea o valga el
doble” que el verano. Además de que resulta absurdo, hay que tener en cuenta que la asignación de
los valores numéricos a cada estado es completamente aleatoria. 54
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Interpretación de los coeficientes para variables dicotómicas:
El coeficiente aporta
información sobre la diferencia
entre ambos estados en el
valor de la variable endógena.

𝛽መ1 = 549,073 => El salario mensual


esperado para hombres es 549,07 u.m.
superior al esperado para mujeres
Permaneciendo el resto de variables
55
constantes.
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Variables categóricas de más de dos estados:
En este caso no tiene
sentido lógico la
interpretación de la
variable “REGION” .

56
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Variables categóricas de más de dos estados:

57
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Variables categóricas de más de dos estados:
1 1 0 0 0
1 0 1 0 0
𝑋= 1 0 0 1 0
1 0 0 0 1
1 ⋮
1 0 0 0 1
La primera columna es siempre la suma
de las demás, por tanto, nos encontramos
ante el caso de combinación lineal
perfecta, lo que implica que:

𝑋 =0 𝑋´𝑋 = 0 58
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Variables categóricas de más de dos estados:

−1 𝐴𝑑𝑗(𝑋´𝑋)𝑡
𝑋´𝑋 = 0 No se puede calcular (𝑋´𝑋) =
𝑋´𝑋

Y por tanto tampoco podrían calcularse los coeficientes:

𝛽መ𝑀𝐶𝑂 = (𝑋´𝑋)−1 𝑋´𝑌

Por tanto, cuando nos encontramos ante una variable categórica que toma
más de dos estados, no podremos incorporar todos los estados en forma de
variable dicotómica 0-1 en el modelo, sino que tendremos que tomar un
estado como referencia y expresar el resto como dicotómicas 0-1 en el 59
modelo.
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Interpretación de los coeficientes con variables categóricas de más
de dos estados:
En este caso se interpretarán los
coeficientes tomando como
referencia la variable omitida “FALL”.
𝛽መ2 = 56,49 => El aumento esperado
en las ventas en invierno respecto
a otoño es de 56.485 vehículos
ceteris paribus.

𝛽መ3 = 347,778 => El aumento


esperado en las ventas en
primavera respecto a otoño es de 60
347.778 vehículos, ceteris paribus.
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Interpretación de los coeficientes con variables categóricas de más
de dos estados:
Si tomásemos en cuenta sólo
una estación del año, el
coeficiente nos daría el
efecto de esa estación
respecto al resto.

𝛽መ2 = −178,976 => En relación al resto


de estaciones, la caída de ventas en
otoño se espera que sea de 178.976
vehículos, ceteris paribus . 61
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Interpretación de los coeficientes con interacción de variables
dicotómicas:
La variable “GENDER_MAINT”
(producto de las variables GENDER
y MAINT) toma el valor 1 cuando la
persona es hombre y trabaja en
labores de mantenimiento y 0 en el
resto de casos.

62
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Interpretación de los coeficientes con interacción de variables
dicotómicas:
La variable “GENDER_MAINT”
(producto de las variables GENDER
y MAINT) toma el valor 1 cuando la
persona es hombre y trabaja en
labores de mantenimiento y 0 en el
resto de casos.
Aunque con la inclusión de las variables GENDER y MAINT podemos saber el efecto que
tiene sobre el salario ser hombre y trabajar en mantenimiento, el efecto que podemos
estudiar de esa manera es un efecto “aislado” de cada variable sobre la endógena. Al
introducir la variable “interacción” podemos analizar el efecto conjunto de la 63
coincidencia de ambos estados.
Interpretación de los coeficientes para variables dicotómicas y sus
interacciones
• Interpretación de los coeficientes con interacción de variables
dicotómicas:
En la siguiente tabla se indica el salario esperado en función del género
y de si se trabaja o no en mantenimiento
Mantenimiento No mantenimiento Dif.
Mantenimiento-
No mantenimiento
Hombre β0+β1+β2+β3 β0+β1 β2+β3
Mujer β0+β2 β0 β2
Dif. Hombre -Mujer β1+β3 β1
64
PROPIEDADES DE LOS
ESTIMADORES MCO EN EL MARCO
DEL MODELO BÁSICO DE REGRESIÓN
LINEAL
65
Propiedades de los estimadores MCO (Introducción)
• Hasta ahora hemos visto cómo se construye un modelo
econométrico, aspectos que hay que tener en cuenta a la hora de
elegir los datos y las variables, cómo se obtienen los estimadores y,
por último, cómo interpretamos los coeficientes estimados en un
modelo de regresión lineal.
• El paso siguiente es la validación del modelo, pero para ello
necesitamos algunas condiciones de partida, así como conocer ciertas
propiedades de los estimadores.
• En concreto, si en el marco de la validación del modelo quiero hacer
inferencia sobre los coeficientes, necesito conocer su distribución de
probabilidad (¿qué es una distribución de probabilidad?) 66
Propiedades de los estimadores MCO (Introducción)
• Los coeficientes que hemos obtenido hasta ahora en el contexto de
los modelos estudiados, son estimadores de los parámetros
poblacionales que desconocemos. Recordemos:
𝑃𝑟𝑒𝑐𝑖𝑜𝑖 = 𝛽0 + 𝛽1 𝑆𝑢𝑝𝑖 + 𝛽2 𝐻𝑎𝑏𝑖 + 𝑢𝑖 FRP

෣ 𝑖 = 𝛽መ0 + 𝛽መ1 𝑆𝑢𝑝𝑖 + 𝛽መ2 𝐻𝑎𝑏𝑖


𝑃𝑟𝑒𝑐𝑖𝑜 FRM

෣ 𝑖 = −711,1 + 81,6 𝐻𝑎𝑏𝑖 + 236,2 𝐵𝑎ñ𝑜𝑠𝑖


𝑃𝑟𝑒𝑐𝑖𝑜

• Cuando se trabaja con muestras, el interés no es saber qué pasa en la


muestra, sino poder extrapolar resultados a la población. Para llevar a 67
cabo esa extrapolación necesito recurrir a la inferencia.
Propiedades de los estimadores MCO (Introducción)

Tal y como se ha visto anteriormente, podemos generar diferentes


modelos de regresión para diferentes muestras extraídas de la
población, y para cada una de ellas, obtendremos un vector de
parámetros y un vector de errores:

68
Propiedades de los estimadores MCO (Introducción)

• Muestra 1 (tamaño n1):

𝑌1𝐼 = 𝛽መ0𝐼 + 𝛽መ1𝐼 𝑋11


𝐼
+ 𝛽መ2𝐼 𝑋21
𝐼
+ 𝛽መ3𝐼 𝑋31
𝐼
+ ⋯ + 𝛽መ𝑘𝐼 𝑋𝑘1
𝐼
+ 𝑢ො 1𝐼 𝑢ො 1𝐼
𝛽መ0𝐼
𝑢ො 2𝐼
𝑌2𝐼 = 𝛽መ0𝐼 + 𝛽መ1𝐼 𝑋12
𝐼
+ 𝛽መ2𝐼 𝑋22
𝐼
+ 𝛽መ3𝐼 𝑋32
𝐼
+ ⋯ + 𝛽መ𝑘𝐼 𝑋𝑘2
𝐼
+ 𝑢ො 2𝐼 𝛽መ1𝐼 𝑢ො 3𝐼
𝛽መ2𝐼 ⋮
𝑌3𝐼 = 𝛽መ0𝐼 + 𝛽መ1𝐼 𝑋13
𝐼
+ 𝛽መ2𝐼 𝑋23
𝐼
+ 𝛽መ3𝐼 𝑋33
𝐼
+ ⋯ + 𝛽መ𝑘𝐼 𝑋𝑘3
𝐼
+ 𝑢ො 3𝐼 …
𝛽መ𝑘𝐼 ⋮
𝑢ො 𝑛𝐼 𝑡

𝑌𝑛𝐼1 = 𝛽መ0𝐼 + 𝛽መ1𝐼 𝑋1𝑛


𝐼
+ መ2𝐼 𝑋2𝑛
𝛽 𝐼
+ መ3…
𝛽 𝐼 𝐼
𝑋3𝑛1 + ⋯ + መ
𝛽 𝐼 𝐼
𝑋
0 𝑘𝑛1 + 𝑢
ො 𝐼
𝑛1
1 1
69
Propiedades de los estimadores MCO (Introducción)

• Muestra 2 (tamaño n2):

𝑌1𝐼𝐼 = 𝛽መ0𝐼𝐼 + 𝛽መ1𝐼𝐼 𝑋11


𝐼𝐼
+ 𝛽መ2𝐼𝐼 𝑋21
𝐼𝐼
+ 𝛽መ3𝐼𝐼 𝑋31
𝐼𝐼
+ ⋯ + 𝛽መ𝑘𝐼𝐼 𝑋𝑘1
𝐼𝐼
+ 𝑢ො 1𝐼𝐼
𝑢ො 1𝐼𝐼
𝛽መ0𝐼𝐼
𝑌2𝐼𝐼 = 𝛽መ0𝐼𝐼 + 𝛽መ1𝐼𝐼 𝑋12
𝐼𝐼
+ 𝛽መ2𝐼𝐼 𝑋22
𝐼𝐼
+ 𝛽መ3𝐼𝐼 𝑋32
𝐼𝐼
+ ⋯ + 𝛽መ𝑘𝐼𝐼 𝑋𝑘2
𝐼𝐼
+ 𝑢ො 2𝐼𝐼 𝑢ො 2𝐼𝐼
𝛽መ1𝐼𝐼 𝑢ො 3𝐼𝐼
𝑌3𝐼𝐼 = 𝛽መ0𝐼𝐼 + 𝛽መ1𝐼𝐼 𝑋13
𝐼𝐼
+ 𝛽መ2𝐼𝐼 𝑋23
𝐼𝐼
+ 𝛽መ3𝐼𝐼 𝑋33
𝐼𝐼
+ ⋯ + 𝛽መ𝑘𝐼𝐼 𝑋𝑘3
𝐼𝐼
+ 𝑢ො 3𝐼𝐼 𝛽መ2𝐼𝐼 ⋮

𝛽መ𝑘𝐼𝐼 ⋮
𝑢ො 𝑛𝐼𝐼𝑡

𝑌𝑛𝐼𝐼2 መ መ መ መ
= 𝛽0 + 𝛽1 𝑋1𝑛2 + 𝛽2 𝑋2𝑛2 + 𝛽3𝐼𝐼 𝑋3𝑛
𝐼𝐼 𝐼𝐼 𝐼𝐼 𝐼𝐼 𝐼𝐼 𝐼𝐼
+ ⋯ + መ0𝐼𝐼 𝑋𝑘𝑛
𝛽 𝐼𝐼
+ 𝑢
ො 𝐼
𝑛
2 2 2
70
Propiedades de los estimadores MCO (Introducción)

• Muestra S (tamaño nt):

𝑌1𝑆 = 𝛽መ0𝑆 + 𝛽መ1𝑆 𝑋11


𝑆
+ 𝛽መ2𝑆 𝑋21
𝑆
+ 𝛽መ3𝑆 𝑋31
𝑆
+ ⋯ + 𝛽መ𝑘𝑆 𝑋𝑘1
𝑆
+ 𝑢ො 1𝑆 𝑢ො 1𝑆
𝛽መ0𝑆
𝑢ො 2𝑆
𝑌2𝑆 = 𝛽መ0𝑆 + 𝛽መ1𝑆 𝑋12
𝑆
+ 𝛽መ2𝑆 𝑋22
𝑆
+ 𝛽መ3𝑆 𝑋32
𝑆
+ ⋯ + 𝛽መ𝑘𝑆 𝑋𝑘2
𝑆
+ 𝑢ො 2𝑆 𝛽መ1𝑆 𝑢ො 3𝑆
𝛽መ2𝑆 ⋮
𝑌3𝑆 = 𝛽መ0𝑆 + 𝛽መ1𝑆 𝑋13
𝑆
+ 𝛽መ2𝑆 𝑋23
𝑆
+ 𝛽መ3𝑆 𝑋33
𝑆
+ ⋯ + 𝛽መ𝑘𝑆 𝑋𝑘3
𝑆
+ 𝑢ො 3𝑆 …
𝛽መ𝑘𝑆 ⋮
𝑢ො 𝑛𝑆𝑡
𝑆… 𝑆
𝑌𝑛𝑆𝑡 = 𝛽0 + 𝛽1 𝑋1𝑛𝑡 + 𝛽2 𝑋2𝑛𝑡 + 𝛽3 𝑋3𝑛𝑡 + ⋯ + 𝛽መ0𝑆 𝑋𝑘𝑛
መ 𝑆 መ 𝑆 𝑆 መ 𝑆 𝑆 መ 𝑆
𝑡
+ 𝑢
ො 𝑆
𝑛 𝑡
71
Propiedades de los estimadores MCO (Introducción)

𝑢ො 1𝐼 𝑢ො 1𝐼𝐼 𝑢ො 1𝑆 𝐸(𝑢1 ) 𝑉𝑎𝑟(𝑢1 )


𝑢ො 2𝐼 𝑢ො 2𝐼𝐼 𝑢ො 2𝑆 𝐸(𝑢2 ) 𝑉𝑎𝑟(𝑢2 )
𝑢ො 3𝐼 𝑢ො 3𝐼𝐼 𝑢ො 3𝑆 𝐸(𝑢3 ) 𝑉𝑎𝑟(𝑢3 )
⋮ ⋮ ⋮ ⋮ ⋮
⋮ ⋮ ⋮ ⋮ ⋮
𝑢ො 𝑛𝐼 1 𝑢ො 𝑛𝐼𝐼2 𝑢ො 𝑛𝑆𝑡 𝐸(𝑢𝑛 ) 𝑉𝑎𝑟(𝑢𝑛 )

72
Propiedades de los estimadores MCO (Introducción)
• Si recordamos de Estadística… De acuerdo con el Teorema Central del Límite, si tenemos 𝑋1, 𝑋2 , … 𝑋𝑛 variables
aleatorias independientes e idénticamente distribuidas con media μ y varianza 𝜎 2 entonces cuando n→∞:

𝑋ത − 𝜇
𝑍=𝜎
ൗ 𝑛
Converge a una distribución normal estandarizada.

• Si aplicamos el teorema central del límite sobre lo visto en relación al término de error y sabiendo que:
𝑬 𝒖𝒊 = 𝟎 ∀ 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝑵
𝑽𝒂𝒓 𝒖𝒊 = 𝝈𝟐 ∀ 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝑵

𝒖𝒊 ~ 𝑵(𝟎, 𝝈)
73
Propiedades de los estimadores MCO (Introducción)
• Por otro lado, se puede demostrar que los coeficientes del modelo
son una función lineal de los errores:
𝑊 = (𝑋´𝑋)−1 𝑋´
𝛽መ = (𝑋´𝑋)−1 𝑋´𝑌 𝛽መ = 𝑊´𝑌

𝑌 = 𝑋𝛽 + 𝑈

𝛽መ = (𝑋´𝑋)−1 𝑋´(𝑋𝛽 + 𝑈)

𝛽መ = (𝑋´𝑋)−1 𝑋´𝑋𝛽 + (𝑋´𝑋)−1 𝑋´𝑈 74


𝛽መ = 𝛽 + (𝑋´𝑋)−1 𝑋´𝑈 𝛽መ = 𝛽 + 𝑊 𝑈
Propiedades de los estimadores MCO (Introducción)
• Teniendo en cuenta el supuesto de distribución normal de la perturbación
aleatoria:
𝒖𝒊 ~ 𝑵(𝟎, 𝝈)
• Y una vez demostrado que los estimadores son una función lineal de la
perturbación aleatoria:
𝛽መ = 𝛽 + (𝑋´𝑋)−1 𝑋´𝑈

• Por las propiedades de la distribución normal, podemos decir que los estimadores
𝛽መ también se distribuirán según una normal. Esto facilitará más adelante la
75
inferencia sobre los parámetros (pruebas de hipótesis e intervalos de confianza).
Propiedades de los estimadores MCO

• Si recordamos de Estadística…para considerar que tenemos un buen


estimador, éste debería cumplir tres propiedades (estadísticas):
• Insesgadez

• Eficiencia

• Consistencia

• Además, es deseable que cumpla una cuarta propiedad (matemática):


76
• Linealidad (ya demostrada)
Propiedades de los estimadores MCO

• Los 𝛽መ del modelo de regresión que hemos visto hasta ahora, son
estimadores de los verdaderos y desconocidos 𝛽.
• En las diapositivas siguientes vamos a ver, desde un punto de vista intuitivo,
la definición básica de las propiedades deseables para un buen estimador y
qué hipótesis deben cumplirse para que el estimador MCO presente dichas
propiedades.

77
𝛽መ𝑀𝐶𝑂 = (𝑋´𝑋)−1 𝑋´𝑌
Propiedades de los estimadores MCO: Insesgadez

𝑆𝑒𝑠𝑔𝑜 𝛽መ = 𝐸 𝛽መ − 𝛽

Si el estimador es
insesgado (sesgo=0)

𝐸 𝛽መ = 𝛽

𝐸 𝛽መ = 𝛽

“La insesgadez es una propiedad de muestreo repetido, no de una muestra dada: manteniendo fijo el
tamaño de la muestra, se obtienen diversas muestras y se consigue cada vez una estimación del parámetro 78
desconocido. Se espera que el valor promedio de estas estimaciones sea igual al verdadero valor si el
estimador es insesgado” (Gujarati, 2006)
Propiedades de los estimadores MCO: Insesgadez
• Partiendo del ejemplo conocido de clases anteriores:
𝑃𝑟𝑒𝑐𝑖𝑜𝑖 = 𝛽0 + 𝛽1 𝑆𝑢𝑝𝑖 + 𝛽2 𝐻𝑎𝑏𝑖 + 𝑢𝑖 FRP

෣ 𝑖 = 𝛽መ0 + 𝛽መ1 𝑆𝑢𝑝𝑖 + 𝛽መ2 𝐻𝑎𝑏𝑖


𝑃𝑟𝑒𝑐𝑖𝑜 FRM

෣ 𝑖 = −711,1 + 81,6 𝐻𝑎𝑏𝑖 + 236,2 𝐵𝑎ñ𝑜𝑠𝑖


𝑃𝑟𝑒𝑐𝑖𝑜
• Con lo que sabemos hasta ahora, no podríamos decir que la relación entre
nº de habitaciones y precio se rige según un parámetro cuyo valor cierto y
seguro es 81,6, es decir, no podremos afirmar que 𝛽1 =81,6. Cuando
hagamos inferencia, diremos que:
𝑃 69,4 ≤ 𝛽1 ≤ 94,0 = 1 − α % 79
Propiedades de los estimadores MCO: Insesgadez
• Para el caso anterior, si tomamos diferentes muestras, llegaremos a obtener diferentes valores

para 𝛽መ1 , pero según nos indica su distribución de probabilidad, hay valores más probables que
otros. En concreto, el valor más probable es el que se encuentra en el centro de la distribución
(𝐸 𝛽መ1 ).

Si el estimador
es insesgado

80
𝐸 𝛽መ1 𝐸 𝛽መ1 = 𝛽1
Propiedades de los estimadores MCO: Insesgadez
• Vamos a comprobar que, efectivamente, cuando un estimador es
insesgado y se cumplen algunas hipótesis sobre la perturbación
aleatoria, se cumple que:
𝐸 𝛽መ = 𝛽

𝛽መ = (𝑋´𝑋)−1 𝑋´𝑌 𝑌 = 𝑋𝛽 + 𝑈

𝐸 𝛽መ = 𝐸 𝑋′𝑋 −1 𝑋′𝑌 = 𝐸 𝑋′𝑋 −1 𝑋′ 𝑋𝛽 + 𝑈 = 𝐸 𝑋′𝑋 −1 𝑋′𝑋𝛽 + 𝑋′𝑋 −1 𝑋′𝑈

𝐸 𝑋′𝑋 −1 𝑋′𝑋𝛽 + 𝑋′𝑋 −1 𝑋′𝑈 = 𝐸 𝛽 + 𝑋′𝑋 −1 𝑋′𝑈


81
𝐸 𝛽 =𝛽
Propiedades de los estimadores MCO: Insesgadez

−1 −1 −1
𝐸 𝛽መ = 𝐸 𝑋′𝑋 𝑋′𝑋𝛽 + 𝑋′𝑋 𝑋′𝑈 = 𝐸 𝛽 + 𝑋′𝑋 𝑋′𝑈
En temas anteriores establecimos las siguientes hipótesis sobre la perturbación aleatoria:
o Ausencia de relación con las variables exógenas: 𝑬 𝒖𝒊 /𝑿𝑲 = 𝑬 𝒖𝒊
o Esperanza igual a 0: 𝑬 𝒖𝒊 = 𝟎
−1 −1
𝐸 𝑋′𝑋 𝑋′𝑈 = 𝐸 𝑋′𝑋 𝑋′ · 𝐸 𝑈 = 0

Por otro lado: 𝐸 𝛽 = 𝛽


82
෡ =𝜷
Por tanto: 𝑬 𝜷
Propiedades de los estimadores MCO: Insesgadez
Por tanto, podemos decir que, bajo las hipótesis de esperanza nula de la perturbación
aleatoria y ausencia de relación entre ésta y las variables exógenas, el estimador MCO
es insesgado.

o Ausencia de relación con las variables exógenas: 𝑬 𝒖𝒊 /𝑿𝑲 = 𝑬 𝒖𝒊


o Esperanza igual a 0: 𝑬 𝒖𝒊 = 𝟎

෡ 𝑴𝑪𝑶 = 𝜷
𝑬𝜷
83
Propiedades de los estimadores MCO: Consistencia
Un estimador es consistente si converge en probabilidad al parámetro poblacional. Es
decir, que a medida que el tamaño de la muestra se acerca al tamaño de la población,
el estimador se acerca al valor del parámetro poblacional.
𝑝𝑙𝑖𝑚 𝛽መ = 𝛽
𝑛→∞
También podemos usar la siguiente expresión equivalente:

መ =0
𝑝𝑙𝑖𝑚 (𝑣𝑎𝑟( 𝛽))
𝑛→∞

A medida que el tamaño de la muestra se acerca al de la población, los estimadores


tienden a los parámetros poblacionales y su varianza tiende a ser 0.

84
Propiedades de los estimadores MCO: Eficiencia
• Un estimador es eficiente En la imagen se muestra la distribución
de 4 estimadores insesgados pero con
cuando tiene varianza mínima
distinta varianza.
entre todos los estimadores
insesgados. La eficiencia por
tanto tiene que ver con la
precisión del estimador.
• Según esta propiedad el
estimador debería generar
estimaciones parecidas para
las diferentes muestras 𝐸 𝛽መ = 𝛽
extraídas de la población. 85
Propiedades de los estimadores MCO: Eficiencia

• De estadística recordaremos que la Cota de Cramer-Rao nos daba la


cota inferior para la varianza de un estimador insesgado. Para un

estimador 𝜃:
1
𝑉𝑎𝑟 𝜃෠ ≥ − 2
𝜕ln 𝑓(𝑋; 𝜃)
𝐸
𝜕𝜃

Por tanto, cuando la varianza de un estimador insesgado coincida con la


dada por la Cota de Cramer-Rao (CCR), podremos decir que tiene
varianza mínima y que por tanto es eficiente. 86
Propiedades de los estimadores MCO: Eficiencia

• Para el caso de nuestros estimadores 𝛽መ tendremos que la CCR se


define a partir de la siguiente expresión:

−1
𝜕 2 𝐿 𝑢, 𝛽
መ ≥ −𝐸
𝑉𝑎𝑟(𝛽)
𝜕𝛽2

• Donde 𝐿 𝑢, 𝛽 es la función de verosimilitud obtenida a partir de la


función de densidad del error que veíamos en puntos anteriores:
𝑛 87
1 σ𝑛
𝑖=1 𝑢𝑖2

𝐿 = 𝑓 𝑢 = ෑ 𝑓 𝑢𝑖 = 𝑛 𝑒 2𝜎2
𝑖=1 2𝜋𝜎 2
¡RECUERDA! Derivación matemática de la
expresión del estimador de Máxima Verosimilitud
• Así, si asumimos la distribución de la perturbación aleatoria como normal,
tendremos que la expresión de la función de densidad para cada uno de los
valores es:
1 𝑢𝑖2

𝑓 𝑢𝑖 = 𝑒 2𝜎2
2𝜋𝜎 2

𝑛
1 σ𝑛 𝑢𝑖2
Función de − 𝑖=1
𝐿 = 𝑓 𝑢 = ෑ 𝑓 𝑢𝑖 = 𝑛 𝑒 2𝜎2 88
verosimilitud 2𝜋𝜎 2
𝑖=1
¡RECUERDA! Derivación matemática de la
expresión del estimador de Máxima Verosimilitud
መ dicho
• Ahora se trata de maximizar la función de verosimilitud respecto a los 𝛽.O
que otra manera, se trata de obtener los 𝛽መ que hacen máxima la función de
verosimilitud:
𝑛
1 σ𝑛
𝑖=1 𝑢𝑖2

𝑀𝑎𝑥(𝐿) = 𝑀𝑎𝑥(𝑓 𝑢 ) = 𝑀𝑎𝑥 ෑ 𝑓 𝑢𝑖 = 𝑀𝑎𝑥 𝑛 𝑒 2𝜎2
𝑖=1 2𝜋𝜎 2

• Por otro lado sabemos que:


𝒏

ෝ 𝟐𝒊
෍𝒖 89
𝒊=𝟏
¡RECUERDA! Derivación matemática de la
expresión del estimador de Máxima Verosimilitud
• Si, para simplificar el cálculo, tomamos logaritmos en la expresión anterior (la que
maximiza la función de verosimilitud) y luego derivamos respecto a los 𝛽መ :
𝑛
1 σ𝑛 𝑢 2
𝑖
− 𝑖=12
𝑀𝑎𝑥(𝐿) = 𝑀𝑎𝑥(𝑓 𝑢 ) = 𝑀𝑎𝑥 ෑ 𝑓 𝑢𝑖 = 𝑀𝑎𝑥 𝑛𝑒 2𝜎
𝑖=1 2𝜋𝜎 2

1 σ𝑛
𝑖=1 𝑢𝑖2 𝑛 σ𝑛𝑖=1 𝑢𝑖2

𝑙𝑛 𝑛𝑒 2𝜎2 = ln 1 − ln 2𝜋𝜎 2 − 90
2𝜋𝜎 2 2𝜎 2
¡RECUERDA! Derivación matemática de la
expresión del estimador de Máxima Verosimilitud
• Si, para simplificar el cálculo, tomamos logaritmos en la expresión anterior (la que
maximiza la función de verosimilitud) y luego derivamos respecto a los 𝛽መ :
𝑛 σ𝑛𝑖=1 𝑢𝑖2
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2

𝑛 ෡𝑈
𝑈´ ෡
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2

𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽) 91
𝑀𝑎𝑥 𝑙𝑛[ 𝐿 ] = 𝑀𝑎𝑥 − ln 2𝜋𝜎 2 −
2𝜎 2
Propiedades de los estimadores MCO:
Eficiencia
• Según la CCR, para obtener la cota inferior de la varianza del estimador,
deberíamos hallar la segunda derivada de la siguiente expresión respecto a 𝛽መ que
es nuestro estimador de interés:
𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2

• Pero primero, para operar de forma más sencilla, vamos a desarrollar la segunda
parte de la expresión:
𝑛 𝑌´𝑌 − 2𝛽´𝑋´𝑌 + 𝛽´𝑋´𝑋𝛽 92
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2
Propiedades de los estimadores MCO:
Eficiencia
• Obtenemos la primera derivada respecto a 𝛽መ

𝑛 መ
𝑌´𝑌 − 2𝛽´𝑋´𝑌 + 𝛽´𝑋´𝑋𝛽
𝜕 − ln 2𝜋𝜎 2 −
𝜕𝐿 𝑢, 𝛽 2𝜎 2
= =
𝜕𝛽 𝜕𝛽

−2𝑋´𝑌 + 2𝑋´𝑋𝛽 2𝜎 2 −2𝑋´𝑌 + 2𝑋´𝑋𝛽 93


− 2 2
=−
2𝜎 2𝜎 2
Propiedades de los estimadores MCO:
Eficiencia
• La segunda derivada respecto a 𝛽መ :

𝜕 2 𝐿 𝑢, 𝛽 2𝑋´𝑋 2𝜎 2 𝑋´𝑋
2
=− 2 2
=−
𝜕𝛽 2𝜎 𝜎2

• Como la CCR establece que:


2 −1
𝜕 𝐿 𝑢, 𝛽
መ ≥ −𝐸
𝑉𝑎𝑟(𝛽)
𝜕𝛽2
• Entonces:
Recordemos que
𝑉𝑎𝑟 𝛽መ ≥ 𝜎 2 (𝑋´𝑋)−1 𝜎 2 =Var(ui)
94
Propiedades de los estimadores MCO: Eficiencia
• El paso siguiente para demostrar la eficiencia de 𝛽መ es obtener la expresión
de su varianza para comprobar que coincide con la CCR (recordemos que
un estimador eficiente es el de varianza mínima entre todos los insesgados,
por tanto asumimos que 𝑬(𝜷) ෡ = 𝜷).
• En realidad, veremos que la expresión que obtendremos es la de la matriz
de varianzas y covarianzas de los estimadores.
• Sabemos de estadística que la varianza de una variable aleatoria es:
𝑉𝑎𝑟 𝑋 = 𝐸 𝑋 − 𝐸 𝑋 2

• Aplicando lo anterior a nuestro caso:



𝑉𝑎𝑟 − 𝐶𝑜𝑣 𝛽መ = 𝐸 𝛽መ − 𝐸 𝛽መ 𝛽መ − 𝐸 𝛽መ 95
Propiedades de los estimadores MCO: Eficiencia

• Como sabemos que:


𝛽መ = 𝛽 + 𝑋´𝑋 −1 𝑋´𝑈

• Entonces
𝑉𝑎𝑟 − 𝐶𝑜𝑣 𝛽መ = 𝐸 𝛽መ − 𝐸 𝛽መ 𝛽መ − 𝐸 𝛽መ ´

𝛽 𝛽

𝑉𝑎𝑟 − 𝐶𝑜𝑣 𝛽መ = 𝐸 𝛽 + 𝑋´𝑋 −1 𝑋´𝑈 − 𝐸 𝛽መ 𝛽 + 𝑋´𝑋 −1 𝑋´𝑈 − 𝐸 𝛽መ ´

96
𝑉𝑎𝑟 − 𝐶𝑜𝑣 𝛽መ = 𝐸 𝑋´𝑋 −1 𝑋´𝑈 𝑋´𝑋 −1 𝑋´𝑈 ´
Propiedades de los estimadores MCO: Eficiencia

𝑉𝑎𝑟 − 𝐶𝑜𝑣 𝛽መ = 𝐸 𝑋´𝑋 −1 𝑋´𝑈 𝑋´𝑋 −1 𝑋´𝑈 ´

𝑉𝑎𝑟 − 𝐶𝑜𝑣 𝛽መ = 𝐸 𝑋´𝑋 −1


𝑋´𝑈𝑈´𝑋 𝑋´𝑋 −1

• Si 𝐸 𝑈𝑈´ = 𝜎 2 𝐼𝑛 entonces:
𝑉𝑎𝑟 − 𝐶𝑜𝑣 𝛽መ = 𝜎 2 𝑋´𝑋 −1 𝑋´𝑋 𝑋´𝑋 −1

Podemos comprobar que esta expresión es la 97


෡ = 𝝈𝟐 𝑿´𝑿
𝑽𝒂𝒓 − 𝑪𝒐𝒗 𝜷 −𝟏
misma que la obtenida con la CCR, por tanto,
demostramos que el estimador es eficiente.
Propiedades de los estimadores MCO: Eficiencia
• Hemos podido demostrar la eficiencia de los estimadores MCO, sin
embargo, hemos necesitado asumir que 𝐸 𝑈𝑈´ = 𝜎 2 𝐼𝑛 , lo cual lleva
implícitas dos hipótesis importantes: Homocedasticidad y ausencia de
correlación en la perturbación aleatoria (ausencia de
autocorrelación).
• Es decir, que los estimadores MCO son eficientes siempre y cuando
se cumplan las hipótesis de homocedasticidad y ausencia de
autocorrelación.
• A continuación veremos cómo se deducen dichas hipótesis de la
expresión 𝐸 𝑈𝑈´ = 𝜎 2 𝐼𝑛 y qué significado tienen en el contexto del
modelo básico de regresión lineal. 98
Propiedades de los estimadores MCO: Eficiencia
𝑢1 𝑢1 𝑢1 𝑢1 𝑢2 𝑢1 𝑢3 … 𝑢1 𝑢𝑁
𝑢1 𝑢2 𝑢1 𝑢2 𝑢2 𝑢2 𝑢3 … 𝑢2 𝑢𝑁
𝐸 𝑈𝑈 ′ = 𝐸 𝑢1 𝑢1 𝑢2 𝑢3 … . . 𝑢𝑁 = 𝐸 𝑢3 𝑢1 𝑢3 𝑢2 𝑢3 𝑢3 … 𝑢3 𝑢𝑁 =
… … … … … …
𝑢𝑁 𝑢𝑁 𝑢1 𝑢𝑁 𝑢2 𝑢𝑁 𝑢3 … 𝑢𝑁 𝑢𝑁

𝐸 𝑢1 𝑢1 𝐸 𝑢1 𝑢2 𝐸 𝑢1 𝑢3 … 𝐸 𝑢1 𝑢𝑁 𝑉𝑎𝑟 𝑢12 𝐶𝑜𝑣 𝑢1 𝑢2 𝐶𝑜𝑣 𝑢1 𝑢3 … 𝐶𝑜𝑣 𝑢1 𝑢𝑁


𝐸 𝑢2 𝑢1 𝐸 𝑢2 𝑢2 𝐸 𝑢2 𝑢3 … 𝐸 𝑢2 𝑢𝑁 𝐶𝑜𝑣 𝑢2 𝑢1 𝑉𝑎𝑟 𝑢22 𝐶𝑜𝑣 𝑢2 𝑢3 … 𝐶𝑜𝑣 𝑢2 𝑢𝑁
= 𝐸 𝑢3 𝑢1 𝐸 𝑢3 𝑢2 𝐸 𝑢3 𝑢3 … 𝐸 𝑢3 𝑢𝑁 = 𝐶𝑜𝑣 𝑢3 𝑢1 𝐶𝑜𝑣 𝑢3 𝑢2 𝑉𝑎𝑟 𝑢32 … 𝐶𝑜𝑣 𝑢3 𝑢𝑁
… … … … … … … … … …
𝐸 𝑢𝑁 𝑢1 𝐸 𝑢𝑁 𝑢2 𝐸 𝑢𝑁 𝑢3 … 𝐸 𝑢𝑁 𝑢𝑁 2
𝐶𝑜𝑣 𝑢𝑁 𝑢1 𝐶𝑜𝑣 𝑢𝑁 𝑢2 𝐶𝑜𝑣 𝑢𝑁 𝑢3 … 𝑉𝑎𝑟 𝑢𝑁

Como hemos visto antes, la varianza de una variable aleatoria es 𝑉𝑎𝑟 𝑋 = 𝐸 𝑋 − 𝐸 𝑋 2 por
tanto, para la perturbación aleatoria: 𝑉𝑎𝑟 𝑢i = 𝐸 𝑢i − 𝐸 𝑢i 2 = 𝐸 𝑢𝑖2 = 𝐸 𝑢i 𝑢i . Por otro lado: 99
𝐶𝑜𝑣 𝑢𝑖 , 𝑢𝑗 = 𝐸 𝑢𝑖 − 𝐸 𝑢𝑖 𝑢𝑗 − 𝐸 𝑢𝑗 = 𝐸 𝑢𝑖 𝑢𝑗
Propiedades de los estimadores MCO: Eficiencia
Cuando:

𝑉𝑎𝑟 𝑢12 𝐶𝑜𝑣 𝑢1 𝑢2 𝐶𝑜𝑣 𝑢1 𝑢3 … 𝐶𝑜𝑣 𝑢1 𝑢𝑁 𝜎2 0 0 … 0


𝐶𝑜𝑣 𝑢2 𝑢1 𝑉𝑎𝑟 𝑢22 𝐶𝑜𝑣 𝑢2 𝑢3 … 𝐶𝑜𝑣 𝑢2 𝑢𝑁 0 𝜎2 0 … 0
𝐸 𝑈𝑈 ′ = 𝐶𝑜𝑣 𝑢3 𝑢1 𝐶𝑜𝑣 𝑢3 𝑢2 𝑉𝑎𝑟 𝑢32 … 𝐶𝑜𝑣 𝑢3 𝑢𝑁 = 0 0 𝜎2 … 0 = 𝜎 2 𝐼𝑛
… … … … … … … … … …
𝐶𝑜𝑣 𝑢𝑁 𝑢1 𝐶𝑜𝑣 𝑢𝑁 𝑢2 𝐶𝑜𝑣 𝑢𝑁 𝑢3 … 𝑉𝑎𝑟 𝑢𝑁2 0 0 0 … 𝜎2

Es porque 𝑉𝑎𝑟 𝑢i = 𝜎 2 (homocedasticidad o varianza constante del término de error) y


𝐶𝑜𝑣 𝑢𝑖 , 𝑢𝑗 = 0 (ausencia de autocorrelación)

100
Propiedades de los estimadores MCO: Eficiencia
• Como resumen de lo anterior diríamos que si se cumple que:
𝜎2 0 0 … 0
0 𝜎2 0 … 0
𝐸 𝑈𝑈 ′ = 0 0 𝜎2 … 0 = 𝜎 2 𝐼𝑛
… … … … …
0 0 0 … 𝜎2

o Ausencia de autocorrelación: 𝑪𝒐𝒗 𝒖𝒊 , 𝒖𝒋 = 𝟎


o Homocedasticidad: 𝑽𝒂𝒓 𝒖𝐢 = 𝝈𝟐

101
෡ eficientes
Estimadores 𝜷
• HOMOCEDASTICIDAD (o varianza constante del término de error):

𝑣𝑎𝑟 𝑢𝑖 = 𝜎 2 𝑣𝑎𝑟 𝑢𝑖 = 𝜎𝑖2

HOMOCEDASTICIDAD HETEROCEDASTICIDAD

En caso de homocedasticidad la recta de regresión


representa con la misma precisión la relación entre
“x” e “y” independientemente de los valores que
tome “x”. 102

Fuente: Gujarati, 2006


• HOMOCEDASTICIDAD (o varianza constante del término de error):

Cuando hay heterocedasticidad, en la matriz de varianzas y covarianzas de la


perturbación aleatoria los elementos de la diagonal principal no serán 𝜎 2 , haciendo
que los estimadores 𝛽መ no sean eficientes (no tendrán varianza mínima).

𝑉𝑎𝑟 𝑢12 𝐶𝑜𝑣 𝑢1 𝑢2 𝐶𝑜𝑣 𝑢1 𝑢3 … 𝐶𝑜𝑣 𝑢1 𝑢𝑁


𝐶𝑜𝑣 𝑢2 𝑢1 𝑉𝑎𝑟 𝑢22 𝐶𝑜𝑣 𝑢2 𝑢3 … 𝐶𝑜𝑣 𝑢2 𝑢𝑁
𝐸 𝑈𝑈 ′ = 𝐶𝑜𝑣 𝑢3 𝑢1 𝐶𝑜𝑣 𝑢3 𝑢2 𝑉𝑎𝑟 𝑢32 … 𝐶𝑜𝑣 𝑢3 𝑢𝑁
… … … … …
2
𝐶𝑜𝑣 𝑢𝑁 𝑢1 𝐶𝑜𝑣 𝑢𝑁 𝑢2 𝐶𝑜𝑣 𝑢𝑁 𝑢3 … 𝑉𝑎𝑟 𝑢𝑁

Los modelos de aprendizaje en los que el error disminuye con el tiempo, los
modelos que dependen del nivel de ingresos, los errores de especificación, el
cambio estructural, la omisión de variables relevantes o la presencia de datos 103
atípicos son causas frecuentes de presencia de heterocedasticidad.
• NO AUTOCORRELACIÓN (no correlación entre perturbaciones
aleatorias):
La autocorrelación se define como la existencia de
relación entre perturbaciones aleatorias de periodos u
observaciones distintas.
𝑨𝒖𝒕𝒐𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏: 𝒄𝒐𝒗 𝒖𝒊 , 𝒖𝒋 ≠ 𝟎

𝑵𝒐 𝒂𝒖𝒕𝒐𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏: 𝒄𝒐𝒗 𝒖𝒊 , 𝒖𝒋 = 𝟎

104

Fuente: Gujarati, 2006


• NO AUTOCORRELACIÓN (no correlación entre perturbaciones
aleatorias):

Cuando hay autocorrelación, en la matriz de varianzas y covarianzas de la


perturbación aleatoria ya no tendremos 0 a ambos lados de la diagonal, haciendo
que los estimadores 𝛽መ no sean eficientes (no tendrán varianza mínima).

𝑉𝑎𝑟 𝑢12 𝐶𝑜𝑣 𝑢1 𝑢2 𝐶𝑜𝑣 𝑢1 𝑢3 … 𝐶𝑜𝑣 𝑢1 𝑢𝑁


𝐶𝑜𝑣 𝑢2 𝑢1 𝑉𝑎𝑟 𝑢22 𝐶𝑜𝑣 𝑢2 𝑢3 … 𝐶𝑜𝑣 𝑢2 𝑢𝑁
𝐸 𝑈𝑈 ′ = 𝐶𝑜𝑣 𝑢3 𝑢1 𝐶𝑜𝑣 𝑢3 𝑢2 𝑉𝑎𝑟 𝑢32 … 𝐶𝑜𝑣 𝑢3 𝑢𝑁
… … … … …
2
𝐶𝑜𝑣 𝑢𝑁 𝑢1 𝐶𝑜𝑣 𝑢𝑁 𝑢2 𝐶𝑜𝑣 𝑢𝑁 𝑢3 … 𝑉𝑎𝑟 𝑢𝑁

La omisión de variables relevantes o una mala especificación de la forma funcional 105


pueden provocar autocorrelación en un modelo.
5.4.- Estimadores de la varianza de la perturbación aleatoria:
Estimador insesgado y estimador de máxima verosimilitud.

• Con lo que sabemos hasta ahora, podemos llegar a la conclusión de


que la distribución de los estimadores MCO es:

𝛽~𝑁 መ
𝛽 𝑒𝑒(𝛽)

Donde “ee” significa “error estándar”. Para un parámetro concreto, por


ejemplo 𝛽መ1 , tendríamos que:
𝛽መ1 ~𝑁 𝛽1 𝑒𝑒(𝛽መ1 )
Y:
106
𝑒𝑒 𝛽መ1 = 𝑣𝑎𝑟 𝛽መ1
Estimadores de la varianza de la perturbación aleatoria: Estimador
insesgado y estimador de máxima verosimilitud.

• La varianza de los estimadores 𝛽መ se encuentra en la diagonal


principal de su matriz de varianzas y covarianzas:
𝑉𝑎𝑟 𝛽መ0 𝐶𝑜𝑣 𝛽መ1 𝛽መ2 … 𝐶𝑜𝑣 𝛽መ1 𝛽መ𝑘+1
𝜎ො 2 𝑋 ′ 𝑋 −1 = 𝐶𝑜𝑣 𝛽መ2 𝛽መ1 𝑉𝑎𝑟 𝛽መ1 … 𝐶𝑜𝑣 𝛽መ2 𝛽መ𝑘+1
… … … …
𝐶𝑜𝑣 𝛽መ𝑘+1 𝛽መ1 𝐶𝑜𝑣 𝛽መ𝑘+1 𝛽መ2 … 𝑉𝑎𝑟 𝛽መ𝑘+1

Donde 𝜎ො 2 es el estimador insesgado de la varianza del término de error


𝜎 2 que podemos obtener de la siguiente manera:
σ𝑛
𝑢
ො 2
𝑈´𝑈 107
2 𝑖=1 𝑖
𝜎ො = =
𝑛− 𝑘+1 𝑛− 𝑘+1
Estimadores de la varianza de la perturbación aleatoria: Estimador
insesgado y estimador de máxima verosimilitud.

• Para obtener el estimador de máxima verosimilitud de la varianza de


la perturbación aleatoria, partimos de la siguiente función de
verosimilitud ya conocida de apartados anteriores:

𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2

• Como en este caso queremos obtener el estimador MV para la


varianza del término de error (¡OJO! Aquí estamos suponiendo que
dicha varianza es homocedástica y que la esperanza del error es 0); 108
debemos derivar en este caso respecto a dicha varianza e igualar a 0.
Estimadores de la varianza de la perturbación aleatoria: Estimador
insesgado y estimador de máxima verosimilitud.

• Por tanto:
𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2

𝑛 2
(𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛 𝐿 = − ln 2𝜋𝜎 −
2 2𝜎 2

𝑛 𝑛 2
(𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛 𝐿 = − ln 2𝜋 − ln 𝜎 −
2 2 2𝜎 2
109
Estimadores de la varianza de la perturbación aleatoria: Estimador
insesgado y estimador de máxima verosimilitud.
𝜕𝑙𝑛 𝐿 𝑛 2 𝑌 − 𝑋𝛽 ´ 𝑌 − 𝑋𝛽
= − 2+ =0
𝜕𝜎 2 2𝜎 2𝜎 2 2

−2𝜎 2 𝑛 + 2 𝑌 − 𝑋𝛽 ´ 𝑌 − 𝑋𝛽
=0
2𝜎 2 2
• Como 𝑌 − 𝑋𝛽 = 𝑈 :
−2𝜎 2 𝑛 + 2𝑈´𝑈 = 0

σ 𝒏 𝟐
𝑼´𝑼 ෝ
𝒖
𝒊=𝟏 𝒊
ෝ𝟐 =
𝝈 =
𝒏 𝒏
• Para muestras grandes 𝜎ො 2 cumple con todas las propiedades de un
110
buen estimador.
Estimadores de la varianza de la perturbación aleatoria: Estimador
insesgado y estimador de máxima verosimilitud.

• Sin embargo, en muestras pequeñas, no cumple ninguna de las


propiedades, por ello, en ese caso, hay que ajustarlo por los grados de
libertad perdidos en la estimación (n-(k+1)) siendo K el número de
variables explicativas:

σ𝒏 𝟐
𝑼´𝑼 𝒊=𝟏 ෝ
𝒖 𝒊
ෝ𝟐 =
𝝈 =
𝒏 − (𝒌 + 𝟏) 𝒏 − (𝒌 + 𝟏)

111
Multicolinealidad
• La multicolinealidad se identifica con la existencia de relación lineal entre variables explicativas. En función del
tipo de relación entre las variables explicativas, podremos hablar de multicolinealidad exacta o perfecta, y
multicolinealidad aproximada:
• Multicolinealidad exacta o perfecta: Se da en un modelo cuando la relación lineal entre variables explicativas es
exacta. Por ejemplo, si suponemos un modelo con dos variables explicativas X1 y X2 tales que X2 = 2*X1; estaríamos
ante un caso de multicolinealidad perfecta ya que una variable es exactamente el doble que la otra. En este caso el
coeficiente de correlación lineal entre ambas variables sería igual a 1 (relación lineal perfecta).

• Multicolinealidad aproximada: Se da en un modelo cuando existe relación lineal entre variables explicativas pero
ésta no es exacta. Por ejemplo, en un modelo explicativo del gasto personal se consideran como variables
independientes la renta y la riqueza personal; en este caso habrá una fuerte relación lineal entre variables
explicativas (el coeficiente de correlación entre ambas será elevado) pero sin ser exacta. Este es el tipo de
multicolinealidad más frecuente en los modelos econométricos.

• La multicolinealidad se puede dar tanto en modelos de corte temporal como en modelos de corte
transversal.

• Habitualmente se dice que la multicolinealidad es un problema de grado, no de clase; es decir, es habitual


que en un modelo de regresión haya relación entre las variables explicativas, pero este hecho no genera 112
necesariamente un problema grave de multicolinealidad. Tendremos un problema importante de
multicolinealidad sólo cuando el grado de relación lineal entre variables sea suficientemente elevado.
Multicolinealidad

• Causas frecuentes de multicolinealidad:

• En general el problema de la multicolinealidad está muy relacionado con errores de


especificación del modelo.
• La elección de un modelo sobredeterminado es causa frecuente de multicolinealidad
(muchas variables explicativas en relación al número de observaciones).
• En las series temporales la multicolinealidad es frecuente cuando se incluyen como
explicativas varias variables con una tendencia muy similar.
• La inclusión de términos polinomiales en el modelo.
• Muestra demasiado pequeña.
113
Multicolinealidad
• Las consecuencias que se derivan de la presencia de multicolinealidad en un modelo
dependen de si ésta es perfecta o aproximada.

• Como ya sabemos, en caso de multicolinealidad perfecta, no será posible calcular los


estimadores MCO.

Si hay relación lineal perfecta |X|=0 => |X´X|=0


Partiendo de la expresión de los estimadores MCO:

Donde (en caso de multicolinealidad perfecta):

Por lo tanto no podremos calcular los parámetros del modelo. 114


Multicolinealidad
• En caso de multicolinealidad aproximada, tendremos problemas en la etapa de inferencia.

Con multicolinealidad aproximada |X´X|≠0 pero |X´X|→0 , por lo tanto, podremos calcular los
estimadores MCO, pero puesto que |X´X|→0 , (X´X)-1 no será indeterminado pero tomará
valores elevados.
Si tenemos en cuenta que:

115
las varianzas de los estimadores, y por tanto sus errores estándar, serán muy elevados; y por tanto,
los intervalos de confianza serán muy amplios.

En esta situación, será más fácil aceptar la hipótesis nula:

Por lo que, en definitiva, tenderemos a aceptar más frecuentemente la no significatividad de las


variables explicativas.
En presencia de multicolinealidad, las varianzas de los estimadores, si bien siguen siendo las
mínimas posibles, son mayores que en caso de ausencia de multicolinealidad.
Multicolinealidad
• Síntomas de multicolinealidad:
• R2 elevado
• Prueba de significatividad global en la que se rechaza:

• Variables no significativas
• Coeficientes de correlación elevados entre variables

• Coeficientes de correlación lineal elevados entre pares de variables:

• Si el modelo de regresión tiene sólo dos variables explicativas, coeficientes de correlación elevados
indicarán presencia de multicolinealidad; mientras que coeficientes de correlación bajos indicarán
ausencia de dicho problema.
• Si el modelo de regresión tiene más de dos variables explicativas, coeficientes de correlación elevados
indicarán presencia de multicolinealidad; mientras que coeficientes de correlación bajos, no indicarán
necesariamente ausencia de dicho problema ya que los coeficientes de correlación sólo nos dan
información de la relación de las variables “dos a dos”. En esta situación, para saber si estamos ante un 116
problema de multicolinealidad, deberíamos recurrir a la Regla de Klein.
Multicolinealidad
• Regla de Klein:
La regla de Klein consiste en la realización de tantas regresiones auxiliares como explicativas tenga
el modelo original. Cada regresión auxiliar tendrá como endógena una de las explicativas del
modelo original, y como exógenas, el resto de explicativas del modelo original. Si tenemos un
modelo con tres variables explicativas.

117
Multicolinealidad
• Factor de inflación de la varianza (FIV):

• Partiendo de cada una de las regresiones auxiliares de la Regla de Klein, podemos


calcular el FIV para cada variable a partir de la siguiente expresión:

1
𝐹𝐼𝑉𝑘 =
1 − 𝑅𝑘2

• Cuando para una variable explicativa FIV > 10, diremos que su grado de colinealidad con
el resto de explicativas el elevado. 118
Multicolinealidad
POSIBLES SOLUCIONES

• Si el problema de multicolinealidad no es grave, podemos no tomar


ninguna medida correctiva.

• Eliminación de una o varias variables (en general se mantendrán las


variables más relacionadas con la endógena y que aporten mejores
resultados al modelo)

• Aumentando el número de observaciones 119


Introducción al riesgo de sesgo por omisión de variables
relevantes, sesgo de selección muestral y otras causas.
• Supongamos que una variable Y viene determinada por el siguiente modelo:

𝑌𝑖 = 𝛽𝑜 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝑢𝑖

• Si es así y omitimos la variable 𝑋3 : 𝑣𝑖 = 𝛽3 𝑋3𝑖 + 𝑢𝑖


𝑌𝑖 = 𝛽𝑜 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝑣𝑖

Bajo estas circunstancias, el error aumentará porque incluye el efecto de la variable


omitida. Las consecuencias sobre las propiedades de los estimadores serán
principalmente dos:
• Sesgo en los estimadores 120
• Aumento de la varianza de los estimadores
Introducción al riesgo de sesgo por omisión de variables
relevantes, sesgo de selección muestral y otras causas.

Salepric: Precio de la vivienda en miles de euros


Garage: Nº de plazas de garaje
Baths: Nº de cuartos de baño
Sqft: Metros cuadrados

Observa las diferencias en los estimadores y sus errores estándar 121


Introducción al riesgo de sesgo por omisión de variables
relevantes, sesgo de selección muestral y otras causas.

En este caso, se ha ampliado el número de observaciones a 224


Observa de nuevo las diferencias en los estimadores y sus errores estándar.
122
De los datos se desprende que los problemas de sesgo e ineficiencia de los estimadores no se resuelven con
el aumento del tamaño de la muestra, son por tanto, también inconsistentes.
Introducción al riesgo de sesgo por omisión de variables
relevantes, sesgo de selección muestral y otras causas.
• En las diapositivas anteriores hemos visto que la omisión de variables relevantes en un modelo provoca que los
estimadores sean sesgados, ineficientes e inconsistentes.

• La influencia exacta de la omisión de las variables sobre las propiedades de los estimadores, no se puede saber,
puesto que en la realidad, al no tener dichas variables relevantes, no podremos comparar los resultados con su
inclusión y omisión.

• No obstante, sí podemos saber algunas cosas sobre la influencia de la omisión de variables relevantes:

• Las consecuencias sobre las propiedades de los estimadores, serán mayores cuanto más relevante sea la
variable o variables omitidas.

• El sesgo en los parámetros del resto de variables será mayor cuanto mayor sea la relación de la/s
variable/s omitida/s con la/s incluida/s.

• Los errores estándar de los parámetros aumentan como consecuencia del aumento en la varianza de los 123
errores.

• Disminuye la multicolinealidad en el modelo.


HIPÓTESIS BÁSICAS DEL MODELO BÁSICO DE REGRESIÓN LINEAL
• El modelo es lineal en los parámetros, aunque no necesariamente en las
variables.
𝛽መ = (𝑋´𝑋)−1 𝑋´𝑌

124
𝛽መ = 𝑊´𝑌

• Las variables X son fijas en muestreo repetido, es decir, X se supone no


estocástica (recordemos el concepto de media condicional “dado” X. Para cada valor fijo de X,
podemos tener diferentes valores de Y).
• Media nula de la perturbación aleatoria E(ui)=0
• Homocedasticidad (varianza constante de la perturbación aleatoria: Var(ui)=σ2)
• Ausencia de autocorrelación (𝑐𝑜𝑣 𝑢𝑖 , 𝑢𝑗 = 0)
HIPÓTESIS BÁSICAS DEL MODELO BÁSICO DE REGRESIÓN LINEAL
• Ausencia de relación entre la perturbación aleatoria y las variables exógenas
(𝑬 𝒖𝒊 /𝑿𝑲 = 𝑬 𝒖𝒊 )
• El número de observaciones (n) debe ser mayor que el número de parámetros
a estimar (k+1)

125
• El modelo está correctamente especificado, es decir, no hay sesgo por error de
especificación (recordemos que la especificación del modelo hace referencia a:
forma funcional, variables –exógenas y endógena- y observaciones).
• No hay multicolinealidad perfecta (no hay relaciones lineales perfectas entre
variables explicativas).
• Debe existir variabilidad suficiente en las variables explicativas, es decir, deben
contener información.
• Teorema de Gauss-Markov: Dados los puestos del modelo de regresión lineal, los estimadores 𝛽መ
obtenidos por MCO entre todos los estimadores lineales e insesgados, además son los que tienen
varianza mínima, es decir, son MELI.

• Mejores: Son eficientes, es decir, insesgados y con varianza mínima


• Estimadores:
• Lineales: Son función lineal de una variable aleatoria
• Insesgados: La esperanza del estimador, es el parámetro poblacional

Las propiedades anteriores son propiedades de muestra finita, es decir, se mantienen independientemente del
tamaño de la muestra

Si alguno de los supuestos del modelo de regresión se incumple, también se incumplirá el Teorema de Gauss-
Markov.

Cuando añadimos el supuesto de normalidad de la perturbación aleatoria, entonces decimos que los estimadores 𝛽෠ MCO 126
son MEI (tienen varianza mínima entre todos los estimadores insesgados, tanto lineales como no lineales).
INFERENCIA ESTADÍSTICA CON EL
MBRL: ELABORACIÓN DE
INTERVALOS DE CONFIANZA Y
CONTRASTES DE PARÁMETROS
127
Intervalos de confianza

• De estadística, recordamos que construíamos un intervalo de


confianza para la media poblacional de la siguiente manera (cuando
conocíamos la desviación típica poblacional):

𝜎
𝐼𝐶𝜇 ⋮ 𝑥ҧ ± 𝑧𝛼ൗ2
𝑛

𝜎 𝜎
𝑥ҧ − 𝑧𝛼ൗ2 ; 𝑥ҧ + 𝑧𝛼ൗ2
𝑛 𝑛

𝜎 𝜎
𝑃 𝑥ҧ − 𝑧𝛼ൗ2 ≤ 𝜇 ≤ 𝑥ҧ + 𝑧𝛼ൗ2 = 1−𝛼 % 128
𝑛 𝑛
Intervalos de confianza

• En econometría, los parámetros para los que querremos obtener


intervalos de confianza son los β (poblacionales). Para ello,
necesitamos conocer:
• Sus estimadores (𝛽መ )
• La distribución de probabilidad de dichos estimadores (𝛽~𝑁(𝛽;
መ 𝑒𝑒 𝛽መ ))

• Los errores estándar (desviaciones típicas) de los estimadores

𝑣𝑎𝑟 𝛽መ0
𝑣𝑎𝑟 − 𝑐𝑜𝑣 𝛽መ = 𝜎 2 𝑋´𝑋 −1
= 𝑣𝑎𝑟 𝛽መ𝑗
⋱ 129
𝑣𝑎𝑟 𝛽መ𝑘
Intervalos de confianza

• Necesitamos por tanto estimar un valor para 𝜎 2 y así poder obtener


la matriz de varianzas y covarianzas de los estimadores. Pero tenemos
que tener en cuenta que al usar 𝜎ො 2 en lugar del valor desconocido 𝜎 2
se modifica levemente la distribución de los estimadores de manera
que:

𝑣𝑎𝑟 − 𝑐𝑜𝑣 𝛽መ = 𝜎 2 𝑋´𝑋 −1 መ


𝛽~𝑁(𝛽; 𝑒𝑒 𝛽መ )

መ 130
𝑣𝑎𝑟 − 𝑐𝑜𝑣 𝛽መ = 𝜎ො 2 𝑋´𝑋 −1 𝛽~𝑡(𝛽; 𝑒𝑒 𝛽መ )
Intervalos de confianza

Pero…¿cómo obtenemos el valor estimado 𝜎ො 2 ?


• Como vimos en el tema anterior:
𝑉𝑎𝑟 𝛽መ0 𝐶𝑜𝑣 𝛽መ1 𝛽መ2 … 𝐶𝑜𝑣 𝛽መ1 𝛽መ𝑘+1
𝜎ො 2 𝑋 ′ 𝑋 −1 = 𝐶𝑜𝑣 𝛽መ2 𝛽መ1 𝑉𝑎𝑟 𝛽መ1 … 𝐶𝑜𝑣 𝛽መ2 𝛽መ𝑘+1
… … … …
𝐶𝑜𝑣 𝛽መ𝑘+1 𝛽መ1 𝐶𝑜𝑣 𝛽መ𝑘+1 𝛽መ2 … 𝑉𝑎𝑟 𝛽መ𝑘+1

Donde 𝜎ො 2 es el estimador insesgado de la varianza del término de error


𝜎 2 que podemos obtener de la siguiente manera:
σ𝑛
𝑢
ො 2
𝑈´𝑈 131
2 𝑖=1 𝑖
𝜎ො = =
𝑛− 𝑘+1 𝑛− 𝑘+1
Intervalos de confianza

• Para obtener el estimador de máxima verosimilitud de la varianza de


la perturbación aleatoria, partimos de la siguiente función de
verosimilitud ya conocida de apartados anteriores:

𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2

• Como en este caso queremos obtener el estimador MV para la


varianza del término de error (¡OJO! Aquí estamos suponiendo que
dicha varianza es homocedástica y que la esperanza del error es 0); 132
debemos derivar en este caso respecto a dicha varianza e igualar a 0.
Intervalos de confianza

• Por tanto:
𝑛 (𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛[ 𝐿 ] = − ln 2𝜋𝜎 2 −
2𝜎 2

𝑛 2
(𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛 𝐿 = − ln 2𝜋𝜎 −
2 2𝜎 2

𝑛 𝑛 2
(𝑌 − 𝑋𝛽)´(𝑌 − 𝑋𝛽)
𝑙𝑛 𝐿 = − ln 2𝜋 − ln 𝜎 −
2 2 2𝜎 2
133
Intervalos de confianza

𝜕𝑙𝑛 𝐿 𝑛 2 𝑌 − 𝑋𝛽 ´ 𝑌 − 𝑋𝛽
= − 2+ =0
𝜕𝜎 2 2𝜎 2𝜎 2 2

−2𝜎 2 𝑛 + 2 𝑌 − 𝑋𝛽 ´ 𝑌 − 𝑋𝛽
=0
2𝜎 2 2
• Como 𝑌 − 𝑋𝛽 = 𝑈 :
−2𝜎 2 𝑛 + 2𝑈´𝑈 = 0

σ 𝒏 𝟐
𝑼´𝑼 ෝ
𝒖
𝒊=𝟏 𝒊
ෝ𝟐 =
𝝈 =
𝒏 𝒏
• Para muestras grandes 𝜎ො 2 cumple con todas las propiedades de un
134
buen estimador.
Intervalos de confianza

• Sin embargo, en muestras pequeñas, no cumple ninguna de las


propiedades, por ello, en ese caso, hay que ajustarlo por los grados de
libertad perdidos en la estimación (n-(k+1)) siendo K el número de
variables explicativas:

σ𝒏 𝟐
𝑼´𝑼 ෝ
𝒖
𝒊=𝟏 𝒊
ෝ𝟐 =
𝝈 =
𝒏 − (𝒌 + 𝟏) 𝒏 − (𝒌 + 𝟏)

135
Intervalos de confianza
• Con esto, podemos obtener los intervalos de confianza de los
parámetros a través de la siguiente expresión:

𝛽መ𝑗 ± 𝑡𝛼ൗ 𝑒𝑒 𝛽መ𝑗


2;𝑛− 𝑘+1

𝛽መ𝑗 − 𝑡𝛼ൗ 𝑒𝑒 𝛽መ𝑗 ; 𝛽መ𝑗 + 𝑡𝛼ൗ 𝑒𝑒 𝛽መ𝑗


2;𝑛− 𝑘+1 2;𝑛− 𝑘+1

𝑃𝑟 𝛽መ𝑗 − 𝑡𝛼ൗ 𝑒𝑒 𝛽መ𝑗 ≤ 𝛽𝑗 ≤ 𝛽መ𝑗 + 𝑡𝛼ൗ 𝑒𝑒 𝛽መ𝑗 = 1−𝛼 %


2;𝑛− 𝑘+1 2;𝑛− 𝑘+1

Donde n-(k+1) son los grados de libertad asociados a la estimación de


መ 1 − 𝛼 % es el nivel de confianza y 𝛼 el nivel de significación.
los 𝛽, 136
Intervalos de confianza
Así, aunque no sabemos qué valor
concreto toma 𝛽𝑗 , podremos decir
que con una confianza del
1 − 𝛼 %, se encontrará dentro de
los límites del intervalo obtenido

1−𝛼

𝛼ൗ 𝛼ൗ
2 2
𝛽መ𝑗 137
𝛽መ𝑗 − 𝑡𝛼ൗ 𝑒𝑒 𝛽መ𝑗 𝛽መ𝑗 + 𝑡𝛼ൗ 𝑒𝑒 𝛽መ𝑗
2;𝑛− 𝑘+1 2;𝑛− 𝑘+1
Intervalos de confianza

• ¿Cómo afecta cada uno de los siguientes conceptos a la amplitud del


intervalo de confianza? ¿Por qué?

• Tamaño de la muestra
• Nivel de confianza
• Nivel de significación
• Grados de libertad
• Error estándar

138
Intervalos de confianza
Con estos resultados podemos decir
que las variables “baths” y “garage”
son significativas a los tres niveles de
confianza habituales (90%, 95% y
99%) mientras que la variables
“bedrms” lo es sólo al 90% y al 95%
pero no al 99%.
𝑃𝑟 𝛽෠𝑗 − 𝑡𝛼ൗ 𝑒𝑒 𝛽෠𝑗 ≤ 𝛽𝑗 ≤ 𝛽෠𝑗 + 𝑡𝛼ൗ 𝑒𝑒 𝛽෠𝑗 = 1−𝛼 %
2;𝑛− 𝑘+1 2;𝑛− 𝑘+1

Si queremos construir paso a paso el intervalo al


95% para la variable “bedrms”:
𝛽መ𝑗 ± 𝑡𝛼ൗ2;𝑛− 𝑘+1 𝑒𝑒 𝛽መ𝑗 𝑡𝛼ൗ
2;𝑛− 𝑘+1
= 𝑡0,025;220 = 1,971

62,47 ± 1,971 ∗ 27,30


139
𝑃𝑟 8,67 ≤ 𝛽𝑗 ≤ 116,27 = 95%
Contrastes de hipótesis individuales
• Cuando construimos intervalos de confianza podemos decir que con
el nivel de confianza elegido podemos aceptar que el parámetro en
cuestión podría tomar cualquier valor de los contenidos en el
intervalo.
Podemos decir que con una confianza
del 95%, la relación entre número de
habitaciones y precio de la vivienda
se rige por un parámetro que estará
entre 8,67 y 116,27. Es decir, con ese
nivel de confianza podemos aceptar
que el parámetro tome el valor 10,23;
20,72; 111,34;… si bien no todos los
valores del intervalo son 140
equiprobables.
Contrastes de hipótesis individuales
• Con los contrastes de hipótesis valoramos si podemos aceptar una
afirmación (hipótesis) que hacemos sobre el valor que toma un
determinado parámetro. En concreto, a la afirmación o hipótesis que
queremos contrastar la llamamos hipótesis nula. Por ejemplo,
contrastamos si podemos aceptar que el parámetro que rige la relación
entre el número de habitaciones y el precio de la vivienda podría ser igual a
112,6:

𝐻0 : 𝛽1 = 112,6

• En realidad, también podríamos resolver este contraste a través del


intervalo de confianza; si el valor 112,6 está contenido en el intervalo (es
uno de los valores posibles para el parámetro poblacional al nivel de
confianza elegido), entonces, podríamos decir que aceptamos la hipótesis 141
nula a ese nivel de confianza.
Contrastes de hipótesis individuales
• De entre todas las hipótesis posibles, la que más interés cobra es la que contrasta
si el parámetro puede ser igual a 0. En el ejemplo que estamos tratando:

𝐻0 : 𝛽1 = 0

• Aceptar esta hipótesis implicaría que la variable “bedrms” no es significativa en el


modelo. Cuando contrastamos una hipótesis, al igual que sucede con los
intervalos de confianza, siempre lo hacemos con un determinado nivel de
confianza que elegimos previamente. En este sentido, hay que tener en cuenta
que si trabajamos con un nivel de confianza de, por ejemplo, el 95% y rechazamos
la hipótesis nula a dicho nivel el riesgo de equivocarnos en nuestra decisión (nivel
de significación) es del 5%. El nivel de significación es, por tanto, la probabilidad
de rechazar una hipótesis siendo ésta cierta.
• Puesto que la aceptación o rechazo de una hipótesis depende del nivel de
confianza elegido, podrá suceder que a un determinado nivel de confianza 142
rechacemos 𝐻0 y a otro nivel de confianza la aceptemos.
Contrastes de hipótesis individuales
• Como se estudiaba en estadística, para contrastar una determinada
hipótesis, comparamos el valor de un estadístico teórico (de tablas)
con un estadístico que calcularemos a partir de datos muestrales
conocidos:

𝐻0 : 𝛽𝑗 = 𝛽𝑖∗

𝛽መ𝑗 − 𝛽𝑗∗
𝑡=
𝑒𝑒 𝛽መ𝑗

Regla de decisión: Acepto 𝐻0 si 𝑡 ≤ 𝑡𝛼Τ2;(𝑛−(𝑘+1))


143
Contrastes de hipótesis individuales
• Por ejemplo, si queremos contrastar con una confianza del 95% si:

𝐻0 : 𝛽1 = 0

𝛽መ1 − 𝛽1∗ 62,47 − 0


𝑡= = = 2,29
𝑒𝑒 𝛽መ1 27,30

Regla de decisión: Acepto 𝐻0 si 𝑡 ≤ 𝑡𝛼Τ2;(𝑛−(𝑘+1))


Como t = 2,29 > 𝑡0,025;220 = 1,971 => 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 ℎ𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑛𝑢𝑙𝑎

Por tanto, la variable “bedrms” sí es relevante en el modelo.


¿Qué pasaría con una confianza del 90%? ¿Y del 99%? ¿Por qué? 144
Contrastes de hipótesis individuales

El “valor p” o “p-valor” nos da información útil para decidir en el contraste de nulidad de los parámetros del
modelo. Así, cuando dicho valor esté por debajo del nivel de significación elegido (de 0,05 si trabajamos con
una confianza del 95%, de 0,10 si trabajamos con un nivel de confianza del 90%,…) rechazamos la hipótesis nula.
Visto de otra manera (1-”p-valor”) es el máximo nivel de confianza al que rechazaríamos la hipótesis nula.

En el caso de la variable ´”bedrms” diríamos que es significativa hasta el nivel de confianza 97,69% (1-0,0231);
lo que es coherente con el hecho ya comentado de que es significativa al 90% y al 95% pero no al 99%.
145
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• La prueba de significancia global nos servirá para contrastar si todos
“coeficientes de pendiente” del modelo de regresión son
simultáneamente iguales a 0.

• Estadístico de contraste:

• Regla de decisión:
146
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• En Gretl el estadístico y el p-valor del test F para contrastar la
significancia global aparecen en la salida principal del modelo:

En este caso el valor del estadístico F es 362,89; así observando el p-valor o comparando el
valor del estadístico con el valor teórico de tablas (F(4,219)=2,413<362,89), podemos
rechazar la hipótesis nula de nulidad de todos los coeficientes (a excepción del 𝛽0 ) con una 147
confianza del 99%.
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• La prueba de igualdad de coeficientes nos servirá para contrastar si
dos “coeficientes de pendiente” del modelo de regresión son iguales.

• Estadístico de contraste:
𝛽መ𝑖 − 𝛽መ𝑗
𝑡=
𝑣𝑎𝑟 𝛽መ𝑖 + 𝑣𝑎𝑟 𝛽መ𝑗 − 2𝑐𝑜𝑣 𝛽መ𝑖 𝛽መ𝑗

• Regla de decisión:
148
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• En Gretl a través de la opción “Contrastes” -> “Restricciones lineales”
podemos llevar a cabo cualquier contraste que suponga una
restricción lineal para los parámetros del modelo usando el
estadístico F:

149
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• Si, como hemos planteado al principio, queremos comprobar si una
habitación adicional tiene el mismo efecto sobre el precio que un
baño adicional (b[3]-b[4]=0):
En este caso el valor del estadístico F es 1,201; así
observando el p-valor o comparando el valor del estadístico
con el valor teórico de tablas (F(1,219)=6,752>1,201),
podemos aceptar la hipótesis nula de igualdad de
coeficientes con una confianza del 99%.

150
Contrastes la evaluación de hipótesis conjuntas de
parámetros
• Para contrastar la exclusión de conjuntos de variables, podemos usar
la opción anterior de contrastes de restricciones lineales o la opción
de “Contrastes”->”Omisión de variables”:

En este caso el valor del estadístico F es 2,104; así


observando el p-valor o comparando el valor del estadístico
con el valor teórico de tablas (F(1,219)=4,703>2,104),
podemos aceptar la hipótesis nula nulidad de ambos
coeficientes con una confianza del 99%.
151
ANÁLISIS DE BONDAD DE AJUSTE Y
MEDIDAS DE LOS ERRORES

152
Importancia del análisis de errores en la
modelización empírica

• El error en un modelo de regresión se genera como la diferencia entre


los valores reales de la variable endógena y los valores estimados para
ésta a partir del modelo de regresión.
Gráficamente, para el caso de un
modelo de regresión simple:
𝑌𝑖 = 𝛽መ0 + 𝛽መ1 𝑋1𝑖 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 + ⋯ + 𝛽መ𝑘 𝑋𝑘𝑖 + 𝑢ො 𝑖

𝑌෠𝑖

𝑌𝑖 = 𝑌෠𝑖 + 𝑢ො 𝑖
153
𝑢ො 𝑖 = 𝑌𝑖 − 𝑌෠𝑖
Importancia del análisis de errores en la
modelización empírica
• El análisis de los errores en el contexto del modelo de regresión resulta
fundamental porque nos da información sobre “dónde” y en qué medida “falla” el
modelo.
• Esta información es imprescindible en la etapa de validación porque nos permite
plantearnos mejoras en el modelo que nos aporten una mejor capacidad
explicativa y predictiva.
• Además, cuando vamos a hacer uso de un modelo ya validado, éste siempre
tendrá un determinado grado de error que debemos tener en cuenta a la hora de
hacer predicciones o estimaciones y obtener conclusiones.
• En línea con el análisis de los errores, la bondad de ajuste también nos da
información muy relevante sobre la calidad del modelo para su uso si bien, como
veremos más adelante, en algunos casos un valor a priori bueno o muy bueno de
la medida de bondad de ajuste no implica necesariamente que el modelo pueda 154
ser validado.
Detección de puntos de Influencia
Así, un dato atípico es una
observación que genera un
error anormalmente grande
y un punto de influencia es
un dato atípico que tiene
capacidad para afectar de
forma significativa al
resultado del modelo.

¿Qué hacemos con los


valores atípicos?

155
Fuente: www.imarranz.com
Detección de puntos de Influencia

Criterios (Gretl):
2(𝑘+1)
• Detección de punto de apalancamiento con h >
𝑛
𝑘+1
• Detección de punto influyente con DFFITS > 2
𝑛

¡Ojo! Según se ha indicado, la existencia de un punto de


apalancamiento no implica que dicho punto sea influyente.

156
Medidas resumen de error

Medida Cálculo Acotada Notas


𝑛
Suma cuadrática de los residuos (SCR) NO Se expresa en las unidades de la
𝑆𝐶𝑅 = ෍ 𝑢ො 𝑖2
𝑖=1 endógena al cuadrado
Media Cuadrática de los residuos o Error σ𝑛𝑖=1 𝑢ො 𝑖2 NO Se expresa en las unidades de la
cuadrático medio (MCR o ECM) 𝐸𝐶𝑀 = endógena al cuadrado
𝑛
Raiz del Error Cuadrático medio (RECM) NO Se expresa en las mismas unidades que
σ𝑛𝑖=1 𝑢ො 𝑖2
𝑅𝐸𝐶𝑀 = la variable endógena
𝑛
Error absoluto medio (EAM) σ𝑛𝑖=1 𝑢ො 𝑖 NO Se expresa en las mismas unidades que
𝐸𝐴𝑀 = la variable endógena
𝑛
Porcentaje Medio de Error Absoluto (PMEA) σ𝑛𝑖=1 𝑢ො 𝑖ൗ𝑦𝑖 0-1 Toma valores elevados cuando 𝑦𝑖 toma
𝑃𝑀𝐸𝐴 = valores cercanos a 0.
𝑛
U de Theil σ𝑛𝑖=1(𝑦𝑖 − 𝑦ො𝑖 )2 0-1
𝑛
𝑈=
σ𝑛𝑖=1 𝑦ො𝑖2 σ𝑛𝑖=1 𝑦𝑖2
157
+
𝑛 𝑛
3000
Intervalo de 95 por ciento
salepric
predicción

2500

2000

1500

1000

158
500

-500
0 50 100 150 200
Medidas de ajuste global
• Coeficiente de determinación R2

El coeficiente de determinación nos da información sobre la proporción


de variabilidad de la variable endógena que somos capaces de explicar
con el modelo. No obstante, la forma más intuitiva de abordar la
obtención de R2 es a través del coeficiente de correlación al cuadrado
entre la variable endógena y su estimación.

Este coeficiente se encuentra acotado entre 0 y 1, siendo el valor 0 el


que se identifica con el peor ajuste posible y 1 con el mejor. 159
Medidas de ajuste global
• Coeficiente de determinación R2

Para explicar el coeficiente de determinación a través de la descomposición de la varianza, partimos


de la siguiente expresión que denominamos Suma de Cuadrados Total (SCT):

Esta suma de cuadrados total puede expresarse como


descomposición de la Suma de Cuadrados Explicada (SCE), que
nos mide la parte de variabilidad de la variable endógena que
explicamos a través de la regresión; más la Suma de Cuadrados de
los Residuos (SCR) o parte de variabilidad de la variable endógena
que no somos capaces de explicar con la regresión. 160
Medidas de ajuste global
• Coeficiente de determinación R2

Teniendo en cuenta que el coeficiente de determinación es una medida de bondad de ajuste que nos
mide la proporción de variabilidad de la variable endógena que somos capaces de explicar a través
de la regresión:

El coeficiente de determinación toma valores


entre 0 y 1, representando el valor 1 un ajuste
perfecto y el valor 0 el peor ajuste posible

161
Medidas de ajuste global
• Coeficiente de determinación R2
Como se ha indicado en la diapositiva anterior el coeficiente de determinación R2 toma
valores entre 0 y 1, representando el valor 1 un ajuste perfecto y el valor 0 el peor ajuste
posible. Sin embargo:

• ¿A partir de qué valor consideramos que tenemos un buen ajuste?

• ¿Siempre un coeficiente de determinación elevado es síntoma de estar ante un buen modelo?

El coeficiente de determinación R2 es quizás la medida más empleada para valorar la capacidad explicativa
de un modelo, sin embargo, presenta una serie de limitaciones que hacen que a la hora de elegir un
modelo, debamos basarnos también en otros criterios:

• Sirve para comparar entre modelos que tengan la misma variable endógena
• Siempre aumenta ante la inclusión de nuevas variables explicativas en el modelo, lo cual hace posible que se 162
acaben incorporando variables poco relevantes dando lugar a modelos sobredeterminados.
Medidas de ajuste global
• R2 – ajustada o R2 – corregida
La R2 – ajustada o R2 – corregida es otra medida de bondad de ajuste pero con la ventaja sobre el
coeficiente de determinación R2 de no ser tan sensible a la incorporación de variables explicativas en el
modelo:

𝑛−1
𝑅ത 2 = 1 − 1 − 𝑅2
𝑛 − (𝑘 + 1)

• La R2 – ajustada siempre tomará un valor menor o igual que la R2 pudiendo incluso llegar a tomar valores
negativos.
• Al igual que la R2 , la R2 – ajustada solo sirve para comparar entre modelos con la misma variable endógena y 163
distinta combinación de explicativas. Pero, puesto que es menos sensible a la incorporación de variables
explicativas, al comparar modelos es más conveniente usar la R2 – ajustada .
Medidas de ajuste global
• Criterio de información de Akaike (AIC) y Criterio de Información de
Schwarz (BIC)

Aunque la R2 – ajustada ya penaliza la inclusión de variables explicativas en un modelo, los criterios


de información de Akaike (AIC) y Schwarz (BIC) imponen una mayor penalización en este sentido
salvo en los casos en los que esas nuevas variables consigan reducir el error de forma significativa.

𝑆𝐶𝑅 𝑘+1 Τ𝑛
𝑆𝐶𝑅
2 𝑘+1 Τ𝑛 𝐵𝐼𝐶 = 𝑛
AIC = 𝑒
𝑛 𝑛

Puesto que ambas medidas se basan en cálculos a partir de los errores, un modelo será mejor 164
cuanto menor sea el valor de ambos criterios.
Medidas de ajuste global

165
Tema I.1.-
Repaso de Fundamentos Básicos
de Econometría
Asignatura: Econometría de la Empresa
Profesora: Beatriz Sánchez
166

También podría gustarte