0% encontró este documento útil (0 votos)
86 vistas40 páginas

Regresion Lineal Simple y No Lineal

1) Los modelos de regresión estudian la relación entre una variable dependiente y una o más variables independientes. 2) Existen diferentes tipos de relaciones entre las variables, incluyendo relaciones lineales y no lineales. 3) La regresión lineal simple analiza la relación entre una variable dependiente y una variable independiente usando la ecuación de la recta de regresión.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
86 vistas40 páginas

Regresion Lineal Simple y No Lineal

1) Los modelos de regresión estudian la relación entre una variable dependiente y una o más variables independientes. 2) Existen diferentes tipos de relaciones entre las variables, incluyendo relaciones lineales y no lineales. 3) La regresión lineal simple analiza la relación entre una variable dependiente y una variable independiente usando la ecuación de la recta de regresión.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 40

BIOESTADISTICA

INTRODUCCION A LOS MODELOS DE


REGRESION

Los modelos de regresión estudian la relación entre una variable de interés (variable
dependiente) y un conjunto de variables explicativas (variable independiente).

Cuando se estudia la relación entre una variable de interés (variable dependiente o


variable respuesta) "𝑌" y un conjunto de variables explicativas (variables independientes)
(𝑋1 , 𝑋2 , … , 𝑋𝑛 ),pueden darse las siguientes situaciones:
❖ Existe una relación funcional entre ellas, en el
sentido de que el conocimiento de las variables
explicativas (variable independiente) determina 𝒀 = 𝒇(𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝒏 )
1
completamente el valor que toma la variable de
interés (variable dependiente o respuesta), esto es:

❖ No existe ninguna relación entre la variable de


interés (variable dependiente o respuesta) y las
2 variables explicativas (variable independiente), en el
sentido de que el conocimiento de estas no
proporciona ninguna información sobre el
comportamiento de la otra.
❖ El caso intermedio, existe una relación entre la variable de interés (variable dependiente o

3 respuesta) y las variables explicativas (variable independiente), en el sentido de que el


conocimiento de estas permite predecir con mayor o menor exactitud el valor de la
variable interés (variable dependiente o respuesta). Por tanto, siguen un modelo de la forma:

𝒀 = 𝒇 𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝒏 + 𝜺𝒊

Donde: 𝑓: La función de regresión desconocida Y 𝜀𝑖 : Una variable aleatoria de media cero (error de
observación)

Una vez estimada estas funciones se tiene conocimiento de:

❖ La relación funcional de la variable de interés con las variables explicativas, esta dada por la
función de regresión que se define como sigue:
𝒇 𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 = 𝑬 𝒀Τ𝑿𝟏 = 𝒙𝟏 , … , 𝑿𝒏 = 𝒙𝒏
Esto permite tener una idea general del comportamiento de la variable de interés en función de las
variables explicativas

❖ Se puede estimar y predecir el valor de la variable de interés de un individuo del que se conocen los
valores de las variables explicativas.
La variable que son la base de la predicción se llama variable independiente y la
variable que se va a predecir se llama variable dependiente. Las variables se clasifican en:

a) Variable dependiente b) Variable independiente

es la variable que se va Es la variable o las variables que se usan


predecir y se denota por “Y”, para predecir el valor de valor de la
la variable aleatoria “Y” se variable de interés (variable
denomina variable interés, dependiente). Las variables
respuesta o endógena. independientes se denominan variables
explicativas o exógenas.
Ejemplo

La resistencia del cemento depende del tiempo de secado del cemento. En un experimento se obtuvo la
resistencia de los bloques del cemento con diferente tiempo de secado los resultados fueron los de la
tabla adjunta. Analizar la relación entre estas dos variables:

Tiempo(días) 𝒌𝒈
Resistencia ൗ𝒄𝒎𝟐
1 13.0 13.3 11.8
2 21.9 24.5 24.7
3 29.8 28.0 24.1 24.2 26.2
7 32.4 30.4 34.5 33.1 35.7
28 41.8 42.6 40.3 35.7 37.3
Ejemplo
El siguiente conjunto de datos era tomado sobre grupo de trabajadoras de Inglaterra y Gales en el periodo de
1970 – 72.Cada grupo esta formado por trabajadores de la misma profesión (médicos, decoradores, trabajadores
textiles,…etc.),en cada uno de los veinticinco grupos muestrados se han observado dos variables: el índice de
estandarizado de consumo de cigarrillos(variable explicativa, X) y el índice de muertes por cáncer de pulmón
(variable de interés, Y).Se desea estudiar la relación entre estas dos variables.

X Y X Y X Y X Y X Y X Y
77 84 102 88 133 146 116 155 112 96 91 85
137 116 91 104 115 128 102 101 113 144 100 120
117 123 104 129 105 115 111 118 110 139 76 60
94 128 107 86 87 79 93 113 125 113 66 51
88 104
Diagramas de dispersión

Es una gráfica de puntos representados en el plano cartesiano, donde se ubica los


pares ordenados o puntos de la siguiente forma:

Sean 𝒙 𝟏 , 𝒚𝟏 , 𝒙 𝟐 , 𝒚𝟐 , … , 𝒙 𝒏 , 𝒚𝒏 ; "𝒏" valores de la variable bidimensional (𝑋, 𝑌)


observados en una muestra, donde los 𝑥𝑖 son los valores de la variable 𝑋 y los 𝑦𝑖 son
los valores de la variable 𝑌.

Frecuentemente es posible visualizar el tipo de relación existente entre dos


variables a partir del diagrama de dispersión.
Existen varias formas en que las variables se pueden relacionar:

a) Relación lineal directa b) Relación lineal inversa

Se caracteriza porque cuando el valor de la variable Se caracteriza porque, cuando el valor de

X aumenta (o crece), la variable dependiente Y la variable X aumenta (o crece), la

también aumenta y porque los puntos forman una variable dependiente Y disminuye (o

línea recta decrece) y porque los puntos forman una


línea recta
c) Relación no lineal directa d) Relación no lineal inversa

Se caracteriza porque, cuando el valor de la Se caracteriza porque, cuando el valor de la


variable X aumenta (o crece), la variable variable X aumenta (o crece), la variable
dependiente Y también aumenta y porque los dependiente Y también disminuye (o decrece) y
puntos forman una curva. porque los puntos forman una curva.
Si se cuenta con una sola variable dependiente y una variable independiente es
decir 𝒚 = 𝒇(𝒙) se dice que el análisis de regresión es simple y si 𝒚 = 𝒇(𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 )
se dice que el análisis de regresión es múltiple.

El análisis de regresión simple o múltiple se puede clasificar en una


regresión lineal o no lineal.

Estudiaremos la regresión lineal en forma descriptiva, calculando la ecuación lineal


de regresión lineal:
𝒀𝒊 = 𝜷𝒐 + 𝜷𝟏 𝒙𝒊 + 𝜺𝒊 ; 𝒊 = 𝟏, 𝟐, … , 𝒏

Que mejor se ajusta a los 𝒏 datos en pareja (𝒙𝒊 , 𝒚𝒊 ) y analizando la validez de la


ecuación o modelo de regresión obtenida aplicando el coeficiente de
determinación.
La covarianza
La covarianza de los datos observados en una muestra es la estadística que
mide el nivel de variabilidad (dispersión o concentración) conjunta de los datos de
las variables en pareja 𝑋, 𝑌 con respecto a sus medias respectivas 𝑥,ҧ 𝑦ത .

Definicion: La covarianza de 𝑛 valores 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 de una variable bidimensional 𝑋, 𝑌 es el


número denotado por 𝑪𝒐𝒗𝑿𝒀 y que se define como la media aritmética de los productos de
las desviaciones conjuntas de los datos con respecto a sus correspondientes medias. Esto
es: σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
𝐶𝑜𝑣𝑋𝑌 =
𝑛
El numerador de la covarianza se denota por 𝑺𝑿𝒀 y verifica la relación:
𝑛 𝑛

𝑆𝑋𝑌 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത = ෍ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥ҧ 𝑦ത
𝑖=1 𝑖=1

Luego
𝑆𝑋𝑌 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝐶𝑜𝑣𝑋𝑌 = = − 𝑥ҧ 𝑦ത
𝑛 𝑛
El coeficiente o índice de correlación

Definicion: El coeficiente o índice de correlación lineal de Pearson de los 𝑛 pares


𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 de una variable bidimensional 𝑋, 𝑌 es el número
relativo 𝒓 que se calcula mediante:

𝐶𝑜𝑣𝑋𝑌
𝑟=
𝑆𝑋 𝑆𝑌

Donde: 𝑆𝑋 : Desviación estándar de 𝑋 𝑆𝑌 : Desviación estándar de 𝑌


𝑛 𝑛
Si hacemos que: 𝑆𝑋𝑋 = ෍ 𝑥𝑖 2 − 𝑛𝑥ҧ 2 𝑦 𝑆𝑌𝑌 = ෍ 𝑦𝑖 2 − 𝑛𝑦ത 2
𝑖=1 𝑖=1
𝑆𝑋𝑌
𝑟=
𝑆𝑋𝑋 𝑆𝑌𝑌

El coeficiente o índice de correlación de la muestra es un numero real comprendido entre -1 y


+1, esto es:
−1 ≤ 𝑟 ≤ 1

Interpretación del índice de correlación:

a) Si 𝑟 = 1,indica que hay una correlación lineal perfecta positiva

b) Si 𝑟 = −1,indica que hay una correlación lineal perfecta negativa

c) Si 𝑟 = 0,indica que no hay correlación entre las dos variables.


Análisis de regresión lineal simple

El modelo de regresión lineal simple que estudia la relación lineal entre la variable de interés 𝒀 (variable
dependiente o respuesta) y la variable explicativa 𝑿(Variable independiente) , a partir de una muestra
𝒙 𝒊 , 𝒚𝒊 ; 𝒊 = 𝟏, … , 𝒏; que sigue el siguiente modelo:

𝒀𝒊 = 𝜷𝒐 + 𝜷𝟏 𝒙𝒊 + 𝜺𝒊 ; 𝒊 = 𝟏, 𝟐, … , 𝒏

Por tanto, es un modelo de regresión paramétrico de diseño fijo.

La regresión lineal simple de la variables de interés 𝒀 con respecto a la variable explicativa


𝐗 ,consiste en obtener la ecuación de la recta o modelo de regresión:

𝒀𝒊 = 𝜷𝒐 + 𝜷𝟏 𝒙𝒊

Que mejor se ajuste a los valores de la muestra, con el fin de predecir o pronosticar los valor de
𝒀 dado 𝐗
Supuestos de la regresión lineal
Se supone que se verifican las siguientes hipótesis:
2. La varianza es constante (Homocedasticidad)
1. La función de regresión es lineal
𝑓 𝑥𝑖 = 𝐸 𝑌Τ𝑥𝑖 = 𝛽𝑜 + 𝛽1 𝑥𝑖 ; 𝑖 = 1,2, … , 𝑛 La varianza de la distribución de probabilidad es

o equivalentemente constante para todos los valores de la variable

La media de la distribución de probabilidad de 𝜀𝑖 es independiente X, por lo tanto:

cero 𝑉𝑎𝑟 𝑌Τ𝑥𝑖 = 𝜎 2 ; 𝑖 = 1,2, … , 𝑛

𝐸 𝜀𝑖 = 0 ; 𝑖 = 1,2, … , 𝑛 O equivalentemente
𝑉𝑎𝑟 𝜀𝑖 = 𝜎 2 ; 𝑖 = 1,2, … , 𝑛
4. Las observaciones 𝒀 son independientes.
3. La distribución es normal Bajo las hipótesis de normalidad, esto equivale a que la:

𝑌Τ𝑥𝑖 ∼ 𝑁 𝛽𝑜 + 𝛽1 𝑥𝑖 , 𝜎 2 ; 𝑖 = 1,2, … , 𝑛 𝐶𝑜𝑣 𝑌𝑖 , 𝑌𝑗 = 0 ; 𝑠𝑖 𝑖 ≠ 𝑗


Esta hipótesis en función de los errores seria, “los 𝜀𝑖 son
O equivalentemente independientes”, que, bajo normalidad, equivale a que:
La distribución de probabilidad de los
𝐶𝑜𝑣 𝜀𝑖 , 𝜀𝑗 = 0 ; 𝑠𝑖 𝑖 ≠ 𝑗
errores es normal
𝜀𝑖 ∼ 𝑁 0 , 𝜎 2 ; 𝑖 = 1,2, … , 𝑛
Estimación de los parámetros del modelo

En el modelo de regresión lineal simple hay tres parámetros que se deben


estimar:

Los coeficientes de la recta de regresión 𝜷𝒐 𝒚 𝜷𝟏

La varianza de la distribución normal 𝝈𝟐 .

El cálculo de estimadores para estos parámetros puede hacerse por


diferentes métodos y los más utilizados son:

El método de máxima verosimilitud

El método de mínimos cuadrados.


Métodos de mínimos cuadrados
A partir de los estimadores 𝛽෢ ෢
𝑜 𝑦 𝛽1 se pueden calcular las predicciones para las observaciones

muestrales, dado por:


෢𝒐 + 𝜷
𝒀෡𝒊 = 𝜷 ෢𝟏 𝒙𝒊 ; 𝒊 = 𝟏, 𝟐, … , 𝒏

Ahora se definen los residuos como


𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖
Donde:

𝑒𝑖 : Error o residuo a cada diferencia (positiva o negativa) 𝑦𝑖 : Valor observado

𝑦ො𝑖 : Valor previsto o pronosticado o ajustado de Y cuando 𝑋 = 𝑥𝑖

Si 𝑥𝑖 es un valor de la muestra entonces 𝑥𝑖 , 𝑦ෝ𝑖 es un punto de la recta de


regresión 𝐸 𝑌Τ𝑥𝑖 = 𝛽𝑜 + 𝛽1 𝑥𝑖
Los estimadores por mínimos cuadrados se obtienen minimizando la suma
de los cuadrados de los errores o residuos, esto es:
𝑛 𝑛 𝑛 𝑛
2 2
𝑆𝐶𝐸 = ෍ 𝑒𝑖 2 = ෍ 𝑦𝑖 − 𝑦ො𝑖 2 ෢𝑜 + 𝛽
= ෍ 𝑦𝑖 − 𝛽 ෢1 𝑥𝑖 ෢𝑜 − 𝛽
= ෍ 𝑦𝑖 − 𝛽 ෢1 𝑥𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1

Derivando e igualando a cero se obtienen las siguientes ecuaciones:

𝑛 𝑛 𝑛
𝑑𝑆𝐶𝐸
෢𝑜 − 𝛽
= −2 ෍ 𝑦𝑖 − 𝛽 ෢1 𝑥𝑖 =0 ෢𝑜 − 𝛽
෍ 𝑦𝑖 − 𝑛𝛽 ෢1 ෍ 𝑥𝑖 = 0 … … … … … … … … … … . . 1

𝑑 𝛽𝑜
𝑖=1 𝑖=1 𝑖=1

𝑛
𝑑𝑆𝐶𝐸 𝑛 𝑛 𝑛
෢𝑜 − 𝛽
= −2𝑥𝑖 ෍ 𝑦𝑖 − 𝛽 ෢1 𝑥𝑖 =0 ෢𝑜 ෍ 𝑥𝑖 − 𝛽
෢1 ෍ 𝑥𝑖 2 = 0 … … … … … … … . 2
෢1
𝑑𝛽 ෍ 𝑥𝑖 𝑦𝑖 − 𝛽
𝑖=1
𝑖=1 𝑖=1 𝑖=1
A las ecuaciones (1) y (2) se les llama normales mínimos cuadráticas desarrollando y
simplificando se obtienen los estimadores mínimos cuadráticos de los parámetros de la
recta de regresión:
σ𝑛𝑖= 𝑥𝑖 σ𝑛𝑖=1 𝑦𝑖
σ𝑛𝑖=1 𝑦𝑖 σ𝑛𝑖=1 𝑥𝑖 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖
− 𝑆𝐶𝑥𝑦
෢𝑜 =
𝛽 ෢1
−𝛽 ෢1 𝑋ത
= 𝑌ത − 𝛽 ෢1 =
𝛽 𝑛 =
𝑛 𝑛 𝑛 2 𝑆𝐶𝑥
𝑛
σ 𝑖=1 𝑥 𝑖
σ𝑖=1 𝑥𝑖 2 −
𝑛

Interpretación de los estimadores:

෢1 corresponde a la pendiente de la
b) El coeficiente 𝛽
a) β෢o Cuando la variable
independiente 𝐱 es cero, la recta, este coeficiente expresa la razón de cambio entre

෢𝐨
variable dependiente 𝐲 es 𝛃 la variable dependiente con respecto a un cambio unitario
en la variable independiente, es decir, “Si la variable
unidades.
independiente 𝒙 aumenta en una unidad entonces la
variable dependiente 𝐲 pueden aumentar o disminuir
෢𝟏 unidades, dependiendo del signo de 𝛽
𝜷 ෢1 ”
Ejemplo

σ𝑛𝑖=1 𝑦𝑖 σ𝑛𝑖=1 𝑥𝑖
෢𝑜 =
𝛽 ෢1
−𝛽 ෢1 𝑋ത
= 𝑌ത − 𝛽
𝑛 𝑛
σ𝑛𝑖= 𝑥𝑖 σ𝑛𝑖=1 𝑦𝑖
σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖−
෢1 =
𝛽 𝑛
𝑛 2
σ 𝑥
σ𝑛𝑖=1 𝑥𝑖 2 − 𝑖=1 𝑖
𝑛
Ejemplo
Ejemplo

Un trabajo estadístico asignado a un grupo de estudio consiste en obtener un modelo de regresión lineal a
nivel descriptivo para predecir las ventas semanales de un producto especifico en función de la publicidad del
producto por la radio. Para esto, han recopilado al azar los tiempos de duración en minutos de la publicidad de
10 semanas y el respectivo numero de unidades vendidas del producto. Los datos se dan en la tabla
siguiente:

semana 1 2 3 4 5 6 7 8 9 10

Publicidad X 20 30 30 40 50 60 60 60 70 80

Ventas Y 50 73 69 87 108 128 135 132 148 140

a) Grafica los datos y describa su tendencia


b) Obtenga la recta de regresión lineal simple de mínimos cuadrados
c) Calcule el coeficiente correlación entre X e Y
d) Aplique la regresión para predecir la venta de una semana donde se harían 100 minutos de propaganda .
Partición de la varianza de 𝒀
Sea 𝑥𝑖 , 𝑦𝑖 un valor observado de la variable 𝑋, 𝑌 e 𝑦ෝ𝑖 el valor en la ecuación de
෢𝑜 + 𝛽
regresión 𝑌෡𝑖 = 𝛽 ෢1 𝑥𝑖 cuando 𝑋 = 𝑥𝑖

La varianza de 𝑌 es el número real:

2 σ𝒏𝒊=1 𝒚𝒊 − 𝒚
ഥ 2
𝑺𝒀 =
𝒏
La componente principal:

𝑦𝑖 − 𝑦ത de 𝑆𝑌 2 se escribe y se lee del siguiente modo:

ഥ = 𝒚𝒊 − 𝒚ෝ𝒊 + 𝒚ෝ𝒊 − 𝒚
𝒚𝒊 − 𝒚 ഥ

𝐄𝐫𝐫𝐨𝐫 𝐓𝐨𝐭𝐚𝐥 = 𝐄𝐫𝐫𝐨𝐫 𝐧𝐨 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐨 + 𝐄𝐫𝐫𝐨𝐫 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐨


Esta terminología surge debido a que:

❖ Las desviaciones 𝒚𝒊 − 𝒚ෝ𝒊 con ❖ Las desviaciones 𝒚ෝ𝒊 − 𝒚


ഥ de la recta de
respecto a la recta de regresión con respecto al eje de la 𝐗 se
regresión, se comporta de una explican por la recta de regresión de 𝐘
manera aleatoria o en 𝐗 ya que solo depende de los 𝒚ෝ𝒊 que
impredecible, debido a que 𝒚𝒊 están sobre la recta.
es aleatorio.
Por otro lado se verifica la siguiente partición de sumas de cuadrados:
𝒏 𝒏 𝒏


෍ 𝒚𝒊 − 𝒚 𝟐 = ෍ 𝒚𝒊 − 𝒚ෝ𝒊 𝟐 + ෍ 𝒚ෝ𝒊 − 𝒚
ഥ 𝟐

𝒊=𝟏 𝒊=𝟏 𝒊=𝟏

𝐒𝐂𝐓 = 𝐒𝐂𝐄 + 𝐒𝐂𝐑


➢ Suma de cuadrados total (SCT): ➢ Suma de cuadrados de los errores (SCE):

Es la cantidad de variación de los Es la cantidad de variación de los valores

valores de 𝑌 con respecto a la aleatorios o no explicados de 𝑌.

media 𝑦.

➢ Suma de cuadrados debido a la regresión (SCR):
Es la cantidad de variación de los valores de 𝑌
explicada por la recta de regresión calculada de la
muestra.

Si se divide a SCT por 𝑛 (𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎),entonces La varianza total de los 𝑦𝑖 es igual a la varianza

la varianza total se expresa en términos de dos varianzas, no explicada o residual, más la varianza

esto es: explicada por la recta de regresión.


Ejemplo

En una muestra de 5 obreros de una fabrica se han observado sus años de experiencia (X) y el tiempo que tardan
en realizar determinada tarea (Y).Los datos se muestran en la siguiente tabla

X 1 2 3 4 5
Y 8 9 4 3 3

Compruebe que la variación total es igual a la variación no explicada mas la variación explicada por la regresión
de Y en X. Luego, exprese la partición de la varianza Y en porcentajes de las varianzas que la componen.
El coeficiente de determinación
El coeficiente de determinación se denota por 𝒓𝟐 𝒐 𝒑𝒐𝒓 𝑹𝟐 se define como el cociente
de la suma de cuadrados de regresión sobre la suma de cuadrados total.

Esto es, el coeficiente de determinación 𝑟 2 de la regresión de 𝑌 en 𝑋 esta descrito por:


σ𝒏 2
𝑆𝐶𝑅 ෝ𝒊 − 𝒚
𝒊=1 𝒚 ഥ
𝑟2 = = 𝒏 2
𝑆𝐶𝑇 σ𝒊=1 𝒚𝒊 − 𝒚ഥ
Aplicando esta expresión a la partición de suma de cuadrados 𝐒𝐂𝐓 = 𝐒𝐂𝐄 + 𝐒𝐂𝐑

SCE SCR 𝐒𝐂𝐄


Resulta 1= + 1= + 𝒓2 … … … … … … ∗
𝑆𝐶𝑇 𝑆𝐶𝑇 𝑺𝑪𝑻

Por lo tanto, para interpretar la partición de la varianza bastara con calcular 𝒓,luego 𝒓𝟐 y escribir:
𝟏 = 𝟏 − 𝒓𝟐 + 𝒓𝟐

Concluir: El 𝟏 − 𝒓𝟐 × 𝟏𝟎𝟎% de la varianza no explicada.


El 100% de la varianza total es igual:
El 𝒓𝟐 × 𝟏𝟎𝟎% de la variación explicada por la recta de regresión
Interpretación del coeficiente de determinación
𝐒𝐂𝐄 σ𝒏 2
𝑆𝐶𝑅 ෝ𝒊 − 𝒚
𝒊=1 𝒚 ഥ
1= + 𝒓2 … … … … … … ∗ 𝑟2 = = 𝒏 2
𝑺𝑪𝑻 𝑆𝐶𝑇 σ𝒊=1 𝒚𝒊 − 𝒚ഥ

❖ Si 𝑟 > 0,se dice que existe una correlación directa positiva,

1 ambas variables aumentan (o disminuyen) simultáneamente.

De la identidad (∗) se concluye que


❖ Si 𝑟 < 0,se dice que existe una correlación inversa negativa,
0 ≤ 𝒓𝟐 ≤ 𝟏.Entonces,−1 ≤ 𝑟 ≤ 1.
mientras los valores de una variable aumentan, los de la otra
disminuyen y viceversa.

❖ Si 𝑟 = 0,se dice que no hay correlación entre 𝑿 𝒆 𝒀.Por


tanto no hay regresión de 𝑌 𝑒𝑛 𝑋
𝐒𝐂𝐄 σ𝒏 2
𝑆𝐶𝑅 ෝ𝒊 − 𝒚
𝒊=1 𝒚 ഥ
1= + 𝒓2 … … … … … … ∗ 𝑟2 = = 𝒏
𝑺𝑪𝑻 𝑆𝐶𝑇 σ𝒊=1 𝒚𝒊 − 𝒚ഥ 2

2
𝒓𝟐 = 𝟏, solo si, 𝑺𝑪𝑬 = 𝟎 o solo si, 𝒚𝒊 = 𝒚ෝ𝒊 ,para los ❖ Si 𝑟 = 1,se dice que hay una correlación perfecta
n datos de la muestra. Esto significa que todos positiva
los valores 𝒚𝒊 están en la recta de regresión. Si
❖ Si 𝑟 = −1,se dice que hay una correlación perfecta
este es el caso, se dice que hay una correlación
negativa
perfecta entre 𝑋 𝑒 𝑌.

3 4

Si 𝒓𝟐 = 𝟎,solo si, 𝑺𝑪𝑹 = 𝟎 o solo si 𝒚ෝ𝒊 = 𝒚


ഥ El coeficiente de determinación 𝒓𝟐 ,es pues
para los 𝑛 datos de la muestra. Es decir, 𝒚𝒊 no una medida de la proximidad del ajuste de la
cambia cuando cambia 𝑥𝑖 , o todas las recta de regresión. Cuanto mayor sea el valor
predicciones son iguales a una misma de 𝒓𝟐 ,mejor será el ajuste y más útil la recta
constante. Si este es el caso, se dice que no de regresión como instrumento de predicción.
hay correlación ni regresión.
Nociones de regresión no lineal
Cuando los valores en parejas de las variables X e Y,no se ajustan a una línea recta, se puede
conseguir que una relación no lineal sea transformada en una relación lineal mediante una
transformación de las variables.

A continuación, se dan algunas ecuaciones no lineales y su transformación lineal

Ecuación Transformación lineal


𝑌 = 𝐴𝐵 𝑋 Exponencial log 𝑌 = log 𝐴 + log 𝐵 𝑋
𝑌 = 𝐴𝑋 𝐵 Potencia log 𝑌 = log 𝐴 + 𝐵 log 𝑋

1 Hiperbólica 1
𝑌= 𝑌 ′ = 𝐴 + 𝐵𝑋, 𝑠𝑖𝑒𝑛𝑑𝑜 𝑌 ′ =
𝐴 + 𝐵𝑋 𝑌
Ejemplo Aplicando el método de mínimos cuadrados ,ajuste el modelo de regresión potencia:𝑌 = 𝐴𝑋 𝐵
A los siguientes datos observados de una muestra:

X 1.5 2 3 3.5 4 5
Y 2.6 2.4 1.2 1.8 1.6 1.4

σ𝑛𝑖= 𝑥𝑖 σ𝑛𝑖=1 𝑦𝑖
σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖
− 𝑆𝐶𝑥𝑦

𝛽1 = 𝑛 =
𝑛 2 𝑆𝐶𝑥
𝑛 2
σ𝑖=1 𝑥𝑖
σ𝑖=1 𝑥𝑖 −
𝑛
σ𝑛𝑖=1 𝑦𝑖 σ𝑛𝑖=1 𝑥𝑖
෢𝑜 =
𝛽 −𝛽෢1 ෢1 𝑋ത
= 𝑌ത − 𝛽
𝑛 𝑛

También podría gustarte