LECCIÓN 10
Regresión
En la lección anterior se discutió la naturaleza, el significado y el cómputo de la correlación
r. En particular, la correlación r indica el grado de relación lineal entre dos variables. En esta
lección veremos cómo desarrollar la ecuación de regresión para predecir los valores de Y en
función de X.
Se dice que existe una relación lineal entre las variables X y Y si los valores de Y se
pueden expresar en función de los valores de X, tal que:
Y = bX + a,
donde b y a son dos constantes. La constante b se conoce como la pendiente o inclinación de la
línea de regresión, la constante a se conoce como el intercepto en Y. La definición anterior es
posiblemente la más precisa, pero es la que menos se entiende.
Una definición más sencilla es aquella que dice que existe una relación lineal entre las
variables X y Y si al hacer gráfica de los valores de las variables se observa que representan o
aproximan una línea. A manera de ejemplo, observe los valores de la Tabla 10.1.
Tabla 10.1
Valores que Representan Relaciones Lineales
_______________________________________________________________________________
X Y X' Y' X" Y"
_______________________________________________________________________________
1 3 8 11 1 2
7 15 4 7 2 3
3 7 5 8 3 6
4 9 2 5 4 7
2 5 1 4 5 10
8 17 9 12 6 13
_______________________________________________________________________________
Con los valores de X'y Y' se construyó la Gráfica 10.1. Es evidente que al unir los puntos
en la Gráfica 10.1 se obtendrá una línea recta. El estudiante puede hacer la gráfica correspondiente
a las variables X y Y.
Una mirada cuidadosa a las variables en la Tabla 10.1 sugiere que la relación entre las
variables X y Y es de la forma
Y = 2X + 1,
de donde se deduce que b = 2, y a = 1.
Una tercera definición de una relación lineal es la siguiente: Se dice que existe una
relación lineal entre las variables X y Y si la correlación r entre ellas es tal que r(X,Y) = 1. La
ventaja que provee esta definición es que permite establecer gradaciones o aproximaciones lineales
entre las variables. En la Tabla 10.1 se observa que la relación entre las variables X" y Y" es tal
que casi se puede decir que
J. Perezcoffie © 2020 Estadísticas
1
Y" = 2X" + 0,
con b = 2 y a = 0. Lo curioso acerca de la relación entre las variables X" y Y" es que a veces
parece que a es igual a cero, a veces a es igual a 1, y a veces parece que es igual a -1. Cualquiera
que sea el caso, la verdad es que parece que la relación entre las variables X" y Y" es tal que se
puede decir que es casi lineal.
Y'
┼
12┼ *
┼ *
10┼
┼
8┼ *
┼ *
6┼
┼ *
4┼ *
┼
2┼
┼
└──┼──┼──┼──┼──┼──┼──┼──┼──┼──┼───>
2 4 6 8 10
X'
Gráfica 10.1. Gráfica de los valores de X' y Y'.
Será esa noción la que se usará para determinar el grado en que un conjunto de datos se
puede aproximar mediante una línea recta; la línea de regresión.
Cómputo de las constantes b y a
Es evidente que ninguna de las definiciones anteriores es muy útil a la hora de hacer la
línea de regresión. No tenemos el tiempo para hacer gráficas cada vez que al profesor le parece.
Lo que se necesita es un procedimiento general que sirva para determinar en qué grado existe una
línea recta que aproxima la relación entre las variables. Se necesita, además, que el procedimiento
permita obtener la ecuación que relaciona las variables. Dicho de manera precisa, es necesario
determinar los valores de las constantes b y a para insertarlas en la ecuación de regresión.
La pendiente byx de la ecuación Y' = bX + a se puede determinar mediante la relación
byx = r(Sy/Sx),
donde r es la correlación entre X y Y, S x es la desviación estándar de la variable X y S y es la
desviación estándar de Y.
La pendiente bxy de la ecuación X' = bY + a se puede determinar mediante la relación
bxy = r(Sx/Sy),
donde r es la correlación entre X y Y, S x es la desviación estándar de la variable X, S y es la
J. Perezcoffie © 2020 Estadísticas
2
desviación estándar de Y. Por lo tanto, es necesario tener claro cuál es la ecuación de regresión
que se está buscando, ya que en general byx NO es igual a bxy
Por ejemplo, si le dicen que r(X,Y) = .87, Sy = 2.45 y Sx = 1.88, entonces se puede concluir
que
byx = r(Sy/Sx)
byx = .87(2.45/1.88)
byx = .87(1.3031)
byx = 1.13.
A modo de práctica, utilice los datos de la Tabla 10.2 para el cómputo de byx y bxy.
Desafortunadamente, no siempre tendremos los valores de r(X,Y), Sx y Sy por lo tanto, es
necesario conocer la ecuación para obtener byx a partir de los datos brutos. Esta es:
b yx =N ∑ XY −¿¿ ¿
En el caso que se quiera saber el valor de bxy a partir de los datos brutos, se debe usar
N ∑ XY −( ∑ X )( ∑ Y )
b xy =
N ∑ Y 2−¿ ¿ ¿
Tabla 10.2
Datos para el Cómputo de byx y bxy
_______________________________________________________________________________
r Sx Sy byx bxy
_______________________________________________________________________________
.98 2.8 3.4
.24 5.4 1.1
.48 2.2 4.3
.73 6.2 2.1
.62 1.5 1.3
______________________________________________________________________________
El valor del intercepto ayx de la regresión Y' = bX + a se determina con la siguiente
ecuación:
a yx = Y - b yx X 3.
Si se quiere saber el valor del intercepto axy para la regresión X' = bY + a, se utiliza
a xy = X - b xy Y
4.
De las ecuaciones anteriores es evidente que no hemos sido muy honestos con los
estudiantes. Le hemos hablado acerca de la ecuación de regresión, cuando en realidad hay dos.
Para las variables X, Y existen las ecuaciones
Y' = byxX + ayx y X' = bxyY + axy.
J. Perezcoffie © 2020 Estadísticas
3
Ante la pregunta evidente de cuál de esas ecuaciones habrá de usarse, la respuesta es simple:
depende de qué se quiera saber.
Computando las ecuaciones de regresión
Suponga que se escoge una muestra aleatoria de 10 estudiantes y se les miden las variables
año académico (X) y promedio general Y, según se presenta en la Tabla 10.3.
A partir de la Tabla 10.3 se determinan los valores de la pendiente byx, y el intercepto ayx.
Los valores obtenidos son: byx = .22, ayx = 2.514. También se obtienen los valores Sx = 1.57, Sy
= .37, r(X,Y) = .95. Con esta información se escribe la ecuación de regresión de Y como función
de X:
Y' = .22X + 2.51.
También se puede obtener la ecuación de regresión de X como función de Y, buscando la
pendiente bxy, y el intercepto axy. Esto se le deja al estudiante como ejercicio de práctica.
Tabla 10.3
Datos para el Cómputo de la Regresión
_______________________________________________________________________________
X Y X² Y² XY
_______________________________________________________________________________
1 2.6 1 6.76 2.6
1 2.9 1 8.41 2.9
1 2.9 1 8.41 2.9
2 2.9 4 8.41 5.8
2 2.8 4 7.84 5.6
3 3.2 9 10.24 9.6
3 3.1 9 9.61 9.3
4 3.5 16 12.25 14.0
5 3.7 25 13.69 18.5
5 3.6 25 12.96 18.0
_______________________________________________________________________________
Σ 27 31.2 95 98.58 89.2
_______________________________________________________________________________
La ecuación de regresión se usa para predecir los valores de una variable en función de la
otra. De la ecuación Y' = .22X + 2.51, se pueden predecir los valores de Y. Estos se presentan en
la Tabla 10.4. Como los valores predichos y los valores reales no serán los mismos, distinguimos
el valor predicho como Y', y el valor real simplemente como Y.
Se observa que los valores predichos no son iguales que los valores reales. Ello se debe a
que la correlación r(X, Y) no es igual a 1.00. El grado de error o diferencia entre los valores de Y'
y Y se determina usando el error estándar de la medida Syx. Este se determina por medio de la
ecuación:
J. Perezcoffie © 2020 Estadísticas
4
S yx =√ 1−r
2
En el caso de la ecuación obtenida, el error estándar es
Syx = Sy(1 - r²)
= .37(1 - .95²)
= .115.
El error estándar de la medida da una idea del grado en que el valor predicho se desvía del
valor real. Se observa que mientras más cerca de 1.00 sea el valor de r(X,Y), tanto menor será el
valor de Syx, o lo que es igual, tanto más precisa será la predicción.
Tabla 10.4.
Valores de Y' en Función de X
_______________________________________________________________________________
X Y Y'
_______________________________________________________________________________
1 2.6 2.73
1 2.9 2.73
1 2.9 2.73
2 2.9 2.95
2 2.8 2.95
3 3.2 3.17
3 3.1 3.17
4 3.5 3.39
5 3.7 3.61
5 3.6 3.61
_______________________________________________________________________________
Finalmente, los factores que afectan la correlación son los mismos que afectan la regresión.
Se aconseja al estudiante repasar estos factores.
Problemas y preguntas
1. La correlación r indica:
2. El grado de relación lineal entre dos variables se indica mediante:
3. Se dice que existe una relación lineal entre las variables X y Y si:
4. Si los valores de Y se pueden expresar tal que Y = bX + a, entonces se concluye que:
5. En Y = bX + a, b y a son:
6. Las constantes de Y = bX + a son:
7. La constante b se conoce como:
8. La pendiente o inclinación de la línea de regresión se representa mediante:
9. La constante a se conoce como:
10. El intercepto en Y se representa como:
11. La definición más sencilla de una relación es lineal entre X y Y es aquella que dice que:
J. Perezcoffie © 2020 Estadísticas
5
12. Si al hacer gráfica de los valores de las variables se observa que representan o aproximan
una línea, se concluye que:
13. Si tenemos la ecuación Y = 2X + 1, entonces se deduce que los valores de b y a son:
14. Si b = 2 y a = 1, entonces la ecuación lineal es:
15. Una tercera definición de una relación lineal dice que existe una relación lineal entre las
variables X y Y si la correlación r entre ellas es:
16. Si la correlación entre las variables es tal que r(X,Y) = 1, entonces se concluye que la
relación es:
17. La ventaja que provee la definición de relación lineal usando la correlación es que permite
establecer:
18. Gradaciones o aproximaciones lineales entre las variables se pueden hacer si la relación
lineal se define del siguiente modo:
19. La línea recta que se usa para aproximar una relación lineal se llama:
20. Para hacer la línea de regresión es necesario determinar los valores de:
21. Las constantes b y a se determinan para insertarlas en:
22. En la ecuación de regresión se insertan:
23. La pendiente byx de la ecuación Y' = bX + a se puede determinar mediante la relación:
24. La ecuación byx = r(Sy/Sx) se usa para determinar:
25. La pendiente bxy de la ecuación X' = bY + a se puede determinar mediante la relación:
26. La ecuación bxy = r(Sx/Sy) se usa para determinar:
27. En general byx NO es igual a:
28. Si r(X,Y) = .87, Sy = 2.45 y Sx = 1.88, entonces se puede concluir que byx es igual a:
29. Si r(X,Y) = .87, Sy = 2.45 y Sx = 1.88, entonces se puede concluir que bxy es igual a:
30. Si r = .98, Sx = 2.8 , Sy = 3.4, entonces los valores de byx y bxy son:
31. Si r = .24, Sx = 5.4, Sy = 1.1, entonces los valores de byx y bxy son:
32. Si r = .48, Sx = 2.2, Sy = 4.3, entonces los valores de byx y bxy son:
33. Si r = .73, Sx = 6.2, Sy = 2.1, entonces los valores de byx y bxy son:
34. Si r = .62, Sx = 1.5, Sy = 1.3, entonces los valores de byx y bxy son:
35. La ecuación para obtener byx a partir de los datos brutos es:
36. En el caso que se quiera saber el valor de bxy a partir de los datos brutos, se debe usar:
37. El valor del intercepto ayx de la regresión Y' = bX + a se determina con la siguiente
ecuación:
38. Para las variables X, Y existen las siguientes ecuaciones de regresión:
39. La ecuación de regresión se usa para predecir:
40. Los valores de una variable en función de la otra se predicen con:
41. Si se quiere saber el valor del intercepto axy para la regresión X' = bY + a, se utiliza:
42. De la ecuación Y' = .22X + 2.51, si X = 2, entonces Y' será:
43. De la ecuación Y' = .22X + 2.51, si X = 3, entonces Y' será:
44. De la ecuación Y' = .22X + 2.51, si X = 4, entonces Y' será:
45. De la ecuación Y' = .22X + 2.51, si X = 1, entonces Y' será:
46. Distinguimos el valor predicho del valor real mediante los siguientes símbolos:
47. Los valores predichos no son iguales que los valores reales, a menos que la correlación
r(X,Y) sea igual a:
48. El grado de error o diferencia entre los valores de Y' y Y se determina usando:
49. Los valores predichos (Y') y los valores reales (Y) en general no serán:
50. Syx es lo mismo que:
J. Perezcoffie © 2020 Estadísticas
6
51. El error estándar de la medida Syx se determina por medio de la ecuación:
52. Si r = .95 y SY = .37, entonces el error estándar Syx es igual a:
53. El error estándar de la medida se representa mediante:
54. La ecuación de Syx es:
55. La ecuación de Sxy es:
56. El error estándar de la medida da una idea de:
57. Sy(1 - r²) es la ecuación de:
58. Mientras más cerca de 1.00 sea el valor de r(X,Y), tanto menor será el valor de:
59. Mientras más cerca de 1.00 sea el valor de r(X,Y), tanto más es:
60. La precisión de la predicción será mayor si:
61. El grado en que el valor predicho se desvía del valor real se mide por medio de:
62. Los factores que afectan la regresión son los mismos que afectan:
63. Los factores que afectan la correlación son los mismos que afectan:
64. ¿Qué indica la correlación?
65. ¿Cómo se determina el grado de grado de relación lineal entre dos variables?
66. Se dice que existe una relación lineal entre las variables X y Y si .
67. ¿Qué se concluye si los valores de Y se pueden expresar mediante la ecuación Y' =bX + a?
68. ¿Qué son b y a en Y' =bX + a?
69. ¿Qué nos dice una gráfica de las variables X y Y?
70. Explique las tres definiciones de relaciones lineales discutidas en el texto.
71. ¿Qué se concluye si la correlación r entre las variables X y Y es tal que r(X,Y) = 1?
72. ¿Qué ventajas provee la tercera definición de relación lineal?
73. ¿Qué es "el grado en que un conjunto de datos se puede aproximar mediante una línea
recta"?
74. Escriba las siguientes ecuaciones: byx, bxy, ayx, axy.
75. Explique para qué ecuaciones de regresión se usan las ecuaciones de la pregunta 11.
76. ¿Será cierto que en general byx es igual a bxy? Explique.
77. Si r(X,Y) = .87, Sy = 2.45 y Sx = 1.88, entonces determine byx.
78. Utilice los datos de la Tabla 10.2 para el cómputo de byx y bxy.
79. Escriba la ecuación para obtener byx a partir de los datos brutos.
80. Escriba la ecuación para obtener bxy a partir de los datos brutos.
81. Para las variables X, Y ¿Cuántas ecuaciones de regresión existen? Escríbalas.
82. ¿Para qué se usa la ecuación de regresión?
83. Si Y' = .22X + 2.51, determine los valores de Y'.
84. ¿Por qué se distingue entre los valores de Y y Y'?
85. ¿Bajo qué circunstancias los valores predichos serán iguales a los valores reales?
86. ¿Cómo se determina el grado de error o diferencia entre los valores de Y' y Y?
87. ¿Qué es y para qué se usa Syx?
88. ¿Escriba la ecuación de Syx y Sxy?
89. ¿Qué le ocurre a Sxy cuando el valor de r(X,Y) se acerca a 1.00?
90. Explique los factores que afectan la regresión.
PAREO
___ La correlación r indica:
J. Perezcoffie © 2020 Estadísticas
7
___ El grado de relación lineal entre dos variables se indica S yx =Sx √ 1−r
2
1.
mediante:
S yx =Sy √ 1−r
2
2.
___ Se dice que existe una relación lineal entre las variables X y Y
S yx =Sy √ 1−r , error
2
si: 3.
___ Si los valores de Y se pueden expresar tal que Y = bX + a, estándar de la medida
entonces se concluye que: 4. a XY = X - b XY Y
___ En Y = bX + a, b y a son: 5. a yx =Y - b YX X
___ Las constantes de Y = bX + a son: 6. .24(1.1/5.4); .24(5.4/1.1)
___ La constante b se conoce como: 7. .48(4.3/2.2); .48(2.2/4.3)
___ La pendiente o inclinación de la línea de regresión se 8. .62(1.3/1.5); .62(1.5/1.3)
representa mediante: 9. .73(2.1/6.2); .73(6.2/2.1)
___ La constante a se conoce como: 10. .87(1.88/2.45)
___ El intercepto en Y se representa como: 11. .87(2.45/1.88)
___ La definición más sencilla de una relación es lineal entre X y Y 12. .98(3.4/2.8); .98(2.8/3.4)
es aquella que dice que: 13. = .37(1 - .95²) = .115
___ Si al hacer gráfica de los valores de las variables se observa que 14. ±1
representan o aproximan una línea, se concluye que: 15. 2, 1
___ Si tenemos la ecuación Y = 2X + 1, entonces se deduce que los 16. 2.73
valores de b y a son: 17. 2.95
___ Si b = 2 y a = 1, entonces la ecuación lineal es: 18. 3.17
___ Una tercera definición de una relación lineal dice que existe 19. 3.39
una relación lineal entre las variables X y Y si la correlación r 20. a
entre ellas es: 21. apréndala
___ Si la correlación entre las variables es tal que r(X,Y) = 1, 22. b
entonces se concluye que la relación es: 23. b (pendiente), a
___ La ventaja que provee la definición de relación lineal usando la (intercepto)
correlación es que permite establecer: 24. b (pendiente), a
___ Gradaciones o aproximaciones lineales entre las variables se (intercepto)
pueden hacer si la relación lineal se define del siguiente modo: 25. b, a
___ La línea recta que se usa para aproximar una relación lineal se 26. bxy
llama: 27. bxy = r(Sx/Sy)
___ Para hacer la línea de regresión es necesario determinar los 28. constantes
valores de: 29. correlación r
___ Las constantes b y a se determinan para insertarlas en: 30. ecuación de regresión
___ En la ecuación de regresión se insertan: 31. el grado de error o
___ La pendiente byx de la ecuación Y' = bX + a se puede diferencia entre los
determinar mediante la relación: valores de Y' y Y
___ La ecuación byx = r(Sy/Sx) se usa para determinar: 32. el grado en que el valor
___ La pendiente bxy de la ecuación X' = bY + a se puede predicho se desvía o
determinar mediante la relación: difiere del valor real
___ La ecuación bxy = r(Sx/Sy) se usa para determinar: 33. error estándar de la
___ En general byx NO es igual a: medida
___ Si r(X,Y) = .87, Sy = 2.45 y Sx = 1.88, entonces se puede 34. error estándar de la
concluir que byx es igual a: medida al predecir Y a
___ Si r(X,Y) = .87, Sy = 2.45 y Sx = 1.88, entonces se puede partir de X
concluir que bxy es igual a: 35. gradaciones o
J. Perezcoffie © 2020 Estadísticas
8
___ Si r = .98, Sx = 2.8 , Sy = 3.4, entonces los valores de byx y bxy aproximaciones
son: 36. grado de relación lineal
___ Si r = .24, Sx = 5.4, Sy = 1.1, entonces los valores de byx y bxy 37. hay una relación lineal
son: entre X , Y
___ Si r = .48, Sx = 2.2, Sy = 4.3, entonces los valores de byx y bxy 38. iguales
son: 39. intercepto en Y
___ Si r = .73, Sx = 6.2, Sy = 2.1, entonces los valores de byx y bxy 40. la correlación
son: 41. la correlación entre las
___ Si r = .62, Sx = 1.5, Sy = 1.3, entonces los valores de byx y bxy variables es tal que
son: r(X,Y) = ±1
___ La ecuación para obtener byx a partir de los datos brutos es: 42. la ecuación
___ En el caso que se quiera saber el valor de bxy a partir de los correspondiente;
datos brutos, se debe usar: apréndala
___ El valor del intercepto ayx de la regresión Y' = bX + a se 43. la ecuación de regresión
determina con la siguiente ecuación: 44. la regresión
___ Para las variables X, Y existen las siguientes ecuaciones de 45. línea de regresión
regresión: 46. lineal
___ La ecuación de regresión se usa para predecir: 47. los valores de una
___ Los valores de una variable en función de la otra se predicen variable en función de
con: otra variable
___ Si se quiere saber el valor del intercepto axy para la regresión X' 48. los valores de Y se
= bY + a, se utiliza: pueden expresar por
___ De la ecuación Y' = .22X + 2.51, si X = 2, entonces Y' será: medio de Y = bX + a
___ De la ecuación Y' = .22X + 2.51, si X = 3, entonces Y' será: 49. pendiente
___ De la ecuación Y' = .22X + 2.51, si X = 4, entonces Y' será: 50. pendiente byx de la
___ De la ecuación Y' = .22X + 2.51, si X = 1, entonces Y' será: ecuación Y' = bX + a
___ Distinguimos el valor predicho del valor real mediante los 51. precisa la predicción
siguientes símbolos: 52. r(Sy/Sx)
___ Los valores predichos no son iguales que los valores reales, a 53. r(X,Y) = ±1
menos que la correlación r(X,Y) sea igual a: 54. r(X,Y) se acerca a ±1
___ El grado de error o diferencia entre los valores de Y' y Y se 55. si al hacer gráfica de los
determina usando: valores de las variables
___ Los valores predichos (Y') y los valores reales (Y) en general se observa que
no serán: representan o aproximan
___ Syx es lo mismo que: una línea
___ El error estándar de la medida Syx se determina por medio de la 56. X' = bY + a
ecuación: : 57. Y = 2X + 1
___ Si r = .95 y SY = .37, entonces el error estándar Syx es igual a: 58. Y' = bX + a; X' = bY + a
___ El error estándar de la medida se representa mediante: 59. Y’, Y, respectivamente
___ La ecuación de Syx es:
___ La ecuación de Sxy es:
___ El error estándar de la medida da una idea de:
___ Sy(1 - r²) es la ecuación de:
___ Mientras más cerca de 1.00 sea el valor de r(X,Y), tanto menor
será el valor de:
___ Mientras más cerca de 1.00 sea el valor de r(X,Y), tanto más
J. Perezcoffie © 2020 Estadísticas
9
es:
___ La precisión de la predicción será mayor si:
___ El grado en que el valor predicho se desvía del valor real se
mide por medio de:
___ Los factores que afectan la regresión son los mismos que
afectan:
___ Los factores que afectan la correlación son los mismos que
afectan:
Haga los siguientes problemas.
1. Si r = .6, Sx = 1.3, Sy = 2.1, Promedio de X = 10 , Promedio de Y = 7
Determine para Y’ = bX + a (los valores de b y a). Inserte los valores en la ecuación.
2. Si r = .5, Sx = 1.4, Sy = 2.2, Promedio de X = 4 , Promedio de Y = 3
Determine para Y’ = bX + a (los valores de b y a). Inserte los valores en la ecuación.
3. Si r = .9, Sx = 1.5, Sy = 2.3, Promedio de X = 9, Promedio de Y = 11
Determine para X’ = bY + a (los valores de b y a). Inserte los valores en la ecuación.
4. Si r = .7, Sx = 1.6, Sy = 2.4, Promedio de X = 7, Promedio de Y = 9
Determine para X’ = bY + a (los valores de b y a). Inserte los valores en la ecuación.
5. Si r = .4, Sx = 1.7, Sy = 2.5, Promedio de X = 4, Promedio de Y = 8
Determine para Y’ = bX + a (los valores de b y a). Inserte los valores en la ecuación.
J. Perezcoffie © 2020 Estadísticas
10
Soluciones
1. Y’ = .97X - .2.7
2. Y’ = .78X - .12
3. X’ = .59Y + 2.51
4. X’ = .47Y + 2.77
5. Y’ = .59X + 5.64
J. Perezcoffie © 2020 Estadísticas
11