0% encontró este documento útil (0 votos)
45 vistas10 páginas

Regresión Lineal Simple 20220207

El documento aborda el análisis de regresión lineal simple, que permite predecir valores de una variable dependiente (Y) a partir de una variable independiente (X) mediante una relación lineal. Se describen los supuestos necesarios para aplicar este análisis, así como el procedimiento para realizarlo utilizando SPSS, incluyendo un ejemplo práctico sobre la relación entre horas de estudio y calificaciones. Además, se presentan los resultados de la regresión, destacando la fuerte correlación entre las variables y la significancia estadística de los coeficientes obtenidos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
45 vistas10 páginas

Regresión Lineal Simple 20220207

El documento aborda el análisis de regresión lineal simple, que permite predecir valores de una variable dependiente (Y) a partir de una variable independiente (X) mediante una relación lineal. Se describen los supuestos necesarios para aplicar este análisis, así como el procedimiento para realizarlo utilizando SPSS, incluyendo un ejemplo práctico sobre la relación entre horas de estudio y calificaciones. Además, se presentan los resultados de la regresión, destacando la fuerte correlación entre las variables y la significancia estadística de los coeficientes obtenidos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 10

UNIVERSIDAD TÉCNICA DE MACHALA

FACULTAD DE CIENCIAS SOCIALES

TEMA: Análisis de Regresión lineal simple


OBJETIVO:

Predecir los valores de la variable Y (dependiente), a partir de los de otra variable X


(independiente), entre las que existe una correlación, por medio de la Regresión Lineal
Simple, para que se consolide el análisis estadístico inferencial en la solución de problemas
de la profesión.

Análisis de Regresión lineal simple

El término regresión se utilizó por primera vez en el estudio de variables antropométricas:


al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían
una estatura muy superior al valor medio, tendían a igualarse a este promedio, mientras
que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la
estatura media; es decir, "regresaban" al promedio. La constatación empírica de esta
propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.

La regresión lineal es una técnica estadística que se utiliza para predecir o estimar los
valores de una variable cuantitativa a partir de los valores de otra(s) variable(s)
cuantitativa(s). La regresión que se estudiará en este apartado es la Regresión Lineal
Simple, porque se trata de una sola variable independiente que predice los valores de la
otra dependiente.

A la variable que se va a predecir se le denomina variable dependiente (Y) o explicada,


porque su valor depende de X. Mientras que, la otra se denomina variable Independiente
(X) o predictora, porque explica el comportamiento de Y.

La regresión lineal parte del supuesto de que las dos variables numéricas X y Y están
correlacionadas y consiste en modelar la ecuación de una línea recta que toma la dirección
hacia arriba o hacia abajo, en dependencia del signo de la correlación.

1
Es importante señalar que, puesto que generalmente estaremos interesados en estudiar
simultáneamente más de una variable predictora, este análisis es un punto de partida para
la comprensión del análisis de regresión múltiple.

El modelo de regresión lineal simple para la población establece como hipótesis estructural
básica lo siguiente:

Y = 0 + 1X + 

donde:

Y = Valor de la variable Y
0 = Intercepto en Y, valor de Y cuando X =0
1 = Pendiente de X, variación en la media de Y cuando X aumenta una unidad.
X = Valor de la variable independiente
ε = Error, mediciones de otras variables no consideradas que pueden incidir en Y.

Una lectura de esta fórmula sería: el valor de la variable Y depende linealmente de la


medición de la variable predictora X más una perturbación o error  .

Otra forma de expresar el modelo es:

𝑌 = 𝑌̂ + 𝜀

̂ predicha por el modelo de regresión es:


Es decir, la puntuación 𝑌

𝑌̂ = 0 + 1 𝑋

donde,

𝑌̂ = Y estimada (aleatoria)
0 = Intercepto en Y (constante), valor de Y cuando X =0
1 = Pendiente de X (constante), variación en la media de Y cuando X aumenta una unidad.
𝑋 = Valor de la variable independiente (aleatoria).

De lo anterior se deduce que

𝜀 = 𝑌 − 𝑌̂

Los parámetros de la ecuación de regresión (0 y 1 ) son generalmente desconocidos y


han de ser estimados a partir de los valores observados en una muestra de sujetos. Para

2
que las inferencias a la población -estimación- así como los contrastes de hipótesis acerca
de los parámetros sean adecuados es necesario que las variables implicadas cumplan los
siguientes requisitos:

Requisitos

• Linealidad. El valor esperado (media) en la variable Y para cada uno de los valores X
se encuentra sobre la recta de regresión "verdadera" de Y sobre X, o dicho de otra
manera, la recta de regresión vendrá determinada por los valores medios de Y para
cada valor de X.

• Homocedasticidad. Las varianzas de Y para cada valor de X son todas iguales. Esto
es, la dispersión de la variable Y a todo lo largo de la recta de regresión es constante.
El interés de esta propiedad reside en la ventaja de utilizar un único valor para todo el
recorrido de X a la hora de estimar valores de Y a partir de X, lo que otorga simplicidad
al modelo.

• Independencia. Para cada valor de X, los valores de Y provienen de una muestra al


azar de la población y sus valores son independientes, es decir, la covarianza o la
correlación entre dos valores de Y cualesquiera es cero. Este requisito suele cumplirse
cuando los valores de Y hacen referencia a sujetos distintos -estudios transversales-,
pero no en estudios longitudinales, donde se efectúan diferentes mediciones de los
mismos sujetos a lo largo del tiempo, y que por razones de inercia suelen presentar
autocorrelación.

• Normalidad de las distribuciones. Este supuesto establece que la forma de la


distribución de Y para cada valor de X sigue una ley normal. Se cumple, entonces, la
condición de normalidad, tanto para las mediciones como para los errores (ε).

• El modelo ha de estar correctamente especificado. En regresión lineal múltiple, las


variables X que son parte del análisis las variables independientes han de ser
seleccionadas cuidadosamente, no se debe excluir variables relevantes, además, no se
debe incluir en el modelo variables independientes irrelevantes. Cuando se trata de una
única variable independiente, la precaución ha de cifrarse en esa variable.

Hipótesis para la prueba de significación estadística

H0: Las variables dependiente e independiente no están linealmente relacionadas.


H1: Las variables dependiente e independiente sí están linealmente relacionadas.

Otra forma de expresar estas hipótesis es:

H0: La variación en las unidades de la variable X no está asociada a cambios en los valores
de la variable Y.
H1: La variación en las unidades de la variable X sí está asociada a cambios en los valores
de la variable Y.

3
Procedimiento

En SPSS los pasos para la regresión lineal simple son los siguientes:

Analizar > Regresión > Lineal: Introducir la variable de respuesta (Y) en Dependientes;
Introducir la variable predictora (X) en Independientes > Aceptar.

El procedimiento para la regresión lineal simple se presentará mediante el siguiente


ejemplo.

Ejemplo 1

Se necesita estimar las calificaciones de 10 estudiantes en función del número de horas de


estudio por semana.

Para explicar este caso mediante la técnica de


Regresión Lineal Simple revisemos la tabla y
la figura siguientes, que registran las
calificaciones (variable Y) de 10 estudiantes
que dedicaron una cantidad de horas (variable
X) al estudio de una asignatura:

a. Gráfico de dispersión

4
Primero realizamos el análisis de la nube de puntos mediante el gráfico de
dispersión. Se observa que hay una covarianza o correlación positiva entre las
horas de estudio por semana y la calificación obtenida.

b. Prueba de normalidad de los datos

Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Horas estudio por semana .096 10 .200* .970 10 .892
Calificación .143 10 .200* .921 10 .369
*. Esto es un límite inferior de la significación verdadera.
a. Corrección de significación de Lilliefors

Realizada la prueba de normalidad de Shapiro-Wilk se determinó que los datos de las


variables Horas estudio por semana y Calificación siguen una distribución normal.

c. Coeficiente de correlación

Correlaciones
Horas estudio
por semana Calificación
Horas estudio por semana Correlación de Pearson 1 .982**
Sig. (bilateral) .000
N 10 10
Calificación Correlación de Pearson .982** 1
Sig. (bilateral) .000
N 10 10
**. La correlación es significativa en el nivel 0,01 (bilateral).

El coeficiente de correlación de Pearson (r = 0.982) indica que hay una correlación positiva
muy fuerte entre ambas variables. El p-valor (0.000) ratifica que las variables analizadas
están correlacionadas.

d. Regresión lineal

La regresión lineal consiste en modelar una línea que represente a la ecuación de la recta
que pasa por los puntos o lo más cerca de ellos. Pero, no hay una recta que pase por todos
los puntos, porque en un proceso real éstos no están alineados. Lo que sí podemos hacer
es trazar múltiples líneas que pasen más cerca o más lejos de los puntos.

5
Cada una de estas líneas constituye un modelo que se representa por una ecuación.
Existen muchas rectas posibles que pasan cerca de los puntos, el problema es que
cualquier línea o modelo se acercará más a un punto y estará más lejos de otro.

Sin embargo, sí hay una recta que se puede considerar como la mejor. La regresión lineal
genera un único modelo que minimiza la distancia entre la línea recta y todos los puntos
reales, su símbolo es 𝑌̂, y su ecuación es:

𝑌̂ = 0 + 1 𝑋

Los coeficientes 0 y 1 se obtienen por el método de mínimos cuadrados. El método


de mínimos cuadrados ajusta adecuadamente el comportamiento o la tendencia general
de los datos a través de una recta que minimice la suma de los cuadrados de las distancias
verticales de los puntos a la recta.

6
El método de mínimos cuadrados suma los residuos (errores) de las mediciones elevados
al cuadrado. Los residuos son la distancia que hay entre una medición de X en Y y el valor
de 𝑌 ̂ (valor esperado de y en la línea). Este procedimiento ya lo realiza automáticamente
SPSS.

7
Resumen del modelo
R cuadrado Error estándar
Modelo R R cuadrado ajustado de la estimación
1 .982a .965 .961 .48193
a. Predictores: (Constante), Horas estudio por semana

La primera información que obtenemos del resultado se refiere al coeficiente de correlación


múltiple (R) y a su cuadrado. Puesto que sólo tenemos dos variables, el coeficiente de
correlación múltiple no es otra cosa que el valor absoluto del coeficiente de correlación de
Pearson entre esas dos variables.
Su cuadrado (R cuadrado) es el coeficiente de determinación, también conocido como
bondad de ajuste. Expresa la proporción de varianza de la variable dependiente que está
explicada por la variable independiente.

El coeficiente de correlación de Pearson (r = 0.982) indica que hay una correlación positiva
muy fuerte entre ambas variables, mientras que el coeficiente de determinación (r2= 0.965)
señala que un 96.5% de la varianza de las calificaciones se explica por el número de horas
de estudio por semana.

El Error estándar de la estimación (al que llamaremos Se), representa una medida de la
parte de variabilidad de la variable dependiente que no es explicada por la recta de
regresión. En general, cuanto mejor es el ajuste, más pequeño es este error típico.

ANOVAa
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 51.686 1 51.686 222.537 .000b
Residuo 1.858 8 .232
Total 53.544 9
a. Variable dependiente: Calificación
b. Predictores: (Constante), Horas estudio por semana

La tabla resumen del ANOVA nos informa sobre si existe o no relación significativa entre
las variables. El estadístico F permite contrastar la hipótesis nula de que el valor poblacional
de R es cero, lo cual, en el modelo de regresión simple, equivale a contrastar la hipótesis
de que la pendiente de la recta de regresión vale cero. Esto es, que las variables
dependiente e independiente no están linealmente relacionadas, o que la variación en las
unidades de la variable X no está asociada a cambios en los valores de la variable Y.

El p-valor (0.000) de la tabla de resultados ANOVA indica que, ambas variables sí están
linealmente relacionadas.

8
Coeficientesa
Coeficientes no Coeficientes
estandarizados estandarizados t Sig.
Modelo B Desv. Error Beta
1 Constante ( 𝟎 ) 2.187 .329 6.642 .000

Horas estudio por semana ( 𝟏 ) .792 .053 .982 14.918 .000

a. Variable dependiente: Calificación


Calificaciones

= 0.792

= 2.187

La tabla de resultados Coeficientes muestra los coeficientes de la recta de regresión. La


columna etiquetada Coeficientes no estandarizados contiene los coeficientes de regresión
parcial que definen la ecuación de regresión en puntuaciones directas, es decir, en las
mismas unidades en que se mide la variable Y.

El coeficiente correspondiente a la Constante es el origen de la recta de regresión, lo que


hemos llamado 𝟎 = Intercepto en Y (constante), es decir, valor de Y cuando X =0. En
este ejemplo, el valor de la media de calificaciones cuando el número de horas de estudio
por semana es cero es de 2.187.

El siguiente coeficiente (Horas de estudio por semana) es la pendiente de la recta de


regresión 𝟏 , indica el cambio medio que corresponde a la variable dependiente
(Calificaciones) por cada unidad de cambio de la variable independiente (Horas de estudio
por semana). En este ejemplo, el valor de 𝛽 = 0.729. Este coeficiente multiplica al valor de
X.

9
Según esto, la ecuación de regresión queda de la siguiente manera:

̂
𝒀 = 𝜶 + 𝜷 𝑿

Pronóstico de calificación = 2.187 + 0.792 * Horas de estudio por semana

Esto significa que, a partir de una calificación de 2.187, se pronostica un incremento de


0.729 en la media de calificaciones cada vez que los estudiantes aumentan una hora de
estudio por semana.

Si un estudiante se dedica 7 horas por semana al estudio, se estimará que su calificación


sea:

𝑌̂ = 2.187 + (0.792 ∗ 7)
𝑌̂ = 7.73

Finalmente, los estadísticos t y sus niveles críticos (Sig.) nos permiten contrastar las
hipótesis nulas de que los coeficientes de regresión valen cero en la población. A partir de
los resultados de la Coeficientes podemos llegar a las siguientes conclusiones:

Dado que el p-valor de β0 = 0.000: El origen poblacional de la recta de regresión (β0) es


significativamente distinto de cero (generalmente, contrastar la hipótesis “β0 = 0" carece de
utilidad, pues no contiene información sobre la relación entre X e Y).

Dado que el p-valor de β1 = 0.000: La pendiente poblacional de la recta de regresión (el


coeficiente de regresión β1 correspondiente a Horas de estudio por semana) es
significativamente distinta de cero, lo cual nos permite concluir que entre Calificaciones y
Horas de estudio por semana existe relación lineal significativa.

10

También podría gustarte