CORRELACIÓN Y REGRESIÓN
EMPLEANDO EXCEL
1) ANÁLISIS DE CORRELACIÓN
Dado dos variables, la correlación permite hacer estimaciones
del valor de una de ellas conociendo el valor de la otra variable.
1.1) DIAGRAMA DE DISPERSIÓN
Los diagramas de dispersión son planos cartesianos en los que se
marcan los puntos correspondientes a los pares ordenados (X,Y)
de los valores de las variables.
1.2) CLASIFICACIÓN DE LA CORRELACIÓN
1.2.1) Según la relación entre variables
- Correlación lineal: Se representa mediante una línea recta.
- Correlación no lineal: Se representa con una línea curva.
1.2.2) Según el número de variables
- Correlación simple: La variable dependiente actúa sobre la variable independiente.
- Correlación múltiple: Cuando la variable dependiente actúa sobre varias variables independientes.
- Correlación parcial: Cuando la relación que existe entre una variable dependiente y una independiente
es de tal forma que los demás factores permanezcan constantes.
1.2.3) Según el valor cuantitativo
- Correlación perfecta: El valor del coeficiente de correlación es 1
- Correlación imperfecta: El coeficiente de correlación es menor a 1 sea en sentido positivo o
negativo.
- Correlación nula: El coeficiente de correlación es 0. No existe correlación entre las variables.
Ejemplo: Número de calzado de una persona y su cociente intelectual.
1.2) CLASIFICACIÓN DE LA CORRELACIÓN
1.2.4) Según el signo
- Correlación positiva.- Dos variables tiene correlación positiva
cuando al aumentar o disminuir el valor de una de ellas entonces el
valor correspondiente a la otra aumentará o disminuirá
respectivamente, es decir, cuando las dos variables aumentan en el
mismo sentido. Ejemplo: Peso de una persona y su talla.
- Correlación negativa.- Dos variables tiene correlación negativa
cuando al aumentar o disminuir el valor de una de ellas entonces el
valor de la otra disminuirá o aumentará respectivamente, es decir, una
variable aumenta y otra disminuye o viceversa. Ejemplo: Número de
partidos ganados por un equipo en una temporada y su posición final
en la tabla.
1.3) COEFICIENTES DE CORRELACIÓN
Los coeficientes de correlación son medidas que indican la situación
relativa de los mismos sucesos respecto a las dos variables, es decir,
son la expresión numérica que nos indica el grado de relación existente
entre las 2 variables y en qué medida se relacionan. Son números que
varían entre los límites +1 y -1. Su magnitud indica el grado de
asociación entre las variables; el valor r = 0 indica que no existe
relación entre las variables; los valores + - 1 son indicadores de una
correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y)
o negativa (Al crecer o decrecer X, decrece o crece Y).
Para interpretar el coeficiente de correlación utilizamos la
siguiente escala:
Valor Significado
-1 Correlación negativa grande y perfecta
-0,9 a -0,99 Correlación negativa muy alta
-0,7 a -0,89 Correlación negativa alta
-0,4 a -0,69 Correlación negativa moderada
-0,2 a -0,39 Correlación negativa baja
-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a 0,99 Correlación positiva muy alta
1 Correlación positiva grande y perfecta
1.3.1) COEFICIENTE DE CORRELACIÓN DE KARL PEARSON
Llamando también coeficiente de correlación producto-momento.
Se calcula aplicando la siguiente ecuación:
r = Coeficiente producto-momento de correlación lineal
Ejemplo
• Con los datos de las calificaciones de los exámenes de matemáticas de dos
paralelos de estudiantes de un colegio, determinar el tipo de correlación que
existe entre ellas mediante el coeficiente de PEARSON.
X 18 17 15 16 14 12 9 15 16 14 16 18 ΣX =180
Y 13 15 14 13 9 10 8 13 12 13 10 8 ΣY= 138
Solución:
Se calcula la media aritmética
Para X:
Para Y:
Se llena la siguiente tabla:
Se aplica la fórmula:
Existe una correlación moderada
• COEFICIENTE DE CORRELACION
Diagrama de Dispersión
17; 15
15; 14
14; 13 15; 13 16; 13 18; 13
16; 12
12; 10 16; 10
14; 9
9; 8 18; 8
0 5 10 15 20
2) ANÁLISIS DE REGRESIÓN
La regresión examina la relación entre dos variables, pero restringiendo una de ellas con el objeto
de estudiar las variaciones de una variable cuando la otra permanece constante. En otras
palabras, la regresión es un método que se emplea para predecir el valor de una variable en
función de valores dados a la otra variable. En estadística la palabra predecir no se utiliza en el
sentido empleado por los astrólogos, futurólogos y mentalistas, sino mas bien en un sentido
lógico como es el de utilizar el conocimiento del comportamiento de una variable para obtener
información sobre otra variable. Por ejemplo, puede predecirse el resultado que obtendrá un
estudiante en su examen final, basados en el conocimiento de las calificaciones promedio de sus
exámenes parciales, o predecir la preferencia de los estudiantes por profesiones científicas,
conociendo los promedios de sus calificaciones en los estudios escolares.
En todos los casos de regresión existe una dependencia funcional entre las variables. En el caso
de dos variables, siendo una de ellas (X) variable independiente y la otra (Y) la dependiente, se
habla de regresión de Y sobre X; Por ejemplo, los ingenieros forestales utilizan la regresión de la
altura de los árboles sobre su diámetro, lo cual significa que midiendo el diámetro (variable
independiente) y remplazando su valor en una relación definida según la clase de árbol se
obtiene la altura, y aun sin necesidad de cálculos aprecian la altura utilizando gráficas de la
función de dependencia, altura = función del diámetro.
2.1) PRINCIPIO DE LOS MÍNIMOS CUADRADOS
2.1.1) LA RECTA DE LOS MÍNIMOS CUADRADOS
Se llama línea de mejor ajuste y se define como
la línea que hace mínima la suma de los
cuadrados de las desviaciones respecto a ella de
todos los puntos que corresponden a la
información recogida.
Se usa la Variable independiente (X) para
estimar la Variable dependiente (Y)
La relación entre las variables es lineal.
Ambas variables deben ser por lo menos escala
del intervalo.
El criterio de mínimos cuadrados se utiliza para
determinar la ecuación. Este es el término (Y –
Y')2
La ecuación de regresión es: Y' = a + bX, donde:
• Y' es el valor pronosticado de la variable Y
para un valor seleccionado de X.
• a es la ordenada de la intersección con el eje Y
cuando X = 0. Es el valor estimado de Y
cuando X=0
• b es la pendiente de la recta, o el cambio
promedio en Y' para cada cambio de una
unidad en X.
• el principio de mínimos cuadrados se utiliza
para obtener a y b.
• El principio de mínimos cuadrados se utiliza para obtener a y b. Las
ecuaciones para determinar a y b son:
n( XY ) − ( X )( Y )
b=
n( X ) − ( X )
2 2
Y X
a= −b
n n
Ejemplo 1
• Juan Escobedo, presidente de la sociedad de alumnos de la
Universidad de Toledo, se ocupa de estudiar el costo de los
libros de texto. Él cree que hay una relación entre el número
de páginas en el texto y el precio de venta del libro. Para
proporcionar una prueba, selecciona una muestra de ocho
libros de texto actualmente en venta en la librería. Dibuje un
diagrama de dispersión. Compruebe el coeficiente de
correlación.
Ejemplo 1 (Continuación)
Libro Páginas Precio ($)
• Intr. a la Historia 500 84
• Álgebra 700 75
• Intr.a la Psicología 800 99
• Intr. a la Sociología 600 72
• Mercadotecnia 400 69
• Intr. a la Biología 500 81
• Fund. de Jazz 600 63
• Intr.a la Enfermería 800 93
Libro Páginas Precio ($)
X Y XY X2 Y2
Intr. a la Historia 500 84 42,000 250,000 7,056
Álgebra 700 75 52,500 490,000 5,625
Intr. a la Psicología 800 99 79,200 640,000 9,801
Intr. a la Sociología 600 72 43,200 360,000 5,184
Mercadotecnia 400 69 27,600 160,000 4,761
Intr. a la Biología 500 81 40,500 250,000 6,561
Fund. de Jazz 600 63 37,800 360,000 3,969
Intr. a la Enfermería 800 93 74,400 640,000 8,649
Total 4,900 636 397,200 3,150,000 51,606
• Desarrolle una ecuación de regresión para la información
dada que se puede utilizar para estimar el precio de venta
basado en el número de páginas.
8(397,200) − (4,900)(636)
b= = .05143
8(3,150,000) − (4,900) 2
636 4,900
a= − 0.05143 = 48.0
8 8
La ecuación de regresión es:
Y' = 48.0 + .05143X
• La ecuación cruza al eje Y en $48. Un libro sin las páginas
costaría $48.
• La pendiente de la línea es .05143. El costo de cada página
adicional es de cinco céntimos.
• El signo del valor de b y el signo del valor de r serán siempre
iguales.
Ejemplo 2 (Continuación)
Podemos utilizar la ecuación de regresión para
estimar valores de Y.
• El precio de venta estimado de un libro de
800 páginas es $89.14, encontrado por
Y = 48.0 + 0.05143 X
= 48.0 + 0.05143 (800 ) = 89.14
Título del gráfico
120
100
y = 0.0514x + 48
R² = 0.3768
80
Título del eje
60
Series1
40 Lineal (Series1)
20
0
0 200 400 600 800 1000
Título del eje
R = 0,61384037