Unidad 3
Análisis de datos
Ingeniería en Administración
Unidad 3: Estadística descriptiva para datos
bivariados y multivariados
Resultado de aprendizaje:
Analizar datos bivariados determinando medidas de resumen, organizando la información
en tablas de frecuencia o gráficos, y verifica si el conjunto de datos está correlacionado y si
es posible representarlos a través de una regresión lineal.
Introducción
El análisis bidimensional está destinado al comportamiento de dos variables, y evaluar si están o
no relacionadas.
La herramienta estadística utilizada para realizar este análisis se denomina distribución
bidimensional de frecuencias.
En este caso la unidad estadística proporciona la información mediante pares ordenados de
valores: (Xi, Yj).
Ejemplo: Considere la distribución de las ventas (Yj) y los gastos en promoción (Xi), que realiza una
empresa comercial. En este caso se registran las ventas y gastos de promoción de todas y cada una
de las “n” empresas consideradas.
Estadística Bivariada
Supongamos que se toma una muestra de tamaño n de una población y que se desea
estudiar, dos características de un mismo objeto.
Sean estas características X e Y, siguiendo los procedimientos habituales, la muestra se
divide en:
r clases Ai para la variable X.
s clases Bj para la variable Y.
Existirán elementos que pertenecerán simultáneamente a AiBj.
Los datos los podemos ordenar en una tabla o matriz llamada Tabla de Contingencia.
Tabla de Contingencia
Frecuencias Marginales
Dado el experimento anterior, cuando sólo interesa conocer la frecuencia de ocurrencia
de cada una de las variables por separado se habla de Frecuencia Marginal de la variable
X o Y.
Diagrama de Dispersión
Al igual que ocurre en el caso unidimensional, también es posible hacer gráficos
de distribuciones de frecuencias bidimensionales.
Hay un gráfico bidimensional especialmente útil; éste es el diagrama de dispersión
que es simplemente un dibujo cartesiano de la muestra observada.
Como ilustración, la figura proporciona el diagrama de dispersión de los datos de
la muestra de 33 estudiantes donde se han medido su altura X y su peso Y.
A la vista del diagrama de dispersión de la figura parece constatarse que el peso
aumenta con la altura.
Covarianza
En las siguientes figuras se muestran cuatro diagramas de dispersión. En algunos se
aprecia que los puntos están más alineados que en otros, es decir, en algunos de ellos
hay mayor grado de asociación lineal.
En el gráfico a) se aprecia alto grado de asociación lineal, mientras que en b) hay mayor
dispersión y muy poco grado de asociación lineal. En el c) hay mucha dispersión y nulo
grado de asociación lineal, mientras que en d) los puntos casi están alineados.
La medida de asociación lineal más simple entre dos variables es la covarianza. Viene
definida por:
Y si se opera, se obtiene la expresión más simplificada:
Ejemplo de covarianza para datos no agrupados
Covarianza para datos no agrupados:
Calcula e interpreta la covarianza entre estas variables:
Covarianza (datos no agrupados)
Existe una relación directa entre las variables superficie del terreno y costo del terreno.
Ejemplo de covarianza para datos agrupados
Covarianza para datos agrupados:
Distribución Bidimensional de las ventas y los gastos de promoción (en millones de
pesos)
Obsérvese que en las filas se registran los valores de los gastos de promoción: 28, 30 y
32 (Xi i:1, 2, 3) y en las columnas los valores de las ventas: 70, 75, …,90 (Yj j:1, 2, …, 5).
Existe una relación directa entre las variables ventas y gastos promocionales.
Coeficiente de Correlación
El inconveniente de la covarianza como medida de la asociación lineal entre dos
variables es que depende de las unidades de X e Y, por ello se define el coeficiente de
correlación entre dos variables rxy, por:
Como el cociente entre la covarianza de X e Y y el producto de las desviaciones estándar.
Cuantifica la fuerza de la relación lineal entre dos variables cuantitativas, es decir, nos
indica si los puntos tienen una tendencia a disponerse linealmente.
Propiedades del coeficiente de correlación
Este número no tiene dimensiones y su valor está entre: -1 ≤ rxy ≤ 1
Los valores extremos 1 y -1 solamente se alcanzan si todos los datos se sitúan
exactamente sobre una recta.
Si la relación lineal es muy pequeña, el valor de r_xy es próximo a cero.
Correlación negativa perfecta - 1.00
Correlación negativa muy fuerte - 0.90
Correlación negativa considerable - 0.75
Correlación negativa media - 0.50
Correlación negativa débil - 0.10
No existe correlación lineal alguna entre las variables 0.00
Correlación positiva débil 0.10
Correlación positiva media 0.50
Correlación positiva considerable 0.75
Correlación positiva muy fuerte 0.90
Correlación positiva perfecta 1,00
Ejemplo:
Calcula e coeficiente de correlación entre estas variables.
El valor de rxy es próximo a uno, luego existe una correlación positiva muy fuerte, entre
el costo del terreno y la superficie del terreno.
Recta de regresión
Los modelos de regresión provienen de los trabajos de Galton en biología a finales del
siglo XIX, quien estudió la dependencia de la estatura de los hijos (y) respecto a la de sus
padres (x), encontrando lo que denominó “regresión” a la media.
Los padres bajos tienen hijos bajos, pero en promedio más altos que sus padres, y los
padres altos tienen hijos altos, pero en promedio más bajos que sus padres.
La recta de regresión corresponde a la recta que mejor se
aproxima a los puntos del diagrama de dispersión para la altura X y el peso Y.
Los coeficientes del modelo lineal de regresión se obtienen por el método de estimación
de mínimos cuadrados, el cual consiste en hallar a y b de tal manera que se minimice la
cantidad Σ di2, con dicho método se obtiene que:
La recta de regresión de Y sobre X se utiliza para estimar los valores de la Y a
partir de los de la X.
La pendiente de la recta es el cociente entre la covarianza y la varianza de la
variable X.
La recta de regresión de X sobre Y se utiliza para estimar los valores de la X a
partir de los de la Y.
La pendiente de la recta es el cociente entre la covarianza y la varianza de la
variable Y.