Unidad II - Analisis de Datos
Unidad II - Analisis de Datos
MATERIAL INSTRUCCIONAL
DE
ESTADÍSTICA APLICADA
A LA EDUCACIÓN
UNIDAD II
ANÁLISIS DE DATOS
Elaborado por
Ing. Julia Elena Sanoja de Ramírez
UNIDAD II
ANÁLISIS DE DATOS
OBJETIVO GENERAL
Caracterizar el comportamiento de los datos
OBJETIVOS ESPECIFICOS
CONTENIDO PROGRAMATICO
TEMA 1:
TEMA 2:
TEMA 1
Son aquellas mediciones hacia las que tienden a agruparse los datos. Provee
información con referente la distribución central de las puntuaciones de una
prueba. Las medidas de tendencia central son Estadísticos que procuran aportar
información sobre la localización central de la distribución de datos.
Las medidas de tendencia central que le dedicaremos nuestra atención: media
aritmética, mediana y moda y se emplean de acuerdo al objetivo del estudio y al
tipo de dato que se tenga.
Propósito:
• Para mostrar donde la puntuación del elemento típico o central se ubica
dentro del grupo
• Para servir como un método para comparar o interpretar cualquier
puntuación en relación a una puntuación típica o central
Media Aritmética
Es única
Utiliza todos los valores de la distribución
Sólo se puede calcular con variables cuantitativas
No se puede calcular con distribuciones agrupadas que tengan intervalos de
clase infinitos
Es el centro de gravedad de la distribución en un sentido aditivo
Minimiza el error cuadrático medio
No es robusta
No es invariante por cambios de origen y escala
Es descomponible
¿Cómo se calcula?
Fórmula
n
n
nc
Para los datos agrupados, lo que se calcula es una estimación del valor de la
media ya que al agrupar por clases no conocemos los valores individuales de cada
observación, sólo que para facilitar los cálculos se ha de renunciar a la exactitud.
La mediana es el valor que divide una serie de datos ordenada en dos mitades,
con una mitad de las observaciones mayores que ésta y la otra mitad menores a la
mediana.
Valor por encima y por debajo del cual se encuentran el 50% de los casos. Es
especialmente útil cuando los datos están sesgados.
Propiedades de la mediana
Es única
No utiliza todos los elementos
Siempre es un valor observable de la variable
Es más robusta que la media aritmética
Minimiza el error absoluto medio
No es invariante por cambios de origen y escala
No es descomponible
¿Cómo se calcula?
Fórmula
Dato que divide en dos
Mediana para datos no agrupados partes iguales a un
conjunto ordenado de
valores
50 * n
Faa
Mediana para datos agrupados Md LI 100 * A
fi
Siendo:
LI = límite inferior de la clase mediana
n = tamaño de la muestra
Faa = Frecuencia absoluta acumulada de la clase inmediata inferior a la clase
mediana
fi = frecuencia absoluta de la clase mediana
Moda
Propiedades de la moda
¿Cómo se calcula?
Fórmula
Moda para datos no agrupados Dato que presenta
mayor frecuencia
Moda para datos agrupados d1
Mo LI * A
1
d d 2
Siendo:
LI= límite inferior de la clase modal
d1 = diferencia absoluta de las frecuencias absolutas de la clase modal y la de la
clase inmediata inferior a la clase modal
d 2 = diferencia absoluta de las frecuencias absolutas de la clase modal y la de la
clase inmediata superior a la clase modal
Cuantiles
Son únicos
Estadística aplicada a la Educación 2015 UPEL- Maracay 6
Ing.. Julia Elena Sanoja de Ramírez Dpto. de Matemática
No utilizan en su cálculo todos los elementos
Se pueden calcular con datos ordinales
Siempre es un valor observable de la variable
Su robustez depende del valor de p: cuanto más cercano a 0 o a 1, menos
robusto es; cuanto más cercano a 0.5, más robusto es
Se utilizan para situar a la distribución y para dar una idea de su dispersión
No son invariantes por cambios de origen y escala
No son descomponibles
Deciles(D)
Son aquellos valores que dividen en diez partes iguales a un conjunto de datos
ordenados. Se representan por D1 , D2 , D3 , ....D9. De esta manera tenemos que:
D1 (primer decil) es el valor por debajo del cual se encuentran como máximo el
10% de las observaciones, mientras que el 90% restante se sitúan por encima
de él.
D2 (segundo decil) es el valor por debajo del cual se encuentran como máximo
el 20% de las observaciones, mientras que el 80% restante se sitúan por
encima de él.
Y así sucesivamente, hasta llegar al
D9 (noveno decil) es el valor por debajo del cual se encuentran como máximo el
90% de las observaciones, mientras que el 10% restante se sitúan por encima
de él.
Quintiles(K)
Cuartiles(Q)
Percentiles(P)
¿Cómo se calculan?
p*n
Faa
Pp LI 100 * A
fi
Siendo:
Pp = Percentil p-èsimo
LI = límite inferior de la clase percentílica
n = tamaño de la muestra
Faa = Frecuencia absoluta acumulada de la clase inmediata inferior a la clase
percentílica
fi = frecuencia absoluta de la clase percentílica
Q1 Q2 Q3
K1 K2 K3 K4
D1 D2 D3 D4 D5 D6 D7 D8 D9
P10 P20 P25 P30 P40 P50 P60 P70 P75 P80 P90
Md Mo
fi
dato
Gráfico 2. Distribución simétrica
fi
fi
dato dato
Gráfico 3. Distribución Asimétrica
Positiva Gráfico 4. Distrbución Asimétrica
Negativa
Md Mo
Md Mo
Ejemplo
Un profesor aplica una prueba de 100 puntos a un grupo de 52 estudiantes. Las
puntuaciones son las siguientes:
85 96 45 75 55 70 80 93 35 53 59 71 87
63 43 78 84 38 62 70 79 77 65 71 95 84
44 33 42 85 70 62 54 74 63 65 71 89 78
38 94 99 63 32 87 74 71 68 79 98 83 46
Se necesita conocer:
Para los datos no agrupados media, mediana, moda.
Estadística aplicada a la Educación 2015 UPEL- Maracay 10
Ing.. Julia Elena Sanoja de Ramírez Dpto. de Matemática
Para los datos no agrupados media, mediana, moda, P67, Q1, K3.
SOLUCIÓN:
Para los datos no agrupados media, mediana, moda.
32 33 35 38 38 42 43 44 45 46 53 54 55 59 62 62 63 63
63 65 65 68 69 70 70 70 71 71 71 71 74 74 75 78 78 79
79 80 83 84 84 85 85 87 87 89 93 94 95 96 98 99
Moda
Mo=71
La mediana por ser valor por encima y por debajo del cual se encuentran el
50% de los casos, en nuestro ejemplo tenemos que la mediana se encuentra
entre las posiciones 26 y 27, esto es, la mediana se encuentre entre entre los
valores 70 y 71 (valores sombreados), y para la obtención del valor que
representa la mediana se debe:
70 71
Md 70,5
2
La media:
Para los datos no agrupados media, mediana, moda, P67, Q1, K3.
Cálculo de la moda: una vez ubicada la clase modal, según lo que expresa el
concepto de moda, que para este ejemplo es la tercera clase, se procede a
aplicar la fórmula:
50 * n 50 * 52
Faa 14
Md LI 100 * A 60 100 *14 60 26 14 *14
fi 16 16
12
Md 60 *14 60 10,50 70,50
16
Cálculo de P67.
En una tabla de frecuencia el percentil 67 se ubica en aquella clase que contenga
una frecuencia relativa acumulada (Frela) superior o igual a 67%, por lo que la
clase percentílica, para este ejemplo es la cuarta clase, aplicando la fórmula:
67 * 52
30
P67 74 100 *14 74 34,84 30 *14 74 4,84 *14 74 4,52 78,51
15 15 15
Cálculo de Q1.
En primer lugar y haciendo referencia a la relación entre cuantiles (gráfico 1),
tenemos que : Q1=P25, por lo tanto procederemos a calcular el percentil 25, el
cual está ubicado en aquella clase que contenga una frecuencia relativa
acumulada (Frela) superior o igual a 25%, por lo que la clase percentílica, para
este ejemplo es la segunda clase, aplicando la fórmula:
25 * 52
9
Q1 P25 46 100 *14 46 13 9 *14 46 4 *14 46 11,2 57,2
5 5 5
60 * 52
30
K 3 P60 74 100 *14 74 31,2 30 *14 74 1,2 *14 74 1,12 75,12
15 15 15
El nombre original del gráfico introducido por Jhon Tukey en 1977 es Box and
whiskers plot, es decir, diagrama de caja y bigote. En efecto, el gráfico consiste
en un rectángulo (caja) de cuyos lados superior e inferior se derivan
respectivamente, dos segmentos: uno hacia arriba y uno hacia abajo (bigotes).
El gráfico de caja y bigote es un instrumento excelente para comunicar la
posición y la información de variación en un conjunto de datos, en particular para
detectar e ilustrar posición y cambios de variación entre grupos diferentes de
datos. Permite ver de forma clara sus principales características, como son la
tendencia central, dispersión, asimetría. Además, permite identificar con claridad
y de forma individual, observaciones que se alejan de manera poco usual del
resto de los datos. A estas observaciones se les conoce como valores atípicos.
Es un gráfico representativo de las distribuciones de un conjunto de datos.
Para su construcción se utilizan cinco estadísticos de la distribución de
frecuencias: el valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el
valor máximo; también se indica la posición de la media.
Por su facilidad de construcción e interpretación, permite también comparar a
la vez varios grupos de datos sin perder información ni saturarse de ella. Esto ha
sido particularmente importante a la hora de escoger esta representación para
mostrar la opinión de los estudiantes respecto a la actuación docente a través de
las diversas preguntas del instrumento utilizado.
7 4 3 2 1
5 6
* *
Se construyen así:
Simetría: Indica la forma del conjunto de datos, lo cual implica observar dónde se
concentra la información. Para el estudio de la forma de una distribución, también
se usan los términos sesgo o asimetría. Una distribución puede ser:
EJEMPLOS
85 96 45 75 55 70 80 93 35 53 59 71 87
63 43 78 84 38 62 70 79 77 65 71 95 84
44 33 42 85 70 62 54 74 63 65 71 89 78
38 94 99 63 32 87 74 71 68 79 98 83 46
SOLUCIÓN 1:
La distribución de frecuencia de los datos
Siendo
Vmín 32
Vmáx 99
25 * 52
9
Q1 P25 46 100 *14 46 13 9 *14 46 4 *14 46 11,2 57,2
5 5 5
50 * 52
14
Q2 60 100 *14 60 26 14 *14 60 12 *14 60 13,71 73,71
16 16 16
75 * 52
30
Q3 P75 74 100 *14 74 39 30 *14 74 9 *14 74 8,4 82,4
15 15 15
RI 82,4 57,2 25,2
LII 57,2 1,5 * 25,2 19,4
LIS 82,4 1,5 * 25,2 120,2
LEI 57,2 3 * 25,2 18,4
LES 82,4 3 * 25,2 158
32 33 35 38 38 42 .......... .......... ....... 93 94 95 96 98 99 3577
X 68.79
52 52
Como Vmín LII, el bigote va desde Q1 hastaVmín
Como Vmáx LIS, el bigote va desde Q3 hastaVmáx
resultando el gráfico:
Vmín=32
Vmáx=99
1 4 35 43 45 54 55 57 59 63 67 71 83
1 5 39 43 45 55 55 57 62 65 67 71 98
2 33 42 44 46 55 56 58 62 65 68 71 99
3 33 42 44 53 55 57 58 63 66 69 75 100
SOLUCIÓN 2:
Para la construcción del gráfico de caja, necesitamos conocer los valores de: Q1,
Md, Q3, RI, LII, LIS, LEI, LES, procedamos a su cálculo:
Siendo
Vmín 1
Vmáx 100
Q1 43
Q2 55,5
Q3 65
RI 65 43 22
LII 43 1,5 * 22 10
LIS 65 1,5 * 22 98
LEI 43 3 * 22 23
LES 65 3 * 22 131
2719
X 52,29
52
Como Vmín LII, el bigote va desde Q1 hasta 33, por ser 33 el valor inmediato mayor o igual que LII
Como Vmáx LIS, el bigote va desde Q3 hasta 98, por ser el valor inmediato menor o igual a LIS
resultando el gráfico
Valor Atípico
Valores Atípicos Q1 43 X 52,29 Q3 65
Interpretación:
1) Se puede apreciar que la mediana no se encuentra en el centro de la caja sino
más bien hacia el tercer cuartil, lo cual indica asimetría negativa.
2) Se presentan valores atípicos tanto por la izquierda como por la derecha, en
este caso los valores atípicos de la izquierda, son valores a considerar de gran
importancia para revisar el proceso de enseñanza-aprendizaje.
MEDIDAS DE DISPERSIÓN
Proveedor A Proveedor B
�Dispersión
Gráficamente:
¿Cómo se calcula?
¿Cómo se calcula?
Fórmula
Q3 Q1
RSI
2
Varianza
Notación:
2 cuando sea para una población
S 2 cuando sea para una muestra
propiedades de la varianza
¿Cómo se calcula?
Fórmula
2
N
f i * xi
f i * x 2i
N
Poblacional
i 1
N
Varianza para datos
2 i 1
N
no agrupados 2
n
xi
x 2i
n
Muestral
i 1
n
S 2 i 1
n 1
2
nc
f i * xi
f i * x 2i
nc
Poblacional
i 1
N
Varianza para datos
2 i 1
N
agrupados 2
nc
f i * xi
f i * x 2i
nc
Muestral
i 1
i 1
n
S
2
n 1
Desviación típica o estándar
La desviación típica permite medir la intensidad con que los datos se desvías o
distancian respecto a la mediaSe define como la raíz cuadrada positiva de la
varianza.
¿Cómo se calcula?
Fórmula
Poblacional 2
Muestral S S2
EJEMPLO 1
85 96 45 75 55 70 80 93 35 53 59 71 87
63 43 78 84 38 62 70 79 77 65 71 95 84
44 33 42 85 70 62 54 74 63 65 71 89 78
38 94 99 63 32 87 74 71 68 79 98 83 46
Rango intercuartíl:
32 33 35 38 38 42 43 44 45 46 53 54 55 59 62 62 63 63
63 65 65 68 69 70 70 70 71 71 71 71 74 74 75 78 78 79
79 80 83 84 84 85 85 87 87 89 93 94 95 96 98 99
siendo:
Q1 55
Q3 83
RI 83 55 28
Rango semiintercuaríl:
83 55 28
RSI 14
2 2
Varianza:
Desviación estándar:
S 335021 18,31
25 * 52
9
Q1 46
100 *14 46 13 9 *14 46 4 *14 46 11,2 57,2
5 5 5
75 * 52
30
Q3 74
100 *14 74 39 30 *14 74 9 *14 74 8,4 82,4
15 15 15
Rango semiintercuaríl:
Varianza
Clases
fi f i * xc fi * xc2
LI Xc LS
32 39 46 9 9 * 39 351 9 * 392 13689
46 53 60 5 5 * 53 265 5 * 532 14045
60 67 74 16 16 * 67 1072 16 * 672 71824
74 81 88 15 15 * 81 1215 15 * 812 98415
88 95 102 7 7 * 95 665 7 * 952 63175
3568 261148
Estadística aplicada a la Educación 2015 UPEL- Maracay 27
Ing.. Julia Elena Sanoja de Ramírez Dpto. de Matemática
261148
35682
52 261148 244819,69 16328,31
S1 320,16
52 1 51 51
Desviación Estándar
S 320,16 17,89
Coeficiente de variación
Fórmula
Poblacional CV * 100
S
Muestral CV * 100
X
EJEMPLO 2
85 96 45 75 55 70 80 93 35 53 59 71 87
63 43 78 84 38 62 70 79 77 65 71 95 84
44 33 42 85 70 62 54 74 63 65 71 89 78
38 94 99 63 32 87 74 71 68 79 98 83 46
¿Cómo es la dispersión respecto a la media?
SOLUCIÓN 2:
3577
X 68.79
52
Varianza:
262877
3575
2
Desviación estándar:
S 335021 18,31
Coeficiente de variación:
EJEMPLO 3
La media:
287
XA 14,35
20
Varianza:
4285
287
2
Desviación estándar:
S A 8,77 2,96
Coeficiente de variación:
La media:
240
XB 12
20
Varianza:
3206
240
2
Desviación estándar:
S B 17,16 4,14
Coeficiente de variación:
4,14
CVB * 100 34,50%
12
Interpretación: