Unidad II
Análisis de Datos
Administración Pública
Instituto Profesional AIEP
Análisis de Datos
Luego de recolectar, organizar y presentar los datos, es
momento de analizarlos. No es posible establecer
conclusiones ni responder a las preguntas de investigación
sin realizar el análisis estadístico.
Análisis de datos
cualitativos
Distinguiremos dos casos dependiendo del tipo de
variable cualitativa:
Nominal: se define la moda de una variable cualitativa
nominal como el dato que tiene la mayor frecuencia
absoluta.
Ordinal: si se quiere hacer un análisis más profundo de
los datos, se asigna un valor numérico a cada categoría.
De esta forma, es posible realizar el mismo análisis que
con las variables cuantitativas. Es importante notar que
no siempre tiene sentido estudiar una variable ordinal
como cuantitativa.
Análisis de datos cuantitativos
• Moda • Percentiles • Rango
Medidas de Posición
Medidas de Centralización
Medidas de Dispersión
• Mediana • Deciles • Varianza
• Media aritmética • Quintiles • Desviación
• Cuartiles estándar
• Mediana • Coeficiente de
Variabilidad
Análisis de datos
cuantitativos
Definimos el intervalo de los datos como:
[Min, Max]
Tanto las medidas de centralización como las de posición
pertenecen al intervalo de los datos.
Si al calcular una medida de centralización o posición esta
se encuentra fuera del intervalo, entonces se cometió un
error al determinarla.
Medidas de
centralización
Son valores que se ubican en el centro de la distribución,
por lo que son representantes del conjunto de datos.
Corresponden a:
Moda
Mediana
Media aritmética
Centralización de
datos a granel
Si los datos están a granel, es decir de uno en uno, las
medidas se calculan como sigue:
Moda: Es el dato con la mayor frecuencia absoluta.
Mediana: Se ordenan los datos de menor a mayor, luego
se determina aquel que tiene la posición central. Si en el
centro hay dos datos, se obtiene el promedio de ambos.
Media aritmética: Corresponde al cociente entre la suma
de los datos y la cantidad de datos.
Ejemplo:
Se ha registrado la cantidad de vehículos que hay
en un estacionamiento al mediodía, durante 16
días. Los datos son:
Centralización
de datos a
5 7 8 9 1 2 1 1
granel
10 6 12 1 0 1 12 3
vehículo
vehículos
vehículos
Centralización de
datos en tablas
Si los datos están en una tabla de frecuencias, las medidas
se calculan como sigue:
Moda: Es el dato con la mayor frecuencia absoluta.
Mediana: Es el primer dato cuya frecuencia porcentual
acumulada sobrepasa el 50%.
Media aritmética: Corresponde al cociente entre la suma
del producto de cada dato y su frecuencia, con la cantidad
de datos.
Centralización de datos en tablas
Ejemplo: En una encuesta telefónica se pregunta por la cantidad de tarjetas de
crédito bancarias o de retail. Los resultados se encuentran en la tabla.
tarjetas tarjetas
N° Tarjetas f F fr p% P%
1 7 7 0.056 5.6 5.6 7
2 19 26 0.152 15.2 20.8 38
3 25 51 0.2 20 40.8 75
4 12 63 0.096 9.6 50.4 48
5 23 86 0.184 18.4 68.8 115
6 15 101 0.12 12 80.8 90
7 8 109 0.064 6.4 87.2 56
8 16 125 0.128 12.8 100 128
125 1 100 557
Centralización de datos agrupados
Si los datos están agrupados en intervalos, las medidas de centralización se calculan
mediante fórmulas.
Ejemplo: La tabla muestra lo que demoran en llegar a la empresa un grupo de
trabajadores (en minutos).
Minutos Mc f F fr p% P%
[0, 10) 5 3 3 0.066 6.6 6.6
[10, 20) 15 8 11 0.177 17.7 24.3
[20, 30) 25 13 24 0.288 28.8 53.1
[30, 40) 35 14 38 0.311 31.1 84.2
[40, 50) 45 5 43 0.111 11.1 95.3
[50, 60) 55 2 45 0.044 4.4 99.7
45 0.997 99.7
Primero se identifica el intervalo en el que
se encuentra la moda (intervalo modal), y
respecto a este se utiliza la fórmula:
Moda de
datos : Límite inferior del intervalo modal
agrupados : Diferencia de frecuencias entre el intervalo
modal y el anterior
: Diferencia de frecuencias entre el intervalo
modal y el siguiente
: Amplitud del intervalo
Moda de datos agrupados
Minutos Mc f F fr p% P%
[0, 10) 5 3 3 0.066 6.6 6.6
[10, 20) 15 8 11 0.177 17.7 24.3
[20, 30) 25 13 24 0.288 28.8 53.1
[30, 40) 35 14 38 0.311 31.1 84.2
[40, 50) 45 5 43 0.111 11.1 95.3
[50, 60) 55 2 45 0.044 4.4 99.7
45 0.997 99.7
Interpretación: La mayoría de los trabajadores realiza un trayecto de 31 minutos para
llegar a la empresa.
Primero se identifica el intervalo en el que
se encuentra la mediana, aquel donde la
frecuencia acumulada sobrepasa a
(intervalo mediano), y respecto a este se
utiliza la fórmula:
Mediana de
datos
agrupados : Límite inferior del intervalo mediano
: Cantidad de datos
: Frecuencia acumulada del intervalo
anterior
: Amplitud del intervalo
Mediana de datos agrupados
Minutos Mc f F fr p% P%
[0, 10) 5 3 3 0.066 6.6 6.6
[10, 20) 15 8 11 0.177 17.7 24.3
[20, 30) 25 13 24 0.288 28.8 53.1
[30, 40) 35 14 38 0.311 31.1 84.2
[40, 50) 45 5 43 0.111 11.1 95.3
[50, 60) 55 2 45 0.044 4.4 99.7
45 0.997 99.7
Interpretación: La mitad de los trabajadores de la empresa demoran menos de 28.846
minutos en llegar, mientras que la otra mitad demora más de 28.846 minutos.
El cálculo es análogo a la media aritmética
de datos en tablas sin intervalos, pero se
calcula incluyendo como representante
del intervalo a la marca de clase:
Media de
datos
agrupados
: Marca de clase
: Frecuencia del intervalo
: Cantidad de datos
Media de datos agrupados
Minutos Mc f F fr p% P%
[0, 10) 5 3 3 0.066 6.6 6.6 15
[10, 20) 15 8 11 0.177 17.7 24.3 120
[20, 30) 25 13 24 0.288 28.8 53.1 325
[30, 40) 35 14 38 0.311 31.1 84.2 490
[40, 50) 45 5 43 0.111 11.1 95.3 225
[50, 60) 55 2 45 0.044 4.4 99.7 110
45 0.997 99.7 1285
Interpretación: Los trabajadores demoran un promedio de 28.555 minutos en llegar a
la empresa.
Determinar las medidas de centralización
Precipitaciones en mm por día
lluvia Mc f F fr p% P%
[0, 10) 5 3 3 0.096 9.6 9.6
[10, 20) 15 6 9 0.193 19.3 28.9
[20, 30) 25 7 16 0.225 22.5 51.4
[30, 40) 35 12 28 0.387 38.7 90.1
[40, 50) 45 3 31 0.096 9.6 97.7
31 0.997 99.7
Media Ponderada
La media ponderada de un conjunto de datos se calcula
cuando a cada uno de ellos tiene distinta “importancia”.
Un ejemplo son las notas de cada módulo en AIEP, las
cuales no siempre tienen el mismo valor.
Donde y es el “peso” de cada valor.
Si todos los datos tienen el mismo peso, se calcula la
media aritmética o promedio.
Media Ponderada
Ejemplo: El módulo de estadística tiene 3 evaluaciones. Un estudiante obtuvo un 2.7
en la prueba 1, un 4.1 en la prueba 2 y un 6.8 en el trabajo.
1. Calcular la media aritmética (o promedio).
2. Calcular la media ponderada si las dos primeras notas valen 30% y la tercera nota
vale un 40%.
3. Calcular la media ponderada si la primera nota vale un 40%, la segunda un 35% y la
tercera un 25%.
Medidas de posición
Las medidas de posición o cuantiles, son valores que
dividen la distribución de datos ordenada en partes
iguales. Estudiaremos cinco tipos de cuantiles:
Mediana
Percentiles
Deciles
Quintiles
Cuartiles
Como ya se vio en las medidas de
centralización, la mediana divide los datos
Mediana ordenados en dos partes iguales, es decir,
en cada una de ellas queda el 50% de los
datos.
Son 99 valores que dividen los datos
ordenados en cien partes iguales, es decir,
en cada una de ellas queda el 1% de los
datos.
En una tabla de frecuencias, se debe
observar en la columna de la frecuencia
porcentual acumulada los datos que
Percentiles sobrepasan el:
1% → Percentil 1 ()
2% → Percentil 2 ()
99% → Percentil 99 ()
Son nueve valores que dividen los datos
ordenados en diez partes iguales, es decir,
en cada una de ellas queda el 10% de los
datos.
En una tabla de frecuencias, se debe
observar en la columna de la frecuencia
porcentual acumulada los datos que
Deciles sobrepasan el:
10% → Primer Decil ()
20% → Segundo Decil ()
90% → Noveno decil ()
Son cuatro valores que dividen los datos
ordenados en cinco partes iguales, es decir,
en cada una de ellas queda el 20% de los
datos.
En una tabla de frecuencias, se debe
observar en la columna de la frecuencia
porcentual acumulada los datos que
Quintiles sobrepasan el:
20% → Primer quintil ()
40% → Segundo quintil ()
60% → Tercer quintil ()
80% → Cuarto quintil ()
Son tres valores que dividen los datos
ordenados en cuatro partes iguales, es decir,
en cada una de ellas queda el 25% de los
datos.
En una tabla de frecuencias, se debe
observar en la columna de la frecuencia
Cuartiles porcentual acumulada los datos que
sobrepasan el:
25% → Primer cuartil ()
50% → Segundo cuartil ()
75% → Tercer cuartil ()
Notar que el cuartil 2, el decil 5 y el
percentil 50 corresponde a la Mediana
Cuartiles (Me), ya que todos ellos hacen referencia
al 50%.
Fórmula general de los cuantiles para
datos agrupados
Medidas de
Posición
Cuando se tienen los valores de los
cuartiles, el mínimo y el máximo, se pueden
representar en un gráfico llamado
Diagrama
diagrama de caja y bigotes.
Consiste en una recta numérica graduada
(según los valores de los datos o los
de caja intervalos) en la que se representan dichos
valores.
El diagrama se puede realizar en forma
vertical u horizontal.
Ejemplo
En una empresa de retail, los directivos creen que el ausentismo laboral en una de sus
tiendas es un problema. Para ello le solicitaron al departamento de Recursos Humanos
que realizara un estudio estadístico de la cantidad de días que cada empleado faltó a
trabajar (independiente de los motivos).
Los datos son los siguientes:
Días f F fr p% P%
0 3 3 0,125 12,5% 12,5%
1 8 11 0,333 33,3% 45,8%
3 4 15 0,166 16,6% 62,4%
4 2 17 0,083 8,3% 70,7%
5 3 20 0,125 12,5% 83,2%
7 4 24 0,166 16,6% 99,8%
24 0,998 99,8%
a) Calcular las medidas de centralización ()
b) La empresa considera el ausentismo un problema si la mitad de los trabajadores
faltan 2 o más días en el mes. Determina si los directivos tenían razón haciendo uso
de la mediana.
c) Calcular los tres cuartiles y representar la información en un diagrama de caja.
d) Determinar las medidas , y .
Días f F fr p% P%
0 3 3 0,125 12,5% 12,5%
1 8 11 0,333 33,3% 45,8%
3 4 15 0,166 16,6% 62,4%
4 2 17 0,083 8,3% 70,7%
5 3 20 0,125 12,5% 83,2%
7 4 24 0,166 16,6% 99,8%
24 0,998 99,8%
Ejemplo 2
La tabla muestra la velocidad a la que pasan 50 automóviles por un portal de control de
velocidad. La velocidad máxima en ese tramo del camino es de 70 km/h.
Velocidad Mc f F fr p% P%
[40, 50) 45 6 6 0,12 12% 12%
[50, 60) 55 10 16 0,20 20% 32%
[60, 70) 65 19 35 0,38 38% 70%
[70, 80) 75 11 46 0,22 22% 92%
[80, 90) 85 4 50 0,08 8% 100%
50 100%
a) Calcular las medidas de centralización (𝑀𝑒, 𝑀𝑜, )
b) ¿Qué porcentaje de los vehículos circula a exceso de velocidad?
c) Calcular los tres cuartiles y representar la información en un diagrama de caja.
d) Determinar las medidas .
e) Determinar la velocidad máxima que tiene el 5% de los vehículos que pasan más lento por el
portal.
f) Determinar la velocidad mínima que tiene el 5% de los vehículos que pasan más rápido por el
portal.
Velocidad Mc f F fr p% P%
[40, 50) 45 6 6 0,12 12% 12%
[50, 60) 55 10 16 0,20 20% 32%
[60, 70) 65 19 35 0,38 38% 70%
[70, 80) 75 11 46 0,22 22% 92%
[80, 90) 85 4 50 0,08 8% 100%
50 100%
Medidas de
Dispersión
Cuantifican la variabilidad da los datos estudiados en
una población o muestra. Siempre corresponden a valores
positivos.
Consideraremos:
Rango
Varianza
Desviación estándar
Coeficiente de variabilidad
El rango de los datos (Rg) corresponde a la
diferencia entre el dato mayor (máximo) y
el dato menor (mínimo).
Rango
Mientras más grande es el rango, mayor es
la dispersión de los datos.
La varianza () es la diferencia media
ponderada de los datos respecto a la media
aritmética.
Varianza
En el caso de datos agrupados por
intervalos, se reemplaza el dato por la
marca de clase .
Representa la variabilidad de los datos
respecto a la media aritmética (promedio).
Se expresa en unidades cuadradas.
La desviación estándar () corresponde a la
raíz cuadrada de la varianza.
Desviación
Estándar Una desviación estándar baja indica que la
mayor parte de los datos está cerca de su
media aritmética, mientras que una
desviación estándar alta indica que los
datos se extienden sobre un rango de
valores más amplio.
Corresponde al cociente de la desviación
estándar y la media aritmética. Usualmente
se entrega en forma porcentual. Muestra el
Coeficiente de grado de variabilidad de los datos.
variabilidad
Ejemplo
Aldo es dueño de un almacén y últimamente sucede que, o no hay suficientes vienesas
para satisfacer la demanda, o sobran demasiado. Cada semana, debe botar todas las
vienesas que se han vencido. Al revisar la cantidad de paquetes de vienesas que vendió
durante las últimas siete semanas, observa:
Venta (paquetes) 57 50 43 62 73 88 12
a) Determina el rango y calcula el promedio semanal de ventas.
b) Calcula la diferencia en la venta de cada semana respecto al promedio.
c) Determina la varianza, la desviación estándar y el coeficiente de variabilidad.
Ejemplo 2
La tabla muestra las temperaturas máximas (en °C) de cada día de enero del 2019 en
Quillota. Analizaremos la información mediante el diagrama de caja y el cálculo de las
medidas de centralización y dispersión.
T. Máx f F fr p% P%
28 4 4 0.129 12.9 12.9
29 8 12 0.258 25.8 38.7
30 6 18 0.193 19.3 58
31 7 25 0.225 22.5 80.5
32 6 31 0.193 19.3 99.8
31 0.998 99.8
Ejemplo 3
La tabla muestra la diferencia (en mm) de una partida de tornillos respecto a su tamaño
estándar. Analizaremos la información mediante el diagrama de caja y el cálculo de las
medidas de centralización y posición.
Dif. Mc f F fr p% P%
[–4, –2) -3 7 7 0.200 20 20
[–2, 0) -1 6 13 0.171 17.1 37.1
[0, 2) 1 12 25 0.342 34.2 71.3
[2, 4) 3 5 30 0.142 14.2 85.5
[4, 6) 5 5 35 0.142 14.2 99.7
35 0.997 99.7
Tabla de Estadígrafos
Moda Máximo Cuartil 1 Varianza
Mediana Desviación
Mínimo Cuartil 2
estándar
Media aritmética Coeficiente de
Rango Cuartil 3
variabilidad