ING.
SISTEMAS
COMPUTACIONALES
PROBABILIDAD Y ESTADÍSTICA
AEF-1052
ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA
Es una ciencia que proporciona un conjunto de métodos, técnicas y
procedimientos para recopilar, organizar, presentar y analizar datos con el fin de
describirlos o realizar generalizaciones válidas.
Estadística descriptiva
Métodos y técnicas de recolección, caracterización, resumen y presentación que
permiten describir apropiadamente las características de un conjunto de datos.
Comprende el uso de gráficos, tablas, diagramas y criterios para el análisis.
Estadística inferencial
Métodos y técnicas que hacen posible estimar una o más características de una
población o tomar decisiones referentes a la población basados en el resultado de
muestras. Estas conclusiones no tienen que ser totalmente válidas, pueden tener
cierto margen de error, por eso se dan con una medida de confiabilidad o
probabilidad.
DEFINICIONES BÁSICAS
Unidad de observación
También llamada unidad de análisis, unidad elemental, unidad estadística, caso o
elemento. Es el objeto sobre el cual se hace la medición. Por ejemplo, en estudios
de poblaciones humanas, con frecuencia ocurre que las unidades de observación
son los individuos.
Población objetivo
Es la totalidad de elementos que queremos estudiar y que están agrupados bajo
una o más características comunes y que conforman el universo a ser investigado.
Pueden ser personas, objetos, conceptos, etc. de los cuales intentamos sacar
conclusiones a partir de una o más características observables de naturaleza
cualitativa o cuantitativa que se pueden medir en ellos.
Como la medición o conteo de la característica especificada por la investigación
se hace a cada elemento, se puede considerar también a la población como la
totalidad de las mediciones que deseamos estudiar.
Muestra
Parte o subconjunto de la población que se selecciona para su análisis y así
obtener información acerca de la población de la que proviene. Una muestra será
representativa, en el sentido de que cada unidad muestreada representará las
características de una cantidad conocida de unidades en la población.
Población muestreada
Es la colección de todas las unidades de observación posibles que podrían
extraerse en una muestra; es decir, es la población de donde se extrae la muestra.
Unidad de muestreo
Es la unidad donde realizamos la muestra. Por ejemplo, podríamos querer estudiar
a las personas, pero no tenemos una lista de todos los individuos que pertenecen
a la población objetivo. En vez de eso, las familias sirven como las unidades de
muestreo y las unidades de observación son los individuos que viven en una
familia.
Marco de Muestreo
Es una lista de las unidades de muestreo que están disponibles para su elección
en la etapa de muestreo.
Censo
Es el estudio completo de todos los elementos de la población.
Muestreo
Es el proceso estadístico que permite seleccionar algunos elementos de la
población.
Observación
Es el resultado de medir una característica de una unidad elemental.
Variable
Es una característica de la población definida por la investigación estadística y que
puede tomar dos o más valores en distintas unidades de análisis.
Parámetro
Medida que describe una característica de una población.
Estadístico
Medida que describe una característica de una muestra.
ESCALAS DE MEDICIÓN DE LAS
VARIABLES
Escala nominal
Si a todas las unidades estadísticas equivalentes respecto de la propiedad o
atributo se le asigna un número real que funciona sólo como etiqueta. Se usa para
hacer referencia a los datos que sólo pueden clasificarse en categorías o
modalidades.
Escala ordinal
Si el orden de los números asignados a las unidades estadísticas refleja diferentes
grados de propiedad o atributo de estudio. Se pueden ordenar en forma
ascendente o descendente, de tal manera que puedan expresar grados de la
característica medida.
Las variables con escalas ordinales pueden ser ordenadas o clasificadas en
relación a la cantidad del atributo poseído. Cada categoría puede ser comparada
con otra en relación de “mayor que” o “menor que”.
Escala de intervalo
Si los números asignados a las unidades estadísticas no sólo permiten ordenarlos
sino que además las diferencias iguales entre estos valores indican diferencias
iguales en las cuantías de las propiedades a medir. En esta escala el cero es
relativo, es decir, no indica la ausencia de la característica medida.
Escala de razón
Si los cocientes o razones de los números asignados a las unidades estadísticas
reflejan los cocientes de las cuantías de las propiedades que se miden. En esta
escala el cero indica la ausencia de característica de la medida. También se le
conoce como escala de proporción o cociente.
TIPOS DE VARIABLES
Las variables se pueden clasificar de la siguiente manera
Variables cualitativas (categóricas)
Son las que pueden ser expresadas sólo en escalas nominales u ordinales.
Datos cualitativos en escala nominal, por ejemplo
Bebidas gaseosas.
Tipo de sangre.
Datos cualitativos en escala ordinal, por ejemplo
Nivel académico de las personas.
Calidad de un servicio.
Variables cuantitativas (numéricas)
Son las que pueden ser medidas en escala de intervalo o de razón. A su vez, las
variables cuantitativas se pueden clasificar en
Variables cuantitativas discretas
Son las que tienen un número de posibles valores finitos o infinitos numerables,
es decir, en un intervalo determinado sólo pueden tomar ciertos valores.
Variables cuantitativas continuas
Si para dos valores cualesquiera de una variable, siempre se puede encontrar un
tercer valor entre los dos primeros. Pueden tomar infinitos e innumerables valores,
es decir, pueden tomar cualquier valor en un intervalo determinado.
TABLA DE DISTRIBUCIÓN DE
FRECUENCIAS
La forma más simple de resumir un conjunto de datos es la tabla de distribución
de frecuencias que consiste en presentar para cada valor de una variable
(cualitativa o cuantitativa) el número de casos que la componen.
Frecuencia absoluta – f
Es el número de veces que aparece repetido un valor determinado de la variable
en el conjunto de observaciones realizadas. La sumatoria de todas las frecuencias
absolutas es el número total de casos analizados, si se trata de población se le
denota N y si se trata de una muestra se le denota n.
Frecuencia relativa – h
Es el cociente entre la frecuencia absoluta del dato y el total de observaciones.
Frecuencia absoluta acumulada – F
Es la suma de la frecuencia absoluta de un valor determinado de la variable con
las frecuencias absolutas de los valores menores de la variable. La frecuencia
absoluta acumulada del último valor de la variable es igual al total de casos.
Frecuencia relativa acumulada – H
Es la suma de la frecuencia relativa de un valor determinado de la variable con las
frecuencias relativas de los valores menores de la variable. La frecuencia relativa
acumulada del valor más alto de la variable es igual a 1.
ORGANIZACIÓN DE DATOS
CUALITATIVOS
Tabla de distribución de frecuencias
En este tipo de datos normalmente sólo se utilizan las frecuencias absolutas y
relativas.
Representación gráfica
Los gráficos más utilizados para representar los datos cualitativos son los gráficos
de columnas, gráfico de barras y gráfico circular.
Tablas de contingencias
También llamadas tablas cruzadas o de doble entrada. Se utilizan cuando las
observaciones se les asocia con dos variables cualitativas simultáneamente.
ORGANIZACIÓN DE DATOS
CUANTITATIVOS
Datos agrupados según su frecuencia
Tabla de distribución de frecuencias
Si los datos son discretos y no hay mucha variabilidad se presentarán
directamente cada valor de la variable y su respectiva frecuencia. El procedimiento
más simple es listar los n datos en forma ascendente y luego elaborar la tabla de
distribución de frecuencias indicando para cada valor de la variable su respectiva
frecuencia con la que aparece en la serie.
Representación gráfica
La representación gráfica de la variable cuantitativa discreta es similar al caso
cualitativo, sólo que no se emplean columnas sino líneas verticales para cada
valor, denominados bastones, tal como se muestra a continuación
Datos agrupados en intervalos
Los datos se agruparán de clases (también llamados intervalos, categorías o
grupos) cuando la variable toma valores con gran variabilidad.
TABLA DE DISTRIBUCIÓN DE
FRECUENCIAS
Para agrupar n datos de una muestra, los pasos son los siguientes
1. Determine el rango - R
R = Xmáx - Xmín
2. Determine el número de intervalos - k
Tome alguna de las siguientes recomendaciones
- El valor k debe ser mayor que 5 y no mayor que 20.
Regla de Sturges: k = 1 + 3,322 log n.
- Regla de la raíz cuadrada: k n .
- Regla de la potencia de 2: k es el menor valor entero tal que 2k > n.
Siempre es un número entero. Si la estimación tiene decimales, se toma el entero
más próximo.
3. Calcule el ancho o amplitud de intervalo - w
w=R/k
Se redondea al número inmediato superior de acuerdo a la cantidad de decimales
que tienen los datos o según la precisión con que se desea trabajar.
Puede haber intervalos con distinta amplitud.
Puede haber intervalos con amplitud indefinida (intervalos abiertos).
4. Determine los límites de cada intervalo.
Partiendo del dato de menor valor Xmin se determinan cada uno de los límites de
intervalos sumando la amplitud de clase a cada valor obtenido.
Si los datos con cuantitativos continuos, el límite superior de un intervalo es el
límite inferior del siguiente intervalo. Se considera que el intervalo es cerrado
en el límite inferior y abierto en el límite superior, con excepción en el último
intervalo en el que los dos límites son cerrados.
Si los datos son cuantitativos discretos se cumple el punto anterior, pero también
se puede tomar el valor del límite de un intervalo una unidad menor que el límite
inferior del siguiente intervalo.
5. Calcule la marca de clase o centro de clase - X
Punto medio de cada clase. Es la semisuma de los límites de cada clase. Representa
a todos los datos que están contenidos en una clase,
6. Construya la tabla de distribución de frecuencias realizando la agrupación y conteo de
los datos según la clase a la que corresponda.
Si se van agrupar datos de dos o más muestras y además se deben analizar
comparativamente, tome en cuenta adicionalmente lo siguiente
1. El rango se determina tomando el dato mayor de todas las muestras menos
el dato menor de todas las muestras.
2. Si las muestras tienen tamaño distinto, para determinar el número de
intervalos se toma el tamaño de muestra más grande.
3. Al agrupar los datos en clases, los datos de cada muestra se agrupan
independientemente, de tal manera que haya tantas tablas de distribución
como muestras, pero todas empleando las mismas clases.
Representaciones gráficas
Un primer tipo de gráfico es el histograma. Es la representación por medio
de barras rectangulares, siendo la base de cada barra proporcional a la
amplitud de la clase, su centro es la marca de clase y la altura su frecuencia
absoluta y / o relativa. En el eje horizontal va la escala de la variable y en
el vertical la escala de la frecuencia.
Un segundo tipo de gráfico es el polígono de frecuencias. Es la
representación por medio de una figura poligonal cerrada, que se obtiene
uniendo con segmentos de recta los puntos de intersección de las marcas
de clase con las frecuencias. Si en el polígono de frecuencias se suavizan
los puntos angulosos se obtiene la curva de frecuencias.
Un tercer tipo de gráfico es la ojiva o Polígono de Frecuencias Acumuladas.
Se obtiene uniendo con segmentos de recta los puntos de intersección del
límite superior de cada intervalo y la frecuencia acumulada respectiva. Con
la ojiva se puede estimar el número o porcentaje de observaciones que
corresponden a un intervalo determinado. También si en la Ojiva se
suavizan los puntos se obtiene la Curva de Frecuencias Acumuladas u ojiva
suavizada.
MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central se refieren al valor central que representa a los
datos de una determinada variable.
Media aritmética
La media aritmética (media o promedio) de un conjunto de valores de una variable
es la suma de dichos valores dividida entre el número de valores.
MEDIA DE DATOS NO AGRUPADOS
N n
i 1
xi x
i 1
i
Población : Muestra : x
N n
MEDIA DE DATOS AGRUPADOS
N n
xi fi
i 1
x f
i 1
i i
Población : Muestra : x
N n
donde
xi : dato (datos no agrupados) o marca de clase (datos agrupados)
fi : frecuencia de cada clase.
N : tamaño de la población.
n : tamaño de la muestra.
Características de la media
Todo conjunto de datos medido en escala de intervalo o razón tiene
media.
El valor de la media es sensible a los valores extremos (mínimo y
máximo), por lo que la presencia de valores inusuales la
distorsionan.
El cálculo de la media es sencillo y fácil de entender e interpretar.
Propiedades de la media
1. La suma total de los n valores cuya media es x es igual a n x .
n
Datos no agrupados : xi n x
i 1
k
Datos agrupados: f
i 1
i . xi n . x
2. Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b
constantes, entonces, la media de los n valores yi es
y a. x b
Como casos particulares se tiene
Si yi = b, entonces
y b . Si los n datos son una constante b, entonces la
media es igual a esa constante b.
Si yi = xi + b, entonces
y x b . Si a cada dato se le suma una constante
b, la media queda sumada por esa constante b.
Si yi = a . xi , entonces
y a . x . Si a cada dato multiplica por una
constante a, la media queda multiplicada por esa constante a.
3. La suma algebraica de las desviaciones de n datos xi con respecto a su media x
, es igual a cero.
n
Datos no agrupados : (x
i 1
i x) 0
4. La suma de los cuadrados de las desviaciones de n datos con respecto a su media
es el valor mínimo.
n
(x
i 1
i c) 2 es mínimo si c x
Mediana (Me)
La mediana (o media proporcional) de un conjunto de datos observados de una
variable es el valor que ocupa la posición central una vez puestos los datos en
orden de magnitud.
Mediana de datos no agrupados
Se ordenan los datos en orden ascendente.
Se calcula la posición mediana. Para n datos la posición es (n+1)/2.
Se identifica la mediana. Es el dato que ocupa la posición (n+1)/2.
Mediana de datos agrupados
Se identifica la clase mediana. Es la clase cuya frecuencia
acumulada es mayor o igual a n/2.
Se obtiene el valor de la mediana mediante la expresión
w n
Me Lme F
f me 2
donde
Lme : límite inferior de la clase mediana
fme : frecuencia de la clase mediana
F : frecuencia acumulada de la clase que precede a la clase mediana
w : amplitud de clase
n : número de datos
Características de la mediana
Todo conjunto de datos medidos en escala de ordinal, intervalo o
razón tiene una mediana.
El valor de la mediana depende del número de datos observados.
La mediana es un estadístico robusto, es decir, no se ve afectada
por el valor de los extremos (mínimo y máximo). Por eso se le utiliza
cuando hay datos inusuales o el polígono de frecuencias no es
simétrico.
La mediana no tiene propiedades matemáticas valiosas para poder
usarlas en otros cálculos.
Moda (Mo)
La moda de un conjunto de datos observados de una variable es el valor que se
presenta con mayor frecuencia.
Moda de datos no agrupados
Agrupe los datos de acuerdo a sus respectivas frecuencias. El dato con mayor frecuencia es
la moda.
Moda de datos agrupados en clases
Identifique la clase con mayor frecuencia (clase modal)
Obtenga el valor de la moda mediante la expresión
Da
Mo Lm o w
Da Db
donde
Lmo : límite inferior de la clase modal.
Da : diferencia entre las frecuencias de las clases modal y precedente.
Db : diferencia entre las frecuencias de las clases modal y siguiente.
w : amplitud de clase.
Características de la moda
La moda se puede calcular para cualquier escala de medición.
El valor de la moda no se ve afectada por valores extremos.
La moda se puede calcular aun cuando uno o más intervalos sean
de extremo abierto.
La moda no siempre es un valor único. Una serie de datos puede
tener dos modas (bimodal) o más modas (multimodal).
Algunas series de datos no tienen moda.
La moda es una medida menos importante que la mediana o la
media debido a su ambigüedad.
La moda no tiene propiedades matemáticas valiosas para poder
usarlas en otros cálculos.
Media ponderada - x w
También llamada media pesada. Permite calcular el valor medio considerando la
importancia o peso de cada valor sobre el total.
x .w i i
xw i 1
n
w i 1
i
donde
xi : Observación individual.
wi : Peso asignado a cada observación.
Media geométrica (MG)
MG n f1 . f 2 . f 3 . . . f n
La aplicación más frecuente de la media geométrica es en el caso de encontrar
una tasa de variación promedio de una serie temporal.
Factor de variación
xi
fi
xi 1
donde
xi : valor de la variable en el periodo i.
xi-1 : valor de la variable en el periodo i-1.
Tasa de variación
ii = (fi – 1) . 100%
Factor de variación promedio
f p MG
Tasa de variación promedio
ip = (fp – 1) . 100%
MEDIDAS DE DISPERSIÓN
Rango
El rango (alcance, amplitud o recorrido) de un conjunto de datos observados es la
diferencia entre dato mayor y el dato menor.
R = Xmax - Xmin
donde
xmax : valor máximo observado de la variable.
xmin : valor mínimo observado de la variable.
Varianza
La varianza es el promedio de los cuadrados de la diferencia de cada dato con la
media.
Varianza para datos no agrupados
N n
( xi ) 2
i 1
(x
i 1
i x)2
Población : 2 Muestra : s 2
N n 1
Varianza para datos agrupados
N n
i 1
f i . ( x´i ) 2 f
i 1
i . ( x´i x ) 2
Población : 2 Muestra : s 2
N n 1
Desviación estándar
La desviación estándar o típica mide la cantidad típica en la que los valores del
conjunto de observaciones difieren de la media
Desviación estándar para datos no agrupados
N n
( xi ) 2
i 1
(x
i 1
i x) 2
Población : Muestra : s
N n 1
Desviación estándar para datos agrupados
N n
f i . ( xi ) 2
i 1
f
i 1
i . ( xi x ) 2
Población : Muestra : s
N n 1
Coeficiente de Variación - CV
El Coeficiente de Variación de un conjunto de datos observados expresa la
desviación estándar como un porcentaje de la media. A diferencia de otras
medidas de dispersión, el Coeficiente de Variación es una medida relativa.
s
Población : CV . 100 % Muestra : CV . 100 %
x
Propiedades de la varianza
1. La varianza es un número real no negativo y viene expresado en unidades
cuadráticas, mientras que la desviación estándar viene expresada en las
mismas unidades en las que vienen expresados los datos.
2. Si cada uno de los n valores xi es transformado en: yi = a . xi + b, siendo a
y b constantes, entonces, la varianza de los n valores yi es
S y2 a 2 . S x2
Como casos particulares se tiene
S2 0
Si yi = b, entonces y . Si los n datos son iguales a una constante b,
entonces la varianza (y la desviación estándar) es igual a cero.
S 2 S x2
Si yi = xi + b, entonces y . Si a cada dato se le suma una constante
b, la varianza (y la desviación estándar) no cambian.
S 2 a 2 . S x2
yi = a xi , entonces y
Si . Si a cada dato se le multiplica por una
constante a, la varianza de los nuevos valores es igual a la varianza de
los valores iniciales multiplicada por a2.
1. La varianza depende del valor de todos los datos y es sensible a la variación de
cada uno de ellos.
2. La varianza puede ser calculada también con datos agrupados en intervalos,
inclusive de amplitud diferente, siempre que se puedan determinar las marcas
de clase.
3. Desigualdad de Tchebysheff: Independientemente de la forma de la
distribución de frecuencias de los datos, el intervalo x k . s x , x k . s x , donde
k > 1, contiene por lo menos el
1
1 2 .100 %
k de los datos.
MEDIDAS DE POSICIÓN
Las medidas de posición o cuantiles son los valores que determinan la posición
de un dato respecto a todos los demás datos de una serie y que previamente ha
sido ordenada de menor a mayor. Los cuantiles más importantes dividen a los
datos ordenados de menor a mayor en 100, 10 y 4 cantidades iguales de datos,
denominándose centiles, deciles y cuartiles respectivamente.
Centil
También conocido como percentil. El centil k, Pk. es el valor numérico tal que el k
por ciento de los datos ordenados está por debajo de ese valor y el (100 – k) por
ciento de los datos está por encima de ese valor.
Decil
Se denomina así a cada uno de los nueve centiles: P10, P20, P30… P90 y se les
denota como D1, D2, D3, …, D9 respectivamente.
Cuartil
Se denomina así a cada uno de los tres centiles: P25, P50, P75 y se les denota como
Q1, Q2 y Q3 respectivamente.
Además, se define el rango intercuartil (llamado también propagación media)
como la diferencia entre el tercer cuartil y el primer cuartil en una serie de datos,
es decir
Rango intercuartil = Q3 – Q1
CUANTILES PARA DATOS NO
AGRUPADOS
Los cálculos se centrarán en encontrar los valores de los centiles. Para hallar
valores de deciles o cuartiles simplemente encontraremos el valor del centiles
correspondientes.
Si tenemos n datos ordenados de menor a mayor y queremos determinar el valor
del centil Pk.
Localización
La posición que ocupa el centil Pk en la lista de datos ordenados está determinada
por la expresión
n 1
.k
100
Identificación
Si la posición del centil es un número entero, el centil buscado será el dato que
ocupa dicha posición en la serie ordenada.
Si la posición del centil no es un valor entero, es decir, el centil está entre dos
valores ubicados consecutivamente, entonces el valor del centil se obtiene de la
siguiente expresión
dato menor (dato mayor dato menor).( parte decimal de posición )
CUANTILES PARA DATOS AGRUPADOS
EN INTERVALOS
Si tenemos n datos agrupados en clases y queremos determinar el valor del centil
Pk .
Localización
La posición que ocupa el centil Pk en la lista de datos ordenados esta determinada
por la expresión
n
k
100
Identificación
Identificamos primero la clase en la que se encuentra el centil Pk. El valor del centil
se determina por al siguiente expresión
wn.k
Pk Li F
f 100
donde
Li : límite inferior de la clase del centil
f : frecuencia de la clase del centil
F : frecuencia acumulada de la clase que precede a la clase del centil
w : amplitud de clase
n : número de datos