Promedio Suma de todos los valores numricos dividida entre el nmero de valores para obtener un nmero que pueda
representar de la mejor manera a todos los valores del conjunto. Por ejemplo, el promedio de 6 nmeros (3, 4, 2, 2, 5, 2) es (3 + 4 + 2 + 2 + 5 + 2) 6 = 3 Tipo de medidas de centralizacin Media aritmtica
Se denota por X Se divide la suma de los datos por el nmero total de ellos. O si los datos vienen en una tabla con sus frecuencias absolutas (fi ( tantos con este valor, otros tantos con otro valor...), se multiplica cada dato xi por su frecuencia fi x = ( x1.f1 + x2.f2 + ....+ xn.fn) / N = (xi.fi)/N
Mediana
Se representa por Me Es el valor central de un conjunto de datos Se ordenan los valores en orden creciente y se toma el que ocupa el lugar central (si el nmero de valores es impar o la media de los dos centrales si es par). Si se trata de la mediana de valores agrupados
Moda
Se representa por Mo Es el valor que ms se repite. Si se repiten la serie es bimodal (2) o multimodal. la moda es el valor con una mayor frecuencia en una distribucin de
datos.
Hablaremos de una distribucin bimodal de los datos adquiridos en una columna cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta mxima. Una distribucin trimodal de los datos es en la que encontramos tres modas. Si todas las variables tienen la misma frecuencia diremos que no hay moda.
El intervalo modal es el de mayor frecuencia absoluta. Cuando tratamos con datos agrupados antes de definir la moda, se ha de definir el intervalo modal. La moda, cuando los datos estn agrupados, es un punto que divide al intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que
verifiquen que:
Siendo la frecuencia absoluta del intervalo modal las frecuencias absolutas de los
intervalos anterior y posterior, respectivamente, al intervalo modal.
Para obtener la moda en datos agrupados se usa la siguiente frmula:
Donde: Li 1 = Lmite inferior de la clase modal. D1 = es el delta de frecuencia absoluta modal y la frecuencia absoluta premodal. D2 = es el delta de frecuencia absoluta modal y la frecuencia absoluta postmodal. i = intervalo. Ejemplo Encontrar la estatura modal de un grupo que se encuentra distribuido de la siguiente forma: Entre 1 y 1.10 hay 1 estudiante Entre 1.10 y 1.15 hay 1,5 estudiantes Entre 1.20 y 1.25 hay 2 estudiantes Entre 1.30 y 1.35 hay 2,3 estudiantes. Entre 1.45 y 1.55 hay 3 estudiantes. Entre 1.50 y 1.60 hay 4 estudiantes. Entre 1.60 y 1.70 hay 10 estudiantes. Entre 1.70 y 1.80 hay 8 estudiantes. Clase modal = 1.60 y 1.70 (es la que tiene frecuencia absoluta ms alta, 10) Li-1 = 1.60 D1 = 6 D2 = 2 i = 0.10 Moda = 1.60 + (6/8) * 0.1 = 1.675
Mediana de valores agrupados Me = l +( (n/2 -F)/f) * i Ejemplo: Se desea conocer el precio mediano de los libros, el primer intervalo nos indica que se han comprado 3 libros entre 1-500, pts, 13 entre 501 y 1000, y as sucesivamente ... Precio 1-500 501-1000 1001-1500 1501-2000 2001-2500 2501-3000 3001-3500 Frecuencia (f) 3 13 25 20 18 20 11 Frec. acumulada (F) 3 16 41 61 79 99 110 Amplitud intervalo 500 '' '' '' '' '' ''
l - > lmite inferior del intervalo que contiene la mediana:
Se divide por dos el nmero total de observaciones: 110/2 = 55 La mediana se encontrar en el intervalo que tenga la frecuencia acumulada ms cerca de 55, en este caso 61 El lmite inferior que corresponde a esa frecuencia es 1501, por tanto l = 1501 n > es la frecuencia total En este caso el nmero total de libros comprados es n= 110
F-> frecuencia acumulativa que corresponde al lmite inferior que contiene la mediana. F= 41 f-> Nmero de casos del intervalo que contiene la mediana. f= 20 i-> amplitud del intervalo que contiene la mediana. i = 500 Sustituyendo los valores en la frmula Me = l +( (n/2 -F)/f) * i = 1501 + ( (110/2 - 41) / 20 ) * 500
Medidas de posicin
Las medidas de posicin dividen un conjunto de datos en grupos con el mismo nmero de individuos. Para calcular las medidas de posicin es necesario que
los datos estn ordenados de menor a mayor.
La medidas de posicin son:
Cuartiles Los cuartiles son los tres valores de la variable que dividen a
un conjunto de datos ordenados en cuatro partes iguales. Q 1 , Q 2 y Q 3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q 2 coincide con la mediana.
Clculo de los cuartiles 1 Ordenamos los datos de menor a mayor. 2 Buscamos expresin el lugar . que ocupa cada cuartil mediante la
Nmero impar de datos 2, 5, 3, 6, 7, 4, 9
Nmero par de datos 2, 5, 3, 4, 6, 7, 1, 9
Clculo de los cuartiles para datos agrupados
En primer lugar buscamos la clase donde se encuentra la tabla de las frecuencias acumuladas.
, en
L i es el lmite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas. F i -1 es la frecuencia acumulada anterior a la clase mediana. a i es la amplitud de la clase.
Ejercicio de cuartiles Calcular los cuartiles de la distribucin de la tabla: fi [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) [110, 120) 8 10 16 14 10 5 2 65 Fi 8 18 34 48 58 63 65
Clculo del primer cuartil
Clculo del segundo cuartil
Clculo del tercer cuartil
Deciles Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales. Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos. D 5 coincide con la mediana.
Clculo de los deciles
En primer lugar buscamos la clase donde se encuentra en la tabla de las frecuencias acumuladas.
L i es el lmite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas. F i -1 es la frecuencia acumulada anterior a la clase mediana. a i es la amplitud de la clase. Ejercicio de deciles Calcular los deciles de la distribucin de la tabla: fi [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) [110, 120) 8 10 16 14 10 5 2 65 Fi 8 18 34 48 58 63 65
Clculo del primer decil
Clculo del segundo decil
Clculo del tercer decil
Clculo del cuarto decil
Clculo del quinto decil
Clculo del sexto decil
Clculo del sptimo decil
Clculo del octavo decil
Clculo del noveno decil
Percentiles Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales. Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. P 50 coincide con la mediana. Clculo de los percentiles
En primer lugar buscamos la clase donde se encuentra en la tabla de las frecuencias acumuladas.
L i es el lmite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas. F i -1 es la frecuencia acumulada anterior a la clase mediana. a i es la amplitud de la clase.
Ejercicio de percentiles Calcular el percentil 35 y 60 de la distribucin de la tabla: fi Fi
[50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) [110, 120)
8 10 16 14 10 5 2 65
8 18 34 48 58 63 65
Percentil 35
Percentil 60
Variable y datos estadsticos.
Variable:
La variable que tiene resultados o valores que tienden a variar de observacin en observacin debido a los factores relacionados con el azar recibe el nombre de variable aleatoria.
Datos estadsticos.
Son nmeros que pueden ser comparados, analizados e interpretados. El campo del cual son tomados los datos estadsticos se identifica como poblacin o universo. En un estudio estadstico los mtodos que se aplican son: A) RECOPILACION: De acuerdo con la localizacin de la informacin los datos estadsticos pueden ser internos y externos. Los internos son los registros obtenidos dentro de la organizacin que hace un estudio estadstico, Los externos se obtienen de datos publicados y encuestas. B) ORGANIZACIN: En la organizacin de los datos recopilados, el primer paso es corregir cada uno de los elementos recopilados. C) REPRESENTACION: Hay 3 maneras de presentar un conjunto de datos mediante enunciados tablas estadsticas y grficas estadsticas. D) ANALISIS: Despus de los datos anteriores los datos estadsticos estn listos para hacer analizados, para lo cual frecuentemente se emplean operaciones matemticas durante el proceso de anlisis.
Si una muestra es representativa de una poblacin se pueden deducir importantes deducciones acerca de esta a partir del anlisis de la misma. Una muestra es un conjunto de medidas u observaciones tomadas a partir de una poblacin dada.
Caracterstica y frecuencia. Distribucin de frecuencias
La distribucin de frecuencias es una tabla que divide un conjunto de datos en un numero de clases (categoras) apropiadas, mostrando tambin el nmero de elementos en cada clase. La tabla sacrifica parte de la informacin contenida en los datos; En lugar de conocer el valor exacto de cada elemento. Solo sabemos que pertenece a una clase determinada. Por otra parte, ese tipo de agrupamiento hace resaltar caractersticas importantes en los datos, y en lo que se gana en legibilidad, compensa con creces la perdida de informacin. A continuacin consideraremos principalmente las distribuciones numricas, es decir, distribuciones de frecuencias donde los datos se hallan agrupados por su tamao: si se hallan agrupados de acuerdo con alguna cualidad o atributo denominaremos distribucin categrica a esa distribucin. La primera etapa la construccin de una distribucin de frecuencias consiste en decir en cuantas clases utilizar y elegir los lmites de cada clase, es decir, de donde a donde abarca cada una. En general, el nmero de clases que usemos depende del nmero de observaciones, pero tiene muy poca utilidad utilizar menos de 5 o ms de 15. Depende de s mismo del rango de los datos, es decir, la diferencia entre la observacin ms grande y la ms pequea. Para ejemplificar la construccin de una distribucin de distribucin de frecuencia, consideramos la siguientes mediciones de la emisin diaria (en toneladas) de xido de azufre de una planta industrial. 10.5 1526.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2
22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0
18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5
14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8 25.9.9 27.5 18.1 17.9 9.4 24.1 20.1 18.5
En vista de que las observacin ms grande es 31.8, y la ms pequea es 6.2 y el rango es 25.6, podramos elegir seis clases que tuvieran los limites 5.0-.9.9, 10.0-14.9,...,30.0-34.9. Podramos tambin elegir las siete clases 5.o-8.9, 9.0-12.9,..., 29.0-31.9. Ntese que en cada caso las clases no se traslapan, incluyen todos los datos y tienen la misma medida. Supngase que hemos optado por la segunda de estas clasificaciones; ordenamos las 80 observaciones y obtenemos los resultados que se muestran en la siguiente tabla: Lmites de clase Etiqueta Frecuencia 5.0-8.9 /// 3 9.0-12.9 //// //// 10 13.0-16.9 //// //// //// 14 17.0-20.9 //// //// //// //// //// 25 21.0-24.9 //// //// //// // 17 25.0-28.9 //// //// 9 29.0-32.9 // 2 Total 80 Obsrvese que los lmites de clase se dan con el mismo nmero de decimales que los datos originales. Si los datos se hubiesen dado con dos decimales, habramos usado los lmites de clase 5.00-8.99, 9.00-12.99,..., 29.0-32.99 y, de haber sido redondeados al entero ms prximo, se habran utilizado los lmites de clase 5-8, 9-12,..., 29-32. Como sealamos anteriormente, una vez que lo datos han sido agrupados, cada observacin pierde su identidad en el sentido de que su valor exacto ya no se conoce. Esto puede originar dificultades cuando queremos dar algunas descripciones ulteriores de los datos, pero podemos evitarlas representando cada observacin en una clase por su punto medio, denominando marca de clase. En general, las marcas de clase de una distribucin de frecuencias se obtiene promediando los lmites de clase consecutivos o fronteras de clases sucesivas. Si todas las clases de una distribucin tienen la misma longitud, como en nuestro ejemplo, al intervalo comn entre cuales quiera marcas d clase sucesivas lo llamaremos intervalo de clase de la distribucin. Ntese que el intervalo puede obtenerse tambin en la
diferencia entre dos fronteras cualquiera de clase consecutivas, pero no de la diferencia entre los lmites de clases sucesivos. Ejemplo: En relacin con el ejemplo de la distribucin de los datos de xido de azufre, indquese, a) Las marcas de clase y b) el intervalo de clase. a) Las marcas de clase son 5.0+8.9=6.95 9.0+ 12.9= 10.95, 14.95, 18.95, 22.95, 26.95 y 30.95. b) El intervalo de clase es: 10.95 - 6.95 =4.
Tablas de estadstica de una distribucin de frecuencia sin agrupar.
Tablas de estadstica de una distribucin de frecuencia agrupadas
La distribucin de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un nmero grande de valores o la variable es continua. Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente. Lmites de la clase Cada clase est delimitada por el lmite inferior de la clase y el lmite superior de la clase. Amplitud de la clase. La amplitud de la clase es la diferencia entre el lmite superior e inferior de la clase. Marca de clase La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el clculo de algunos parmetros. Construccin de una tabla de datos agrupados 3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13. 1 se localizan los valores menor y mayor de la distribucin. En este caso son 3 y 48.
2 Se restan y se busca un nmero entero un poco mayor que la diferencia y que sea divisible por el nmero de intervalos de queramos poner. Es conveniente que el nmero de intervalos oscile entre 6 y 15. En este caso, 48 - 3 = 45, incrementamos el nmero hasta 50 : 5 = 10 intervalos. Se forman los intervalos teniendo presente que el lmite inferior de una clase pertenece al intervalo, pero el lmite superior no pertenece intervalo, se cuenta en el siguiente intervalo. ci [0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 35) [35, 40) [40, 45) [45, 50) 2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 fi 1 1 3 3 3 6 7 10 4 2 40 Fi 1 2 5 8 11 17 24 34 38 40 ni 0.025 0.025 0.075 0.075 0.075 0.150 0.175 0.250 0.100 0.050 1 Ni 0.025 0.050 0.125 0.200 0.2775 0.425 0.600 0.850 0.950 1
Grficos de barras.
Diagrama de frecuencias.
Al relacionar los rangos x en las abscisas, con la frecuencia f en las ordenadas, se consigue un diagrama de frecuencias (que suele representarse con barras en vez de trazos lineales). Esta representacin permite apreciar una fcil visualizacin de los extremos as como del rango ms frecuente de ocurrencia.
Histograma de frecuencia.
Los histogramas de frecuencias son grficas que representan un conjunto de datos que se emplean para representar datos de una variable cuantitativa. En el eje horizontal o de las abscisas se representan los valores tomados por la variable, en el caso de que los valores considerados sean continuos la forma de representar los valores es mediante intervalos de un mismo tamao llamados clases. En el eje vertical se representan los valores de las frecuencias de los datos. Las barras que se levantan sobre la horizontal y hasta una altura que representa la frecuencia. Un punto importante en el manejo de la informacin bajo el uso de histogramas es el hecho de poder comparar, bajo un proceso en control, que a medida que se crecen las clase tiene aproximadamente la forma de una campana centrada, que como veremos posteriormente, es la de una de las distribuciones ms importantes conocidas como frecuencia normal o gaussiana.
Polgono de frecuencias.
Alternativo al histograma de frecuencias podemos representar la informacin a travs de los llamados polgonos de frecuencias. Estos se construyen a partir de los puntos medios de cada clase. La utilizacin de los puntos medios o marcas de clase son llevados al escenario grfico mediante la utilizacin de los polgonos de frecuencias. Se construye uniendo los puntos medios de cada clase localizados en las tapas superiores de los
rectngulos utilizados en los histogramas de las grficas. Su utilidad se hace necesaria cuando desean destacarse las variables de tendencia central, como son media, modas y medianas.
Caractersticas en la distribucin de frecuencias.
Una vez recogidos los datos y ordenados y presentados nos encontramos en la Tercera etapa de anlisis: descripcin de las caractersticas de la distribucin. Nos interesa resumir la informacin en unos pocos nmeros que describan el fenmeno. As aparecen las medidas que clasificaremos en: A) medidas de posicin: intentan resumir globalmente el fenmeno. Dentro de ellas distinguiremos: - Medidas de posicin central: Tratan de resumir lo que ocurre en promedio en la distribucin. - Medidas de posicin no central: Tratan de resumir lo que ocurre en determinados tramos o intervalos de la distribucin. B) medidas de dispersin: miden el grado de los datos. C) medidas de forma: indican la forma grfica de la distribucin. Caractersticas deseables de las medidas:
1. en su elaboracin intervienen todos los datos. 2. son siempre calculables. 3. son nicas para cada distribucin. 2.2. Medidas de posicin central. 2.2.1. La media aritmtica: Consideremos una distribucin (xi ;ni)(la variable toma los valores xi que se repiten con una frecuencia ni) Se define la media aritmtica como la suma de todos los valores de la distribucin dividida por el nmero total de datos. La denotaremos por x y se obtendr de la siguiente forma:
Medidas de dispersin
Las medidas de dispersin nos informan sobre cunto se alejan del centro los valores de la distribucin. Las medidas de dispersin son:
Rango o recorrido
El rango es la diferencia entre el mayor y el menor de los datos de una distribucin estadstica.
Desviacin media
La desviacin respecto a la media es la diferencia entre
cada valor de la variable estadstica y la media aritmtica. Di = x - x La desviacin media es la media aritmtica de los valores absolutos de las desviaciones respecto a la media. La desviacin media se representa por
Ejemplo: Calcular la desviacin media de la distribucin: 9, 3, 8, 8, 9, 8, 9, 18
Recorrido o rango. Desviacin o desvo. Desviacin media, respeto a la media aritmtica y respecto a la mediana.
DESVIACION MEDIA: Corresponde a la diferencia numrica entre una medida individual o nmero y la media aritmtica de una serie completa de tales medidas o nmeros. Por ejemplo, si la media de alturas de todos los alumnos de un curso es 1,51 m y uno de ellos mide 1,63m, la desviacin media de su altura con respecto a la media es de +0.12 metros. MEDIA ARITMETICA: Corresponde a la suma de todos los datos dividido por el nmero total de ellos. Es lo que se conoce como "promedio". La media aritmtica es uno de los estadgrafos ms usados, por el hecho de ser de muy fcil clculo. MEDIANA: La mediana es aquel valor que ocupa el lugar central, de modo que la mitad de los casos queda por debajo de ese valor y la otra mitad por encima. Por ejemplo si consideramos: 2; 3; 5; 7; 11; 13; 16; 18; 25. La mediana es M = 11. Si el conjunto de valores es un nmero par, entonces se calcula la media aritmtica a los dos valores del centro.
Media Aritmtica:
= 7.5
27 " 7.5 es el valor de la media aritmtica para los datos dados." Mediana: En los datos anteriores, la mediana es el valor "8" ennegrecido. DESVIACIN MEDIA: Datos = 1 - 2 - 2 - 2 - 3 - 3 - 4 - 4 - 5 - 6 - 7 - 7 - 8 - 8 - 8 D. media = -6.5 , -5.5, -5.5 , -5.5 , -4.5 , -4.5 , -3.5 , -3.5 , -2.5 , -1.5 , -0.5 , -0.5 , 0.5 , 0.5 , 0.5 Datos = 8 - 8 - 8 - 8 - 9 - 9 - 10 - 12 - 13 - 15 - 16 - 19 D. media = 0.5 , 0.5 , 0.5 , 0.5 , 1.5 , 1.5 , 2.5 , 4.5 , 5.5 , 7.5 , 8.5 , 11.5.-
Distribucin de datos en intervalos de clase.
Distribucin de frecuencia.