0% encontró este documento útil (0 votos)
16 vistas255 páginas

Bioest 01-2011

Este documento presenta una introducción a los conceptos básicos de la bioestadística. Explica que la estadística es la disciplina que se encarga de la recolección, organización, procesamiento e interpretación de datos para la toma de decisiones. Define términos clave como población, muestra, parámetro, estadístico, variable e individuo. Además, clasifica los tipos de datos, variables y escalas de medición utilizadas en estadística.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPT, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
16 vistas255 páginas

Bioest 01-2011

Este documento presenta una introducción a los conceptos básicos de la bioestadística. Explica que la estadística es la disciplina que se encarga de la recolección, organización, procesamiento e interpretación de datos para la toma de decisiones. Define términos clave como población, muestra, parámetro, estadístico, variable e individuo. Además, clasifica los tipos de datos, variables y escalas de medición utilizadas en estadística.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPT, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 255

BIOESTADISTICA 1

INTRODUCCION Y
CONCEPTOS GENERALES
DEFINICION
DEFINICION

ESTADÍSTICA

Disciplina encargada de:

- Recolección de datos.
- Organización datos.
- Procesamiento información.
- Interpretar

Para la toma de decisiones.

"Parte de la matemática que estudia


las propiedades variables de las cosas,
generalmente a partir de muestras,
para describir, inferir y predecir
acerca de los sucesos o fenómenos".
¿Cuándo se RECOLECTAN datos ?

Cuando se registran
características
(medición, observación,
conteo).
¿Cuándo se ORGANIZAN datos ?

Cuando se ordenan para


una mejor comprensión y
facilitar sus análisis.
(tablas, gráficos y
figuras)
Tabla de Distribución
Edad N° Pacientes

30 - 34 6
35 - 39 12
40 - 44 8
45 - 49 2

Diagrama Circular
¿ Cuándo se ANALIZAN datos ?

Cuando se calculan
promedios y medidas
de variabilidad y

cuando se establecen
relaciones entre ellas
(regresión y correlación).
¿ Cuándo se INTERPRETAN datos ?

Cuando se le otorga un
sentido práctico a los
resultados obtenidos en el
análisis
TIPOS DE ESTADISTICA
METODOS DEL CONOCIMIENTO

DEDUCCIO
N

INDUCCION

INFERENCIA
DEFINICIONES

1. MARCO POBLACIONAL: conjunto de individuos o elementos (unidades de análisis o elementales) que


cumplen ciertas propiedades comunes.

2. POBLACION: Es el conjunto total de características de interés del estudio de todos los individuos del
marco poblacional.

3. MARCO MUESTRAL: subconjunto de individuos representativo de un marco poblacional.

4. MUESTRA: subconjunto de características, representativo de la población.

5. PARAMETRO: función definida sobre los valores numéricos de una población.

6. ESTADISTICO: función definida sobre los valores numéricos de una muestra.

7. INDIVIDUOS o elementos (unidades elementales): personas u objetos que contienen la información


(carácter) que se desea estudiar. Son las unidades de análisis.

8. CARÁCTER o CARACTERISTICA: propiedades, atributo, rasgos o cualidades de los individuos, que


son materia de interés el estudio.

9. DATO (modalidad): son los diferentes valores posibles de un carácter o característica.

10. CLASES: conjunto de variables (intervalos) en el que se verifica que cada modalidad (variable) pertenece
a una y sólo una de las clases.
MARCO
POBLACIONAL POBLACION VALORES

2 años, 12 años, 14 años,


23 años, 16 años, 17 años,
Por ejemplo: 34 años, 45 años, 56 años,
EDAD 25 años

10 individuos 10 edades 10 valores

MARCO MUESTRAL VALORES


MUESTRA
Y MUESTRA

Por ejemplo: 2 años, 12 años, 14 años, 23


EDAD años

04 edades 04 valores

04 individuos

INDIVIDUO o CARÁCTER o DATO O


ELEMENTO CARACTERISTICA MODALIDAD
Población Estadística

Registro de UNA CARACTERISTICA EN


TODOS los elementos del marco
poblacional.

Tiene tantos datos como elementos el


marco poblacional.

Habrán tantas poblaciones como


características que se deseen registrar en
un marco poblacional.
MARCO POBLACIONAL
(1200 pacientes de un Hospìtal)

Enfer.
Característica Edad Peso Anteriores Estado Civil

Población Población Población


Registro de la
característica
P1 P2 P3 ... Pn
(1200 datos) (1200 datos)
Técnicas
Marco Poblacional Marco Muestral
1200 pacientes de un hospital de muestreo 75 pacientes de un hospital

Característica

Edad Peso Enf. Ant. Estado civil

Registro
POBLACIÓN
POBLACIÓN POBLACIÓN POBLACIÓN
de la
carac-
terística.
P1 P2 P3 ... Pn
Muestr
a
• Registro de una característica en todos los
elementos del marco muestral.

• Tiene tantos datos como elementos el marco

muestral.

• Habrán tantas muestras como características se

deseen registrar en un marco muestral.


Marco Poblacional Técnicas
Marco Muestral
1200 pacientes de un hospital de muestreo 75 pacientes de un hospìtal

Edad Peso Énf. Ant. Estado civil


Característica

Edad Peso Enf. Ant. Estado civil MUESTRA MUESTRA MUESTRA MUESTRA

m1 m2 m3 mn

75 datos

Registro
POBLACIÓN
POBLACIÓN POBLACIÓN POBLACIÓN
de la
carac-
terística.

P1 P2 P3 ... Pn
Parámetro y Estimador
(Estadístico)
Parámetro: Valor representativo de una
población. Se simboliza por letras griegas.
Sólo hay un parámetro en cada población.

 Media poblacional
2 Varianza poblacional
 Desviación estándar poblacional
 Proporción poblacional
Estimador (Estadístico): Valor
representativo de una muestra. Se
simboliza por letras latinas.

Existen tantos estimadores como


muestras se extraigan de una
población.
x Media muestral.

s2 Varianza muestra.

s Desviación estándar muestral.

p Proporción muestral.
n1
x1

n2 x2
POBLACIÓN
n3
x3
. .
. .
nm
xm
PARÁMETRO ESTIMADOR

DIFERENTES MUESTRAS OCASIONAN DIFERENTES


VALORES DEL ESTIMADOR
¿Qué son DATOS ?
Son los registros de una característica (VALOR).

Ejemplo:

Características Datos Unidad de medida

Consultas externas 250 día


Peso 75 Kg.
Estatura 1,80 mts.
Profesión Médico ----

Si el DATO es útil para tomar decisiones se convierte en


INFORMACIÓN.
¿Qué tipos de datos existen?

 CONSTANTE: Si el registro de la
característica toma un sólo valor en
todas las unidades elementales.

Ejemplo:

• Sexo de las alumnas de la Escuela de


Enfermeras

• Profesión de los integrantes del Colegio


Médico del Perú
 VARIABLE: Si el registro de la
característica toma diversos valores
en las unidades elementales.

Ejemplo:

• Edad de los pacientes.


• Profesión de los profesores de la
Universidad Daniel Alcides Carrión

Las constantes no son de mayor interés en


Estadística. Una misma característica puede
generar constantes ó variables.
Los Datos Variables pueden ser :

1.-Cualitativos : Registro de un atributo que no


se puede expresar por números sino por
cualidades o categorías. Provienen de una
observación Las operaciones posibles son: la
tasa porcentual y proporciones

Ejemplo:

Profesión de los participantes a un curso.


80% son médicos (tasa porcentual).
8 de cada 10 participantes son médicos (proporción).

Las variables cualitativas pueden ser:

a) Dicotómicas o Binarias (si o no)


b) Ordinales (orden creciente o decreciente)
c) Nominales (Profesiones, Estado Civil, etc.)
2.- Cuantitativos : Registro de una
característica a través de un conteo o una
medición. Las operaciones posibles son los
promedios y las medidas de dispersión, entre
otras.

Las variables cuantitativas pueden ser:

- DISCRETA : Cuando la variable sólo puede


tomar determinados valores dentro de una
escala de valores. Proviene de un conteo.
Ejemplo: Número de emergencias médicas por
día.
- CONTINUA : Cuando la variable puede tomar
cualquier valor, dentro de una escala de
valores. Provienen de una medición.
Ejemplo: Tiempo de permanencia de un paciente
en un consultorio externo
RESUMEN DE CLASIFICACIÓN DE
VARIABLES

  CONTÍNUAS
 
 NUMÉRICAS 
 cuantitativas 
  DISCRETAS

VARIABLES 


 DICOTOMICAS
 
 CATEGORICAS  ORDINALES
 cualitativas 
  NOMINALES
ESCALAS DE MEDIDA O MEDICION:

DEFINICION

Una escala es un patrón convencional de medición, y


básicamente consiste en un instrumento capaz de
representar con gran fidelidad verbal, gráfica o
simbólicamente el estado de una variable
TIPOS DE ESCALAS DE MEDIDA O
MEDICION:

a) Escala Nominal o Intensiva: variables cualitativas


nominales.

b) Escala Ordinal: variables cualitativas ordinales.

c) Escala de Intervalo: cuantitativo (P. ej. la Tº).

d) Escala de Proporción o Razón: cuantitativo


(Ej. Talla, peso, nivel de glucosa).
Escalas de Medición
a) Escala Nominal:

• La escala de medida nominal, consiste en la asignación arbitraria


de números o símbolos a cada una de las diferentes categorías en
las cuales podemos dividir el carácter que observamos, sin que
puedan establecerse relaciones entre dichas categorías.

Ejemplo

Sexo 1:Masculino 2:Femenino


Especialidad 1:Clínico 2:Cirugía
b) Escala Ordinal:

• En caso de que puedan detectarse diversos grados de un


atributo o propiedad de un objeto, la medida ordinal es la
indicada, puesto que entonces puede recurrirse a la propiedad
de "orden" de los números asignándolo a los objetos en estudio
de modo que, si la cifra asignada al objeto A es mayor que la de
B, puede inferirse que A posee un mayor grado de atributo que B.

Ejemplo:

• Calificación : A,B,C,D A>B


• Lugar : 1º , 2º , 3º 1º > 2º
• Grado de
deshidratación : I, II, III, IV I>II
c) Escalas de intervalos iguales:

• Se basa en la afirmación de la existencia de un continuo, seccionable en partes


iguales, en donde cada parte seccionada contiene la misma cantidad de
unidades que cualquier otra sección.
• Es importante destacar que el punto cero en las escalas de intervalos iguales
es arbitrario, y no refleja en ningún momento ausencia de la magnitud que
estamos midiendo.
• Esta escala, además de poseer las características de la escala ordinal,
encontramos que la asignación de los números a los elemento es tan precisa
que podemos determinar la magnitud de los intervalos (distancia) entre todos
los elementos de la escala.

Ejemplo:
Año 0
Hora 00:00
Temperatura 0ºC
d) Escala de coeficientes o Razones:

• El nivel de medida más elevado es el de coeficientes o razones, y


se diferencia de las escalas de intervalos iguales únicamente por
poseer un punto cero propio como origen; es decir que el valor cero
de esta escala significa ausencia de la magnitud que estamos
midiendo.
• Además, siendo que cero ya no es arbitrario, sino un valor absoluto,
podemos decir que A. Tiene dos, tres o cuatro veces la magnitud de
la propiedad presente en B.

Ejemplo:
Ingreso mensual : S/.00.
Nº de hijos : 0
Procesos deficientes : 0
Ejercicio Aplicativo 1
En un programa para la detección de hipertensión en una muestra de 30
hombres en edades entre 30 y 40 años, la distribución de la presión
diastólica (mínima) en mm Hg fue la siguiente:

70 85 85 75 65 90 110 95 90 70

60 75 80 120 85 95 90 70 100 65

80 90 95 90 95 110 100 85 80 75

Cual es el Marco Poblacional:


Cual es la Población:
Cual es el Marco Muestral:
Cual es la Muestra:
Cual es el Elemento o individuo
Cual es el dato
Que tipo de variable es:
Cual es la Unidad de Media..
Ejercicio Aplicativo 2

En un Centro Médico se desea


estimar el número promedio diario de
procesos que no cumplen las normas
de calidad. Con este fin se elige por
sorteo 10 días laborales del último
mes. En uno de los días elegidos se
registraron 32 procesos médicos
deficientes.
En esta situación, identifique:

La característica : Número de procesos deficientes por día.

La unidad elemental : Un día (laboral).

El marco poblacional : Número de días (laborales) que


viene funcionando el Centro Médico.

La población : Registro diario de procesos médicos


deficientes en todo el tiempo que
viene funcionando el Centro Médico.

El marco muestral : Diez días laborales (elegidos al azar)


La muestra : Registro diario de procesos
deficientes durante los 10 días
elegidos al azar.

Tipo de dato : Variable cuantitativa discreta

Un dato registrado : 32

La unidad de medida : Procesos

El estimador : Media aritmética muestral ( x)


El parámetro : Media aritmética poblacional (µ)
BIOESTADISTICA 2

PRESENTACION DE
DATOS
EFECTUADA LA RECOLECCION DE DATOS, ESTOS DEBEN
SEGUIR LOS SIGUIENTES PASOS:

1) DESCRIPCION
2) ANALISIS
3) GENERALIZACION

PARA LA DESCRIPCION SE UTILIZAN TRES FORMAS DE


PRESENTACION:

• TABULAR
• GRAFICA
• RESUMEN NUMERICO
PARTES DE UNA TABLA
 TITULO
 TALON
 CUERPO
 NOTAS EXPLICATIVAS
TITULO

TALON

CUERPO

NOTAS EXPLICATIVAS
TABLAS ESTADISTICAS

• Exponen la información recogida en la muestra de manera


inteligente:

– Frecuencias absolutas: Contabilizan el número de


individuos de cada modalidad.

– Frecuencias relativas (porcentajes unitarios): Ídem, pero


dividido por el total, normalizadas.

– Frecuencias acumuladas absolutas y relativas: Acumulan


las frecuencias absolutas y relativas. Son especialmente
útiles para calcular cuantiles (como veremos más adelante).
Ejercicio Aplicativo 3
Ordenamos los datos en forma creciente:
60 65 65 70 70 70 75 75 75 80

80 80 85 85 85 85 90 90 90 90

90 95 95 95 95 100 100 110 110 120

La amplitud total : A = 120 – 60 = 60

Número de clases: K = 30 = 5.48 Aprox. 6 clases

Extensión del intervalo : H = A/ K = 60/6 = 10

En este caso , entonces, la tabla de frecuencias tendrá aprox. 6 clases de amplitud 10 unidades
en cada clase.
TABLA DE FRECUENCIAS

Variable Frecuencia Frecuencia Frecuencia Frecuencia


normalizada acumulada acumuada norm.
x f fr F Fr
60 - 69 3 0.1 3 0.1

70 - 79 6 0.2 9 0.3

80 - 89 7 0.23 16 0.53

90 - 99 9 0.3 25 0.83

100 - 109 2 0.07 27 0.90

110 - 119 2 0.07 29 0.97

120 - 129 1 0.03 30 1.00

total 30 1.0
TIPOS DE
GRÁFICOS
PARTES DE UN GRAFICO
 TITULO
 ESCALAS
 GRAFICO PROPIAMENTE DICHO
 NOTAS EXPLICATIVAS

GRAFICO PROPIAMENTE
DICHO

NOTAS EXPLICATIVAS
Gráficos de barra
CARGO
Se utilizan para representar OPERARIO GENERAL

variables de tipo
OPERADOR DE MAQUINA
AUTOMATICA
DESPACHADOR DE PRODUCTO
cualitativa, por lo general TERMINADO LOCAL
OPERADOR DE DOBLE FILO
de nivel nominal. OPERARIO GENERAL
OPERADOR DE DOBLE FILO

CARGO Frec

Para graficarla, la variable debe OPERARIO GENERAL


OPERADOR DE MAQUINA
145

10
haberse resumido previamente en AUTOMATICA
DESPACHADOR DE PRODUCTO
una tabla de frecuencias... TERMINADO LOCAL
8

OPERADOR DE DOBLE FILO 4


OPERADOR DE MAQUINA ST 12
OPERADOR DE SERVICIOS
1
GENERALES
OPERADOR GRAL. ALMACEN
MATERIA PRIMA Y PRODUCTOS 5
TERMINADOS
Gráficos de barra
Elaborado con el Asistente para gráficos de Excel,
el gráfico puede verse como el que se muestra...
203 operarios clasificados en

160
145
140

120
Núm ero de operarios

100

80

60

40

20 10 12
8 5
4 1
0
OP ERARIO GENERAL OP ERADOR DE MAQUINA DES P ACHADOR DE OP ERADOR DE DOBLE OP ERADOR DE MAQUINA OP ERADOR DE S ERVICIOS OP ERADOR GRAL.
AUTOMATICA P RODUCTO TERMINADO FILO ST GENERALES ALMACEN MATERIA
LOCAL P RIMA YP RODUCTOS
TERMINADOS

Tipo de operario

Las barras están separadas entre si, y el ancho de las mismas no


es representativo
Diagrama de Pareto

Se trata de una variante del gráfico de barras,


en el que la tabla de frecuencias está
ordenada de mayor a menor ...
203 operarios clasificados en

160
145
140

Este gráfico coloca los


valores con mayor
120
Número de operarios

100
frecuencia hacia la
80
izquierda y los de
60
menor frecuencia a
40 la derecha
20 12 10 8 5 4 1
0
OP ERARIO GENERAL OP ERADOR DE MAQUINA OP ERADOR DE MAQUINA DES P ACHADOR DE OP ERADOR GRAL. OP ERADOR DE DOBLE OP ERADOR DE S ERVICIOS
ST AUTOMATICA P RODUCTO TERMINADO ALMACEN MATERIA FILO GENERALES
LOCAL P RIMA YP RODUCTOS
TERMINADOS

Tipo de operario
Gráficos circulares

Al igual que los gráficos de barra, se utilizan para representar


variables de tipo cualitativa, generalmente para representar
distribuciones porcentuales respecto a una clasificación.
203 operadores según tipo

1%
2%
3%
4%
OPERARIO GENERAL
5%

OPERADOR DE MAQUINA ST
6%
OPERADOR DE MAQUINA AUTOMATICA

DESPACHADOR DE PRODUCTO TERMINADO


LOCAL
OPERADOR GRAL. ALMACEN MATERIA
PRIMA Y PRODUCTOS TERMINADOS
OPERADOR DE DOBLE FILO

OPERADOR DE SERVICIOS GENERALES


79%

Excel brinda diferentes opciones respecto a la información mostrada


Gráficos para variables cualitativas

 Pictogramas

 Fáciles de entender.
 Cada modalidad debe
ser proporcional a la
frecuencia.
Gráficos para variables cuantitativas
DISCRETAS Ejemplo de variable
discreta
GRAFICO DE GRAFICO INTEGRAL
BARRAS Se lanzan tres monedas al aire
en 8 ocasiones y se contabiliza el
número de caras, X,
obteniéndose los siguientes
resultados:

2,1,0,1,3,2,1,2

Representar gráficamente el
resultado.

Solución: En primer lugar


observamos que la variable X es
cuantitativa discreta,
presentando las modalidades:
0,1,2,3
Histogramas
Se utilizan para representar un conjunto de datos
cuantitativos continuos. En general se requiere
previamente el cálculo de una tabla de
frecuencia, y su posterior representación.

máximo 16,61
mínimo 10,92
rango 5,69
épsilon 0,0569 % 1
n 203 Resultado Evaluación
k 8,67 Sturges 9
h 0,64 70
60
Frecuencia
50
Operadores

10,89
40
11,53 1
30
12,17 8
12,81 13 20
13,45 37 10
14,08 53 0
14,72 46 10,89 11,55 12,22 12,88 13,54 14,21 14,87 15,53 16,20
15,36 24
Salarios en miles de Bs.
16,00 17
16,64 4
Polígonos de frecuencia

Están vinculados al histograma porque trabajan


con la misma información.
Con dos pequeños cambios se
Resultado Evaluación puede convertir un histograma
60 en este polígono.
50
Operadores

40
30
20
10
0
11,21 11,85 12,49 13,13 13,77 14,40 15,04 15,68 16,32
No es un gráfico muy difundido
Salarios en miles de Bs. a pesar de sus ventajas sobre
el histograma.

Permite comparar varios conjunto de datos


Ojiva
También se vincula a los histogramas, ya que usa
la información de la tabla de frecuencia (frecuencia
acumulativa) para generar un gráfico muy usado
para hacer estimaciones y generar respuestas

Ojiva
Resultado Evaluación

1,2
1
Operadores

0,8
0,6
0,4
0,2
0
11,53 12,17 12,81 13,45 14,08 14,72 15,36 16,00 16,64
Salarios en miles de Bs.

Asimismo permite comparar varios conjunto de datos


Gráficos de caja
Son gráficos muy simples que ayudan, entre otras
cosas, a comparar la dispersión de dos o mas grupos
de datos.

Cuartil 1 Cuartil 3
máximo

mínimo
mediana
• Si la mediana está muy cerca del Q1, se dice que existe un sesgo
positivo.

• Si la mediana está muy cerca del Q3, se dice que existe un sesgo
negativo

• Si la mediana está en el centro entre Q1 y Q3, se dice que la


distribución es simetría en el 50% de los datos centrales

Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3
(M) (M) (M)

- +
Distintos diagramas de
dispersión
Diagrama de Tallos y Hojas

Es un diagrama donde cada valor


de datos es dividido en una “hoja”
(normalmente el último dígito) y
un “tallo” (los otros dígitos). Por
ejemplo el valor 32 seria dividido
en “3” (tallo) y “2” (hoja).
Gráficos temporales

Se utilizan para representar series de datos donde


el eje horizontal está representado por el tiempo, es
decir la variable evoluciona en el tiempo.
Energía Consumida Mensual

8.000
7.500
7.000
GWh

6.500
6.000
5.500
5.000
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35
Meses

Estos gráficos son útiles para explorar datos donde no hay


relaciones causales conocidas con otras variables
Diagrama máximo – mínimo

Útil para visualizar movimientos en el valor de cierta variable,


dentro de un periodo de tiempo establecido
Ejemplo: Variación en el número de emergencias diarias por semana. Julio
1998
100
90
80
70
60
50
40
30
20
10
0
1ra. Semana 2da. Semana 3ra. Semana 4ta. Semana

Fuente: Hoja de registro, julio 1998


RESUMEN DE GRAFICAS
ESTADISTICAS
ESTADISTICA DESCRIPTIVA I
ESTADISTICA SUMARIA O DE RESUMEN
(A) Las medidas de tendencia central

• Son aquellas cantidades que indican el


punto central del conjunto de datos
observado.
.

.
. . . .
. .. . . .
. . . . . . .
. . . . .
. .. . . .. . .
. . . . . . .. .
MTC . . .. .
.. . . . . .
.. .
.. . .
(A) Las medidas de tendencia central

 En general se denominan promedios.


 Los más importantes son la media, la mediana y la moda.

Aritmética

Media Geométrica
Medidas de Mediana Armónica
tendencia central Moda
1. LA MEDIA

La media aritmética ( x )

(A) Obtención: se obtiene sumando los valores registrados

y dividiéndolos por el número de


datos.
Ejemplo:

La siguiente tabla muestra el número de reclamos y quejas


presentadas por pacientes de una clínica a lo largo de una
semana. Calcule e interprete la media.
Día/Semana Lun Mar Mier Jue Vier Sab
Reclamos/día 8 10 5 12 10 15
8  10  5  12  10  15 60
Media aritmética = 
6 6

x = 10 reclamos

B) Interpretación: si elige al azar un día de la semana, se espera


que los pacientes de esta clínica realicen 10 reclamos por día.

C) Simbología:
Tamaño Media aritmética
Muestra n
x
Población N  (mu)
MEDIA ARITMETICA DE SERIES AGRUPADAS

Ejemplo:
La distribución de frecuencias siguiente, representa los
puntajes obtenidos en una evaluación del desempeño,
aplicado al personal técnico de una clínica. El puntaje máximo
en la prueba es 50. Calcule e interprete su media.

Desempeño Número de
(puntos) técnicos
12 - 16 4
17 - 21 8
22 - 26 15
27 - 31 23
32 - 36 10
TOTAL 60
Primero se calcularán las marcas de clase ( X ); es decir, el valor
intermedio de cada clase. i
Marca de Frecuencia
clase clase ( x ) absoluta (fi)
i
12 - 16 14 4
17 - 21 19 8
22 - 26 24 15
27 - 31 29 23
32 - 36 34 10

Total 60
14(4) + 19 (8) + 24 (15) + 29 (23) + 34 (10)
x 4 + 8 + 15 + 23 + 10

x 1575
60 x  26,25
Interpretación: si se elige al azar a un técnico, se espera que tenga
un puntaje de 26,25 en su evaluación de desempeño.
La media aritmética ponderada ( xp )

n
 wi Xi donde:
i 1
xp  n
 wi wi = factor de
i 1
ponderación
Xi
= datos
Ejemplo: El Hospital del Callao atiende 2,800 consultas diarias, cobrando
tres tipos de tarifas: social, diferenciada y por convenio. El número de
pacientes y el valor de cada nivel tarifario se muestra a continuación.
Calcule e interprete la tarifa media por consulta.

Tipo de Tarifa Pacientes


Tarifa S/.
Social 5 60%
Diferenciada 15 30%
Por convenio 40 10%

5(0,60 )  15(0,30 )  40(0,10 )


xp 
0,60  0,30  0,10

x p  11,5  S / .11,50
1,0
Ventajas y desventajas de la media aritmética
Ventajas:
 Concepto familiar para muchas personas
 Es única para cada conjunto de datos
 Es posible comparar medias de diferentes muestras

Desventajas
 Se ve afectada por los datos extremos
 Si la muestra es grande y los datos no están

agrupados, su cálculo es tedioso


 Si los datos están agrupados en clases con extremos
abiertos, no es posible calcular la media.
La media geométrica ( xg )
 se usa para encontrar el promedio de porcentajes,
razones, índices o tasas, como la tasa media de
crecimiento poblacional, la tasa media de inflación mensual, la
tasa media de mortalidad, entre otros.

a) Obtención: se obtiene extrayendo la raíz


enésima del producto de los n valores de
una serie.

xg  n X1  X 2  X3  ...  Xn
Otra aplicación de la media geométrica es determinar el porcentaje
promedio del incremento en ventas, producción u otros negocios
o series económicas de un periodo a otro, es decir, en los casos en los que
se supone que la variable presenta variaciones acumulativas.

b) Ventajas e inconvenientes:

- En su cálculo intervienen todos los valores de la distribución.

- Los valores extremos tienen menor influencia que en la media


aritmética.

- Es única.

- Su cálculo es más complicado que el de la media aritmética.


xh
 Se utiliza para calcular variables como
productividades, velocidades, rendimiento,
aceleración media, cambios o variaciones como el
tiempo medio para realizar un proceso médico.

a) Obtención: se obtiene calculando el inverso de la media


aritmética de los inversos de una serie.
1
xh  n 1

i 1
X
i
n
b) Ventajas e inconvenientes:

- En su cálculo intervienen todos los valores de la distribución.


- Su cálculo no tiene sentido cuando algún valor de la variable
toma valor cero.
- Es única.

Ejemplo:

Los siguientes datos registran el tiempo que utilizan


cuatro pacientes al realizar una consulta con su médico.
Calcule e interprete el tiempo medio.

Pacientes A B C D
Tiempo (minutos) 45 38 52 40
4 4
xh  1 1 1 1

1976  2340  1710  2223
  
45 38 52 40 88920

4  88920
xh  8249  43,117953 minutos

xh  43 minutos 7 segundos

b) Interpretación:
Si se selecciona al azar a uno de los cuatro
pacientes, se espera que realice la consulta con su
médico en 43 minutos aproximadamente.
Es la medida que divide en dos subconjuntos
iguales a datos, de tal manera que 50% de los
datos es menor a la mediana y el otro 50% es
mayor a la mediana.

a) Obtención: Se obtiene ordenando la serie de


datos (en forma ascendente o descendente) y
ubicando el dato central.
Ejemplo:
Los siguientes datos se refieren al número de niños atendidos
durante los últimos 11 días en un Servicio de Emergencia
Pedriáticas del Hospital de Huacho. Calcule e interprete la
mediana.

12, 10, 5, 15, 8, 11, 13, 8, 10, 17, 16

Primero se ordenan los datos:

5, 8, 8, 10, 10, 11, 12, 13, 15, 16, 17


5 datos menores 5 datos mayores

mediana
b) Interpretación: Durante 5 días se atendieron a menos de 11
pacientes, y durante 5 días se atendieron a más de 11
pacientes.

c) Reglas
1º Si la serie es impar, la mediana ocupa el lugar central de la
serie previamente ordenada.

Ejemplo: 5, 10, 10, 12, 15 , 17, 20, 21, 24


2º Si la serie es par, la mediana se obtiene de la semisuma de los dos
valores centrales de la serie previamente ordenada.

Ejemplo:
8, 10, 14, 18, 23, 24, 32, 34
18  23
mediana   20,5
2
 n  1
3º Sea la serie par o impar, la mediana ocupa el lugar,  
 2 
de la serie previamente ordenada.
d) Ventajas y desventajas de la mediana

Ventajas:

 Los valores extremos no afectan a la mediana como en el caso de la

media aritmética.

 Es fácil de calcular, interpretar y entender.

 Se puede determinar para datos cualitativos.

Desventajas:
 Como valor central, se debe ordenar primero la serie de datos.
 Para una serie amplia de datos no agrupados, el proceso de
ordenamiento de los datos demanda tiempo y usualmente provoca
equivocaciones.
La moda es el valor que más se repite dentro de un conjunto de
datos.
a) Obtención: se obtiene organizando la serie de datos y
seleccionando el o los datos que más se repiten.

Ejemplo:

4, 5, 7, 8, 8 , 10, 12, 15

4, 7, 12,12 , 15, 16, 20, 20 , 24, 27

7, 12, 15, 18, 25, 30, 31, 38


b) Ventajas y desventajas de la moda.
Ventajas:
 Se puede utilizar tanto para datos cualitativos como
cuantitativos.
 No se ve afectada por los valores extremos
 Se puede calcular, a pesar de que existan una o más
clases abiertas.
Desventajas:
 No tiene un uso tan frecuente como la media.
 Muchas veces no existe moda (distribución amodal).
 En otros casos la distribución tiene varias modas, lo que
dificulta su interpretación.
Son los:

Cuartiles: Se denomina asi a los 3 valores que dividen la


distribución ordenada de datos en 4 partes iguales. El primer
cuartil dejará a un lado la cuarta parte del colectivo, y al otro
las tres cuartas partes, el segundo coincidirá con la mediana y
el tercero dejará tres partes a un lado y la cuarta al otro.

Deciles: Se denomina así a los 9 valores que dividen la


dsitribución ordenada de datos en 10 partes iguales.

Percentiles: Se denomina así a los 99 valores que dividen la


distribución ordenada de datos en 100 partes iguales.
Son los valores que dividen en 100 partes iguales a un conjunto de datos
a) Cálculo: para datos agrupados.

 Kn 
 F 1  donde:

P  L 
 100
c
P
K : percentil
K i  f  K : el percentil por calcular
P
 K  n : número de datos
F : frecuencia acumulativa
hasta la clase anterior a la

clase donde se ubica el


f percentil K
P
K
: frecuencia absoluta de
la

c clase donde se ubica el


percentil K
: amplitud de clase
Ejemplo:
La tabla muestra la experiencia (en años) del personal médico de un gran
hospital.

Experiencia Personal
(años) Médico
0-3 18
4-7 42
8 - 11 68
12 - 15 120
16 - 19 40
20 - 23 34
24 - 27 12
Total 334
¿Sobre cuántos años se ubica el 25% de los médicos de mayor
experiencia?

75 % 25 %

P75
Menor Mayor
Experiencia Experiencia

K = 75

Kn 75(334)
Lugar del P75    250,5 (de los números ordenados)
100 100

Para saber en qué clase se halla este dato, se calculó la


frecuencia acumulativa.
Experiencia Nº Trabajadores Frec. Acumulada
(años) fi Fi
0-3 18 18
4-7 42 60 F=248
8 - 11 68 128
12 - 15 120 248
En esta clase
16 - 19 40 288 se ordenan del
20 - 23 34 322 249º - 288º
24 - 27 12 334
Total 334

 75(334)  248  1


 100  P75  15,65 años
P  15,5  4
75  40 
 

Interpretación: Para que un médico esté comprendido en el 25% de


mayor experiencia laboral debe tener al menos 15 años, 7 meses y 24
días.
Otro ejemplo:

En el Hospital Dos de Mayo los pesos de RN durante el año 2009 variaron


entre los 1500 gr hasta los 4,500 gr. Diga usted que porcentaje de niños
tuvieron un peso mayor de 3000 gr si se sabe que este peso corresponde
al percentil 80 de la serie total de RN durante el 2009?

p80

1500 gr 4500 gr
3000 gr
ESTADISTICA DESCRIPTIVA II
ESTADISTICA SUMARIA O DE RESUMEN
(C) Medidas de Dispersión

Llamadas también medidas de variabilidad


Son útiles porque:

 Permiten juzgar la confiabilidad de la medida de tendencia central.

 Los datos demasiados dispersos tienen un comportamiento especial.

 Es posible comparar dispersión de diversas muestras.


1. EL RANGO (R)

Llamado también amplitud o alcance.

a) Obtención: se obtiene de la diferencia entre el


dato mayor y el dato menor más una unidad
significativa, a fin de incluir ambos valores
extremos.
Ejemplo:

Los siguientes datos representan el peso de 10 niños al


nacer, (en kg.). Calcule e interprete el rango.
2,860 3,150 3,450 2,950 3,780
4,170 3,920 3,280 4,050 3,120

Rango = (4,170 - 2,860) + 1


Rango = 1,311 kg..
b) Interpretación
La diferencia entre el bebe de mayor peso y el bebe menor peso es 1,311 kg.

c) Cálculo a partir de datos agrupados


Se utiliza la siguiente formula:

donde:
R = (Ls - Li ) + 1
: Limite superior de la
L clase
última
s
: Limite inferior de la
L
primera clase
i
RANGO EN SERIE DE DATOS AGRUPADOS

Ejemplo:
La distribución de frecuencias siguiente representa el tiempo
que demora un paciente en obtener una cita en un hospital.
Calcule e interprete el rango

Tiempo Rango = (36 - 12) + 1


(minutos) Nº de Pacientes
12 - 16 4
17 - 21 8 R = 25 minutos
22 - 26 15
27 - 31 23
32 - 36 10
Total 60

Interpretación: la diferencia de tiempo entre el paciente que más


demora en obtener una cita y el que menos demoró es 25
minutos.
d) Ventajas y desventajas del rango

Ventajas
 fácil de calcular
 fácil de entender e interpretar

Desventajas
 sólo considera los valores extremos
 no toma en cuenta ni el número de datos ni el valor de
éstos
 no es posible de calcular en tablas con extremos
abiertos.
2. EL RANGO INTERCUARTIL O ALCANCE INTERCUARTIL

Permite ubicar 50% de


los datos que se
encuentran en el centro
de la distribución, es
decir, 25% de los datos
son menores al primer
cuartil y también 25%
de los datos son
mayores al tercer
cuartil.

RI  Q3  Q1
Ejemplo:

La tabla muestra la experiencia (en años) del


personal médico de un gran hospital.
Experiencia
Médicos
(años)
A) ¿Entre qué valores
0-3 18 18
se encuentra el 50%
4-7 42 60 intermedio de estos
8 - 11 68 128 datos?
12 - 15 120 248
16 - 19 40 288 B) ¿Cuál es el rango
20 - 23 34 322 intercuartílico?
24 - 27 12 334
Total 334
50 %
25 % 25 %

Q1 Q3
Rango
Intercuartílico

25(334)
Lugar Q1  P25   83,5 se ubica en la 3ra clase
100

 25(334)  60  1


Q  7,5 
 100 4 Q  8,82 años
1  68  1

 
75(334)
Lugar Q3  P75   250,5o se ubica en la 5ta clase
100

 75(334)  248  1


 100  Q  15.65 años
Q  15,5  4
3  40  3
 

A) El 50% del personal médico con experiencia intermedia se


encuentran entre 8,82 y 15,65 años.

B) El rango intercuartílico es 6 años 10 meses


aproximadamente
3. Desviacion Media

Permite calcular la desviación media de todos los datos respecto a su


media aritmética. Es la Media Aritmética de las desviaciones absolutas de
cada valor a la media.

A cada dato se le resta la Media Aritmética sin hacer caso de los signos
negativos (valor absoluto), y se divide luego por el número total de términos.

DM =
 (Xi – X)
-----------
n

Calcular la desviación media de la distribución:


Ejemplo
9, 3, 8, 8, 9, 8, 9, 18
4. La varianza

Es una medida de desviación promedio con


respecto a la media aritmética

a) Cálculos a partir de datos no agrupados.


n 2

2
 (X  x ) i
para una muestra S  i 1

n 1

N 2
 (X   )
para un población 2

i


i 1

N
Ejemplo:
La siguiente información se refiere al número de quejas recibidas en un
Centro Médico durante una semana. Calcule la varianza de 8, 10, 5, 12, 10,
15.
Elaboramos un cuadro de la forma siguiente
x Xi  x X i  x
2

8 8 - 10 = - 2 4
0 60
10 10 - 10 = 0
x
5 5 - 10 = - 5 25 6
12 12 - 10 = 2 4

10 10 - 10 = 0 0
15 15 - 10 = 5 25 x  10
 X i  x   0  Xi  x   58
2
 X  60

 X i  x   58
2

 (X i  x )
2

2
 2 58
S n 1 S   11,6 quejas 2
6 1
5. La desviación estándar
Es la raíz cuadrada de la varianza, sea poblacional o muestral.

Es una medida de dispersión en relación a la media

a) Cálculos a partir de datos no agrupados

Para la muestra n 2
 (X i  x)
i 1
S s2 
n 1
Para la población
N
 (X i   )
2

  2  i 1
N
Ejemplo:

La siguiente información se refiere al número de quejas recibidas en


un Centro Médico durante una semana. Calcule la desviación
estándar.

8, 10, 5, 12, 10, 15

Ya sabemos por el ejemplo anterior que S2 = 11,6 quejas2.


Entonces:
2
S s

S  11,6 quejas 2

S  3,4 quejas
6. El coeficiente de variación ( de Pearson)

Es una medida de variabilidad relativa de los datos,


permite comparar la variabilidad de dos o más
conjuntos de datos expresados en unidades
diferentes (peso; kg. y libras).

a) Calculos a partir de datos no agrupados

CV
s
  100
Para la muestra: x


CV   100
Para la población: 
Ejemplo:

A continuación se presentan las ventas (en unidades


monetarias) logradas durante una semana por dos farmacias.
La farmacia I vende en soles y la farmacia II en dólares ¿Cuál
de ellos tiene un desempeño más estable, en cuanto a nivel
de ventas?.

Farmacia I (soles) Farmacia II (dólares)

40,70,60,48,52,65,58 70,35,150,140,82,110,140,120

Calculamos la media y desviación estándar para cada una de


las farmacias
Farmacia I n
 Xi
393
x  i 1
  56,14
n 7

x Xi  x Xi  x  2

40 -16,14 260,50
70 13,86 192,10
60 3,86 14,90
48 -8,14 66,26
52 -4,14 17,14
65 8,86 78,50
58 1,86 3,46
 X  393  Xi  x   0  Xi  x 
2
 632,86
Si  Xi  x   632,86
2

n
2
 ( Xi  x )
i 1 632,86
S   10,27
n 1 7 1

S
CV   100
x
10,27
CV   100  18,29
56,14
Farmacia II
n
 Xi
i 1 847
x    105,87
n 8
x Xi  x Xi  x  2

70 -35,87 1286,6569
35 -70,87 5022,5569
150 44,13 1947,4569
140 34,13 1164,8569
82 -23,87 569,7769
110 4,13 17,0569
140 34,13 1164,8569
120 14,13 199,6569

 X  847  Xi  x   0,04  Xi  x 


2
 11372,88
n
Si  2
 Xi x  11372,88

i 1
n
2
 i
( X  x )
i 1 11372 ,88
S   40,30
n 1 8 1

S 40,30
CV   100 CV   100  30,06
x 105,87

La farmacia II presenta una mayor variabilidad en el volumen de


ventas.
(D) Simetria o sesgo
• Una distribución es simétrica si la
mitad izquierda de su distribución es la
imagen especular de su mitad
derecha.

• En las distribuciones simétricas media


y mediana coinciden. Si sólo hay una
moda también coincide.

• La asimetría es positiva o negativa en


función de a qué lado se encuentra la
cola de la distribución.

• La media tiende a desplazarse hacia


las valores extremos (colas).

• Las discrepancias entre las medidas


de centralización son indicación de
asimetría.
 Las curvas sesgadas son aquellas cuyos
valores están concentrados en el extremo
inferior o superior de la escala de medición del
eje horizontal. La “cola” indica el tipo de sesgo.
E) Apuntamiento o curtosis (kurtosis)

• La curtosis nos indica el grado de apuntamiento (aplastamiento) de una


distribución con respecto a la distribución normal o gaussiana.
Es adimensional.
Los gráficos poseen la misma media y
• Platicúrtica: curtosis < 0
desviación típica, pero diferente grado
• Mesocúrtica: curtosis = 0
• Leptocúrtica: curtosis > 0 de apuntamiento o curtosis.

160 300 400

140
300

200
120

200
100

100
80
100
Frecuencia

Frecuencia
Frecuencia

60

0 0
27 37 45 53 61 69 77 85 93 3 27 37 47 57 67 77 87 97 108
40
45 48 51 54 57 60 63 66 69 72 75 78 81 84 32 41 49 57 65 73 81 89 99 16 32 42 52 62 72 82 92 102 138

Platicúrtica Mesocúrtica Leptocúrtica


 Cuando medimos la curtósis nos referimos al
grado de agudeza. Pueden ser: leptocúrtica
(concentración al centro) mesocúrtica (distribuidos
simétricamente) platicúrtica (aplanada).
BIOESTADISTICA 5

ESTADISTICA INFERENCIAL I:

TEORIA DE
PROBABILIDADES
CONCEPTOS PREVIOS

El concepto de probabilidad
nace con el deseo del
hombre de conocer con
certeza los eventos.

La teoría de la probabilidad es la teoría matemática que calcula los


fenómenos aleatorios, los que se obtienen como resultado de
experimentos realizados, bajo las mismas condiciones determinadas pero con
múltiples resultados posible s, por ejemplo, el lanzamiento de un dado o de un
dardo.

Estos son contrarios a los fenómenos determinísticos, los cuales son


resultados únicos y/o previsibles de experimentos realizados bajo las mismas
condiciones determinadas, por ejemplo, si se calienta agua a 100 grados
celsius a nivel del mar se obtendrá vapor.
OBJETO DE ESTUDIO DE LA TEORIA
DE PROBABILIDADES
Tipos de Probabilidades
Aunque parezca un concepto simple, debido a que es utilizado
cotidianamente de manera intuitiva , su definición formal puede ser
complicada desde el punto de vista matemático.

CLASICA o a priori

OBJETIVA

FRECUENCIA RELATIVA
PROBABILIDADES o a posteriori

SUBJETIVA o personalistica
CONCEPTOS BASICOS
(A) Experimento: Ejecución voluntaria de un fenómeno.

Se caracteriza por:
– Esta constituido por repeticiones independientes (Pruebas)
– tener varios resultados posibles
– existir incertidumbre sobre el resultado.

Ejemplos:
a) Lanzar una moneda
b) Seleccionar un frasco de un lote de medicamentos
c) Extraer una muestra de sangre a una persona
(B) Espacio Muestral: conjunto de todos los
resultados posibles de un experimento. Se simboliza
por (omega).

Ejemplos:

a) Lanzar una moneda


= {cara, sello}
b) Seleccionar un frasco de un lote de medicamentos.
={adecuado, inadecuado}
c) Extraer una muestra de sangre a una persona.
= {grupo sanguíneo: A, B, O, AB}
(C) Suceso: subconjunto del espacio muestral,
seleccionado de acuerdo a una condición (“lo que
se espera que ocurra”). Se representan por letras
latinas mayúsculas.

Ejemplo: En la evaluación de las tres dolencias


={XYZ, XYZ´, XY´Z, XY´ Z´, X´YZ ,X´YZ´, X´Y´Z , X´Y´Z´),

A: Tenga por lo menos la dolencia X


A = XYZ, XYZ´, XY`Z, XY´Z´
B: Tenga a lo mucho la dolencia Z
B =  X´Y´Z, X´Y´Z´ 
C: Tenga exactamente dos dolencias
C =  XYZ´, XY´Z, X´YZ 
127

Ejemplos:

1. Se lanza una moneda


={cara, sello}
P(cara) = 0,5 P(sello) = 0,5

2. Se realizan 3 análisis de sangre a fin de determinar si


padecen de hepatitis
 = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
A: exactamente 2 pacientes tengan hepatitis
A = {CCS, CSC, SCC}
1/8 + 1/8 + 1/8
P(A) = 3/8
PRINCIPIOS DE LA PROBABILIDAD
CLASICA
(A) Concepto: Ponderación asignada a cada punto muestral que mide
la verosimilitud de su ocurrencia.

(B) Principios para asignar probabilidad:


a) La probabilidad de cada punto muestral debe estar entre 0 y 1
b) La suma de las probabilidades de todos los puntos muestrales
deben ser iguales a 1.

0 1
poco muy
verosímil verosímil

(C) Regla de LAPLACE: La probabilidad de un suceso aleatorio es el


cociente entre el número de casos favorables al suceso
específico entre todos los posibles resultados del experimento.

P (suceso a) = sucesos a posibles / Espacio muestral


(D) Conclusiones: De acuerdo a la definición de probabilidad de un suceso,
y a los dos principios, tenemos las siguientes conclusiones:

(1º) P() = 1

(2º) P( ) = 0

(3º) P(A´) = 1 - P(A)

E) Probabilidad Marginal: Es la probabilidad de cada evento independiente.

F) Probabilidad Compuesta: Es la probabilidad que se presenten 2 o mas


eventos
concurrentemente
Diagramas de Venn
A A
B B

E E

Unión A  B Intersección A  B

(A o B) (A y B)
CUATRO TIPOS DE PROBABILIDAD
Compuesta o Conjunta

Marginal Unión Intersección Condicional

131
P( X ) P( X  Y ) P( X  Y ) P( X | Y )
La probabilidad La probabilidad La probabilidad La probabilidad
de que ocurra de que ocurra de que ocurra de que ocurra
X XoY XeY X sabiendo que
ha ocurrido Y

X X Y X Y
Y

Regla de Laplace Regla de Suma Regla de Multiplicación


REGLAS PARA PROBABILIDADES CONJUNTAS

(A) Regla de la Adición para eventos no excluyentes


El evento A y el evento B no son excluyentes, por ejemplo
el grupo sanguíneo y el género.

¿Porque se resta la intersección?

A B
A B
a g
b c e h
f i
d
U
(A B)
6 5
U 11 = 9
P(AUB) = P(A) + P(B) - P (A B)
Ejemplo:

Un paciente ingresa a una farmacia. La


probabilidad de que compre (a) un analgésico es
0,60 (b) un descongestionante es 0,50, y (c) un
analgésico y un descongestionante es 0,30 ¿Cuál
es la probabilidad de que compre un analgésico, un
descongestionante o ambos?.

P(A) = 0,60 U
P(AUD) = P(A) + P(D)(A- P D)
P(D) = 0,50
U P(AUD) = 0,60 + 0,50 - 0,30
P(AUD) = 0,80
P (A D) = 0,30
(B) Regla de la Adición para eventos excluyentes

Dos sucesos son mutuamente excluyentes, si no tienen elementos comunes


es decir un evento no permite la presencia del otro.

La probabilidad que se presente 02 eventos mutuamente excluyentes es


igual a la probabilidad que se presente un evento “o” el otro.

Por ejemplo:

El grupo sanguíneo A y O no pueden estar en una misma persona.

A B  P(AUB) = P(A) + P(B)

(A B) = 
U
Si :
Por lo tanto : U
P(A B) = 0
Ejemplo:

La probabilidad que un paciente sea intervenido


quirúrgicamente del corazón es 0,2 y de los
riñones es 0,3 ¿Cuál es la probabilidad de que un
paciente cualquiera haya tenido una intervención al
corazón o a los riñones?

P(C) = 0,2
P(R) = 0,3 P(CUR) = P(C) + P(R)
= 0,2  0,3
P(CUR) = 0,5
(C) Regla de Multiplicación para procesos dependientes
(probabilidad condicional)
El evento A y el evento B son dependientes, es decir, la Probabilidad que
ocurra A esta relacionado a que “se de” el evento B o visceversa.

Evento esperado

P(A  B)
A partir de P( A )
B P(B)
“dado que” condición

Se despeja

P(A  B)  P(B)  P(A )


B
Aplicación:

Se sabe que en un lote de diversos medicamentos de 50 frascos,


hay 4 que no cumplen las especificaciones (con fecha de vencimiento
expirada). Si se extraen al azar 2 frascos, uno a continuación del
otro (sin reemplazarlo), ¿cuál es la probabilidad de que ambos
estén vencidos?.

4
P(V1 ) 
50
P(V1  V2 )  P(V1 )  P(V2 )
V1
V2 3
P( )
V1 49
4 3 12
=  
50 49 2450
(D) Regla de Multiplicación para procesos independientes

Los sucesos A y B se consideran independientes


cuando la ocurrencia de uno no influye sobre la
probabilidad de ocurrencia del otro; esto significa
que, independientemente de que A haya ocurrido o
no, la probabilidad asignada a B es siempre la
misma.

Por ejemplo: los Grupos Sanguíneos y el Género.


Entonces, P (A )  P(A)
B
La “condiciòn” no existe o no influye por lo
tanto no se toma en cuenta (se elimina del
cálculo)
Por lo tanto:

P(A  B)  P(B)  P(A )  P (A  B)  P (B)  P (A )


B
Ejemplo: ¿Cuál es la probabilidad de que
en una familia con dos hijos, ambos sean
varones?

P (V1 )  0,5
P (V2 )  0,5
P (V1  V2 )  P (V1 )  P (V2 )

= (0,5) (0,5)

P (V1  V2 )  0,25
Ejemplos de Probabilidad Condicional

Es la Probabilidad que se presente un evento “A” “dado


que” se presente un evento “B”

Ejemplo: La siguiente tabla muestra el sexo de 50 pacientes de un


hospital, así como su condición de ¨nuevo¨ (si asiste por primera
vez) o ¨repetidor¨ (si no es la primera vez que asiste)

Condición Paciente Paciente


Sexo Nuevo Repetidor Total
Masculino 18 12 30
Femenino 13 7 20
Total 31 19 50

Si se selecciona un paciente al azar:


A) ¿Cuál es la probabilidad que sea varón?
30
P(V ) =  0,60
50
La probabilidad de que un paciente seleccionado al
azar sea varón es 0,60
B) ¿Cuál es la probabilidad que sea varón y repetidor?
12
P(V  R) =  0,24
50

La probabilidad de que un paciente seleccionado al


azar sea un varón y repetidor es 0,24
C) Dado que el paciente elegido resultó ser varón, ¿Cuál es la

probabilidad que sea repetidor?


12
P( R )=  0,40
V 30
Derivación de la fórmula:
P(V  R ) Varón y repetidor
P( R )=
V P(V) Sea Varón

comprobando:
12
P( R ) = 50
V 30
50

12
P( R )=  040
V 30
Aplicación:

La probabilidad de que el personal auxiliar que labora en una


clínica llegue tarde el día lunes es 0,50 y la probabilidad de
que llegue retrasado los días lunes y martes es 0,20. Dado
que cierto trabajador llegó tarde el día lunes, ¿cuál es la
probabilidad de que llegue tarde el día siguiente?.

P(TM TL )
P(TL ) = 0,50 P(TM ) =
TL P(TL )
P(TL TM ) = 0,20
0,20
= = 0,40
0,50
ESCOGIDA AL AZAR SEA UN AS
SABIENDO QUE ES ROJA?
Color
Palo Rojo Negro Total
As 2 2 4
No-As 24 24 48
Total 26 26 52
Espacio restringido

P ( As  Rojo) 2 / 52 2
P ( As | Rojo)   
P ( Rojo) 26 / 52 26
REGLA CASERA PARA RESOLVER
PROBLEMAS DE PROBABILIDAD
1. Identificar en el problema “la pregunta” para saber sobre que tipo de probabilidad se trata.

PREGUNTA ES: AoB UNION DE CONJUNTOS “REGLA DE


SUMA”
A y B, A/B INTERSECCION DE CONJUNTOS “REGLA DE
MULTIPILICACION”

2. Si es una probabilidad para REGLA DE SUMA, preguntar si los factores son


EXCLUYENTES O NO.

SI LOS FACTORES SON: NO EXCLUYENTES : Formula 1: P (a u b) = P(a) + P (b) – P (a n b)

 EXCLUYENTES : Formula 2: P (a u b) = P(a) + P(b)

3. Si es una probabilidad para REGAL DE MULTIPLICACION, preguntar si los factores son


“DEPENDIENTES O NO”

SI LOS FACTORES SON: DEPENDIENTES : Formula 1: P (a n b) = P (a / b) x P(b)

1. NO DEPENDIENTES: Formula 2 : P (a n b) = P(a) x P(b)


TEOREMA DE BAYES (regla de combinación de probabilidades
eventos no independientes)

Consiste en una partición de la probabilidad total.

Si A 1, A 2 ,... , An son:

- Sucesos incompatibles 2 a 2.
- Y cuya unión es el espacio muestral (A1 U A2 U ... U An = E).
- Y B es otro suceso.

Resulta que:

Las probabilidades p(A1) se denominan probabilidades a priori.


Las probabilidades p(Ai/B) se denominan probabilidades a posteriori.
TEOREMA DE BAYES
Si conocemos la probabilidad de B en
cada uno de los n componentes de un
A1 A2 sistema exhaustivo y excluyente de
sucesos, entonces…

148
…si ocurre B, podemos calcular la
probabilidad (a posteriori) de
B ocurrencia de cada Ai, (i = 1, 2, ... , n):

P(B  Ai )
P(Ai|B) 
A3 A4 P(B)
donde P(B) se puede calcular usando el teorema de la probabilidad
total: n
P ( B )   P ( B  Ai )
i 1
RESÚMEN -¿Qué probabilidad
tengo de estar
enfermo?
• Al llegar un individuo a la consulta
tenemos una idea a priori sobre la - En principio un 20%.
Le haremos unas
probabilidad de que tenga una pruebas.
enfermedad.

• A continuación se le pasa una prueba


diagnóstica que nos aportará nueva
información: Presenta glucosuria o no.

• En función del resultado tenemos una - Presenta glucosuria.


nueva idea (a posteriori) sobre la La probabilidad ahora
probabilidad de que esté enfermo. es del 88%.

– Nuestra opinión a priori ha sido


modificada por el resultado de un
experimento.
LAS DISTRIBUCIONES DE
PROBABILIDAD

(A) Concepto: Es una distribución de frecuencias teórica


que describe la forma en que se espera que varíen los
resultados.
Resultan útiles para realizar inferencias y tomar decisiones
bajo incertidumbre.
Se basa en variables Cuantitativas.

“Así como las variables (datos) de las características se pueden


resumir en distribuciones de frecuencia (tablas de frecuencia) de
la misma manera los valores de una variable aleatoria se pueden
resumir en una DISTRIBUCION DE PROBABILIDADES”
(B) TIPOS DE DISTRIBUCIONES
a) DISCRETAS: La variable toma un número
limitado de valores. Abarca :

- Distribución binomial
- Distribución de Poisson

b) CONTINUAS: La variable puede tomar cualquier


valor dentro de un intervalo dado. Abarca:

- Distribución normal
- Distribución normal estándar o Z
- Distribución t
- Distribución Ji-cuadrada 2
- Distribución F
A. DISTRIBUCIONES DISCRETAS DE
PROBABILIDAD
(A) La distribución binomial (de Bernoulli)
Se utiliza para describir variables discretas que solo pueden tener dos
posibles
resultados (si/no, positivo/negativo).

Indica la probabilidad que un resultado específico se presente en un número


dado
de pruebas independientes.

a) Características:
• El experimento consiste en una serie de ensayos repetidos.
• Cada ensayo sólo tiene dos resultados posibles: éxito y fracaso.
• La probabilidad de éxito, designado por p es la misma para cada
ensayo, la probabilidad de fracaso q (igual a 1-p) es también constante.
• Los ensayos sucesivos son independientes.
• La información de la muestra se obtiene con reposición de una
población finita.
(B) Distribución de Poisson:

Si el tamaño de la muestra es grande (n>50) y la probabilidad de un


evento particular es muy pequeño y se desea hallar la probabilidad de un
número determinado de éxitos, se puede aplicar la distribución de Poisson.

•Se dice que existe un proceso de Poisson si podemos observar eventos


discretos en un área de oportunidad – un intervalo continuo (de tiempo,
longitud, superficie, etc.) – de tal manera que si se reduce lo suficiente el
área de oportunidad o el intervalo, La probabilidad de observar
exactamente un éxito en el intervalo es constante.

•La probabilidad de observar un éxito en cualquier intervalo es


estadísticamente independiente de la de cualquier otro intervalo.

•Esta distribución se aplica en situaciones como:

– El numero de pacientes que llegan al servicio de emergencia de un hospital en


un intervalo de tiempo.
– El numero de radiaciones radiactivas que se recibe en un lapso de tiempo,
– El numero de glóbulos blancos que se cuentan en una muestra dada.
– El numero de partos triples por año
B. DISTRIBUCIONES CONTINUAS
DE PROBABILIDAD
A) LA DISTRIBUCION NORMAL

Se utiliza para describir el comportamiento de una


variable continua.

Está caracterizada por dos parámetros: la media, μ


y la
desviación típica, σ.
PROPIEDADES DE LA DISTRIBUCIÓN
NORMAL:
La forma de la campana de Gauss depende de los parámetros μ y σ.
Tiene una única moda que coincide con su media y su mediana.
La curva normal es asintótica al eje de X.
Es simétrica con respecto a su media μ . Según esto, para este tipo de
variables existe una probabilidad de un 50% de observar un dato mayor
que la media, y un 50% de observar un dato menor.
Media
Mediana
Moda

La distribución normal de
probabilidad es simétrica con
respecto a una línea vertical que
pase por la media

El extremo izquierdo se extiende de


manera indefinida y nunca toca el
El extremo derecho se extiende
eje horizontal
de manera indefinida y nunca
toca el eje horizontal
Areas debajo de la curva normal

No importa cuales son los valores de  y , para una distribución de


probabilidad normal el área total bajo la curva es 1,00, de manera que
podemos pensar en áreas bajo la curva como si fuesen probabilidades.
Matemáticamente es verdad que:

1: Aproximadamente 68% de todos los valores de una población


normalmente distribuida se encuentra 1 desviación estándar de
la media.
2: Aproximadamente 95,5% de todos los valores de una población
normalmente distribuida se encuentra 2 desviación estándar de la
media.
3: Aproximadamente 99,7% de todos los valores de una población
normalmente distribuida se encuentra 3 desviación estándar de la
media
APLICACION
• Diga ud. ¿cual es el intervalo de peso en Kg. en el que se
encontrará el 68% de individuos de un marco muestral, en
el cual la media de peso es de 78Kg con una DS de + - 6
Kg.? .

• En que rango de Talla se encontrará el 95% de la población


en la que se sabe que la media de talla es de 160 cm con
una DS de + - 15 cm?

• En que rango de edades se encontrará el 99% de


individuos de una muestra (marco), cuya media aritmética
fue de 35 años con una DS de +- 3 años.
B) La distribución normal estándar (Z)

La distribución normal tiene diferente  y  para


calcular probabilidades habría que integrar la función
de densidad. Por este motivo se estandariza la
variable. (Para comparar diferentes distribuciones
normales)
La estandarización es un proceso estadístico que
consiste en restar la media a la variable y el resultado
dividirlo por la desviación estándar.

x
Z

Distribución
normal estándar
 0
 1
Aplicaciones: la clínica Santa Teresita de Cañete,

aplica un programa de entrenamiento diseñado para mejorar la calidad del


servicio a los pacientes. Debido a que el programa es autoadministrado, el
personal requiere un número diferente de horas para terminarlo. Un estudio de
los participantes anteriores indica que el tiempo medio que se lleva completar el
programa es de 500 horas y que esta variable aleatoria normalmente distribuida
tiene una desviación estándar de 100 horas.

Pregunta 1. ¿Cuál es la probabilidad de que un participante elegido al azar


requiera más de 500 horas para completar el programa?

P(X>500)=0.5
Solución:
En la figura, podemos ver que la mitad del área
bajo la curva está localizada a ambos lados de la
media de 500 horas. Por lo tanto podemos deducir
que la probabilidad de que la variable aleatoria
tenga un valor mayor a 500 es el área sombreada,
es decir, 0,5.
Pregunta 2:¿Cuál es la probabilidad de que un participante elegido al azar
se tome entre 500 y 650 horas para completar el programa de
entrenamiento.

P(500 X Solución:
650)=0.4332 La gráfica muestra la respuesta como zona
sombreada, representada por el área entre la
media (500 horas) y el valor de X en el cual
estamos interesados (650 horas).
Estandarizando la variable tenemos un valor
para Z

x
Z

650  500
Z  1,50
100

Si buscamos Z = 1,50 en la tabla, encontraremos una probabilidad de 0,4332. En


consecuencia, la probabilidad de que un participante escogido al azar requiera entre 500 y 650
horas para terminar el programa de entrenamiento es ligeramente mayor a 0,43.
Pregunta 3:¿Cuál es la probabilidad de que un participante elegido al azar
se tome más de 700 horas en completar el programa?

Solución:
Estamos interesados en el área a la derecha de 700.

Estandarizamos
x
Z P(X >700)= 0,0228

700  500
Z  2
100

Tabla: si Z = 2,0  Area: 0,4772

En consecuencia, la probabilidad mayor a 700 será


0,5 - 0,4772 = 0,0228

Por lo tanto hay un poco más de 2 oportunidades en 100 de que un participante elegido
al azar se lleve más de 700 horas en completar el curso.
Pregunta 4:Suponga que el director del programa desea saber la probabilidad de
que un participante escogido al azar requiera entre 550 y 650 horas para completar
el trabajo requerido en el programa.

Solución: Primero calculamos el valor de Z para 650

x
Z 

650  500 P(550 X
Z   1,5 650)
100

A este valor le corresponde un área


de 0,4332
Después calculamos un valor de Z para 550

x 550  500


Z Z   0,5
 100

Correspondiéndole un área de 0,1915


Para responder la pregunta debemos restar las áreas:

Probabilidad de que la variable aleatoria esté entre la 0,4332


media y 650 horas

Probabilidad de que la variable aleatoria esté entre la


(-) media y 550 horas 0,1915

(=) Probabilidad de que la variable aleatoria esté 550 y 0,2417


650 horas

Así pues, la probabilidad de que un supervisor elegido al azar se tome


entre 550 y 650 horas para completar el programa de entrenamiento es un
poco menor de 1 entre 4
CARACTERÍSTICAS DE LA
DISTRIBUCIÓN NORMAL
ESTÁNDAR
• No depende de ningún parámetro (no es “una”
distribución normal, es una comparación).
• Su media es 0, su varianza es 1 y su
desviación estándar es 1.
• La curva f(x) es simétrica respecto del eje de
Y
• Tiene un máximo en el eje de Y.
• Tiene dos puntos de inflexión en z=1 y z=-1
TEOREMA DEL LÍMITE
CENTRAL
Nos indica que, bajo condiciones muy
generales, según aumenta la cantidad de datos,
la distribución de la suma de variables aleatorias
tendera a seguir hacia una distribución normal.

En otras palabras el Teorema del Límite Central


garantiza una distribución normal cuando el
tamaño de la muestra es suficientemente
grande.
TEOREMA DEL LÍMITE CENTRAL
PROPIEDADES:

1. La MEDIA de distribución del muestreo (media de las medias) es igual


a la media de la población.

2. La DESVIACION ESTANDAR o ERROR ESTANDAR de distribución del


muestreo de la media es igual a:

/ n

1. Si la distribución en la Población es NORMAL, la distribución del


muestreo también lo es.

2. Si la Población no tiene una distribución NORMAL, pero se tienen


tamaños de muestras suficientemente grandes, la distribución de la
muestra igual se comporta como NORMAL.
EJERCICIOS DE
PROBABILIDADES
1. Para obtener licencia para conducir, es necesario aprobar tanto el examen teórico como el
práctico. Se sabe que la prob. que un alumno apruebe la parte teórica es 0,68, la de que
apruebe la parte práctica es 0,72 y la de que haya aprobado alguna de las dos partes es 0,82.
Si se elige un alumno al azar, ¿cuál es la prob. de que apruebe el examen para obtener
licencia?

2. Una rata es colocada en una caja con tres pulsadores de colores rojo, azul y blanco. Si
pulsa dos veces las palancas al azar:
a)¿Cuál es la probabilidad de que las dos veces pulse la roja?
b)¿Cuál es la probabilidad de que pulse la primera vez o la segunda o ambas la tecla azul?

3. En una asignatura se ha decidido aprobar a aquellos que superen uno de los dos
parciales. Con este criterio aprobó el 80%, sabiendo que el primer parcial lo superó el 60%
y el segundo el 50%. ¿Cuál hubiese sido el porcentaje de aprobados, si se hubiese exigido
superar ambos parciales?
4. Un paciente ingresa a un Hospital. La probabilidad de que se atienda en odontologia es
30%, en medicina es de 40%, en ambos servicios es de 20% ¿Cuál es la probabilidad de que
se atienda en odontología o en medicina?
5. La probabilidad que un paciente tenga el grupo sanguineo AB es de 30% y
que tenga el grupo sanguineo O es 40% y que tenga el grupo sanguineo A es
50% ¿Cuál es la probabilidad de que un paciente cualquiera tenga grupo
sanguineo AB o A?

6. Se sabe que un grupo de 60 niños, hay 10 que no han cumplido con hacer
sus tareas, si se escojen al azar 02 niños, uno a continuación del otro (SIN
REEMPLAZO) ¿Cuál es la probabilidad que ambos no hayan hecho su tarea?.

7. De acuerdo a la siguiente tabla, responda las siguientes interrogantes:

- Cual es la probabilidad que un paciente tenga un examen clínico +


-Cual es la probabilidad que haya tenido un ex clìnico + y que realmente este
enfermo.
- Dado que el examen clìnico salio +, cual es la probabilidad que este
realmente sano?

Cultivo + Cultivo -
Ex. Clinico + 27 35 62
Ex. Clínico - 10 77 87
37 112
BIOESTADISTICA 6

ESTADISTICA INFERENCIAL II:

TEORIA DE MUESTREO
TEORIA DEL MUESTREO

La tarea fundamental de la ESTADISTICA INFERENCIAL,


es hacer inferencias acerca de la población a partir de una
muestra extraída de la misma (Encontrar Parámetros a
partir de Estadísticos).
¿Para que sirve una muestra?
Una muestra sirve para hacer
inferencias acerca de los parámetros
de una población en base a la
información obtenida de la muestra.

Diseño muestral es el
procedimiento especificado, antes
de colectar los datos, para obtener
una muestra de una población
dada.
Al diseñar una muestra, tener
presente:

• Representatividad
• Confiabilidad
• Costos
• Sesgos
Pasos:

1.Determinar Tamaño de la muestra.


2.Determinar el método de selección de la muestra.
Definición del Tamaño Muestral
La definición del tamaño muestral depende de los
siguientes factores

1 . Los objetivos del estudio

2 . Los conocimientos previos sobre el comportamiento de


la característica en la población.

3 . Los recursos técnicos y financieros para obtener la


información
4 . El error máximo que se permitirá el analista

5 . La confiabilidad de la inferencia esperada por el analista


Tamaño de la muestra (n)
Depende de:
 La magnitud del máximo error permisible (e) y,
 el grado de confianza de que el error en la estimación no
exceda del máximo error permisible (1- a )

Se calcula a partir de la formula

2 2 donde:
Z
 z : Valor tabular para un nivel de confianza
n
= e
2
 : Varianza

e : error esperado
Aplicación

Con el fin de controlar el ingreso por procedimientos quirúrgicos


menores de consultorio, el Director del Hospital de Tamborocoto, decide
hacer una comparación entre los procedimientos reportados en las
historias clínicas y los registrados en los partes de atención de
consultorio. En una revisión anterior se encontró una omisión de
registro de 35%, con una desviación estándar de 30. Desea tomar una
muestra que le permita estimar el porcentaje de omisión con un error de
+ 5%.
Z22
n= e2
(1,96)2(30)2
n=
(5)2
n= 138
TIPOS DE MUESTREO

ALEATORIO SIMPLE

SISTEMÁTICO
PROBABILISTÍCO
ESTRATIFICADO

POR CONGLOMERADO

POLIETAPICO
MUESTREO

DE JUICIO

NO PROBABILÍSTICO DE CUOTAS

BOLA DE NIEVE
MUESTREO PROBABILISTICO

Para que la inferencia estadística sea válida el


muestreo debe ser aleatorio o probabilístico.

Aleatoriedad de la selección : esta condición


se refiere a que cada elemento del universo
debe tener la misma probabilidad de ser elegido
en la muestra y que dicha probabilidad puede
ser medida.
TIPOS DE MUESTREO PROBABILISTICO

1. Muestreo aleatorio simple

2. Muestreo aleatorio Sistemático

3. Muestreo aleatorio Estratificado

4. Muestreo aleatorio por Conglomerados

5. Muestreo aleatorio Polietápico


1. MUESTREO ALEATORIO SIMPLE
2. MUESTREO ALEATORIO SISTEMATICO

Por ejemplo: De un total de 400 HC, se decide un tamaño de muestra de


20 HC, para lo cual se define como intervalo K: 400/20 = 20, es decir cada
unidad muestral se tomará 1 dejando 20 HC.
3. MUESTREO ESTRATIFICADO

Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por
separado las opiniones de hombres y mujeres pues se estima que, dentro de cada
uno de estos grupos, puede haber cierta homogeneidad. Así, si la población está
compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra
que contenga también esa misma proporción.
ESTRATOS Homogéneos en su interior;
diferentes entre sí en propiedades y
tamaño

Comuna B

Comuna A

Comuna C

Comuna D

Los estratos más grandes


Tienen mayor probabilidad de ser representados
Cómo garantizar la aleatoriedad
en universos estratificados... ?

Puede usarse alguna de las siguientes técnicas:

1. Muestreo Estratificado Proporcional

2. Muestreo Estratificado No Proporcional

3. Alocación óptima de los estratos.


Muestreo Estratificado Proporcional

Establece la distribución proporcional del universo y


aplica esta distribución a su tamaño muestral para
conformar estratos en la muestra.

Luego elige aleatoriamente los elementos al


interior de cada estrato muestral hasta ajustar su
tamaño.

Es mejor que el Muestreo Aleatorio Simple pues


disminuye el error estándar de la medición muestral.
Muestreo Estratificado NO Proporcional
(Fracción variable de muestreo):

Ajusta convencionalmente los tamaños de los


estratos muestrales para aumentar la eficiencia
de la selección de los grupos más pequeños.

Esta condición se deberá tener en cuenta al hacer


inferencias (corregir las inferencias).
MUESTREO
POR ALOCACIÓN OPTIMA DE LOS ESTRATOS

Selecciona el tamaño de los estratos en


función de la desviación estándar de cada
uno de ellos, de tal manera que los estratos
más heterogéneos (mayores varianzas)
aporten más casos a la muestra total.
4. MUESTREO
ALEATORIO POR CONGLOMERADOS

Los miembros del grupo mayoritario tienen una mayor


probabilidad de ser seleccionados en la muestra

No se cumple la aleatoridad

En las Unidades de observación se eligen aleatoriamente al interior de


los conglomerados

El error de la medición (error muestral) no se da al interior del


conglomerado sino entre los conglomerados

Antes de hacer inferencias, el analista deberá examinar la


variabilidad interna de cada conglomerado y la variabilidad entre
ellos, pues es posible que algunos de los conglomerados no sean
representativos del universo.

Ejemplo: Para identificar los factores de riesgo vulnerables de la enfermedad


ateroesclerótica en los trabajadores agrícolas de una provincia, se seleccionan
aleatoriamente un número de cooperativas de producción agropecuaria y se estudian a
todos los trabajadores de dichos centros.
CONGLOMERADOS

Grupo 1A

Grupo 5C

Grupo 2A

Grupo 3B

Heterogéneos en su interior; diferentes entre sí en


propiedades y tamaño
5. Muestreo Aleatorio Multi Etápico
(Poli Etápico)

Selecciona los individuos por etapas,


configurando sucesivamente grupos
(estratos o conglomerados) y subgrupos
denominados Unidades de Muestreo
primarias, secundarias, terciarias...etc..
TIPOS DE MUESTREO NO PROBABILISTICO

Aquél para el que no puede calcularse la probabilidad de


extracción de una determinada muestra.

1. Muestreo por cuotas


2. Muestreo de “Bola de Nieve”
3. Muestreo subjetivo por decisión razonada
1. Muestreo por cuotas
Es la técnica más difundida sobre todo en estudios de
mercado y sondeos de opinión. En primer lugar es necesario
dividir la población de referencia en varios estratos definidos
por algunas variables de distribución conocida (como el
género o la edad). Posteriormente se calcula el peso
proporcional de cada estrato, es decir, la parte proporcional de
población que representan. Finalmente se multiplica cada peso
por el tamaño de n de la muestra para determinar la cuota
precisa en cada estrato. Se diferencia del muestreo
estratificado en que una vez determinada la cuota, el
investigador es libre de elegir a los sujetos de la muestra
dentro de cada estrato.
2. Muestreo de "bola de nieve“

Indicado para estudios de poblaciones clandestinas, minoritarias


o muy dispersas pero en contacto entre sí. Consiste en
identificar sujetos que se incluirán en la muestra a partir de los
propios entrevistados. Partiendo de una pequeña cantidad de
individuos que cumplen los requisitos necesarios estos sirven
como localizadores de otros con características análogas.

3. Muestreo subjetivo por decisión razonada (de Juicio)

En este caso las unidades de la muestra se eligen en función de


algunas de sus características de manera racional y no casual.
Una variante de esta técnica es el muestreo compensado o
equilibrado, en el que se seleccionan las unidades de tal forma
que la media de la muestra para determinadas variables se
acerque a la media de la población.
GRADO O NIVEL DE CONFIANZA ( DE LA INFERENCIA )

Es la probabilidad de que el valor real del parámetro


poblacional se encuentre dentro de los límites especificados
por los valores del estimador muestral.

Más que un cálculo suele ser un criterio definido


convencionalmente por el analista expresado en unidades
estandarizadas Z o en porcentaje de valores muestrales.

Una probabilidad de 95% equivale a 1.96 unidades de Z y es


la más utilizada.

Un intervalo de confianza del 95% entre “x” y “y” quiere decir


que si se repite el procedimiento de selección de muestra y de
medición 100 veces, en 95 oportunidades el verdadero valor se
encontrará entre las cantidades “x” y “y”.
Conceptos básicos
• Nivel de confianza: probabilidad que asociamos con una
estimación del intervalo. Se representa con (1 -). Los niveles
más utilizados son 0,90 0,95 y 0,99.

• Intervalos de confianza: es el alcance o rango de la


estimación que estamos haciendo.

• Error estandar (aleatorio): El Error Standard podríamos


expresarlo conceptualmente como el error que se puede
cometer al intentar conocer a una Población por una Muestra
de sí misma.
Error Aleatorio Sesgo

Imprecisión Invalidez
ERRORES DE LA MEDICIÓN

Error Aleatorio (Error Estándar)

Diferencia (variabilidad) de las


mediciones alrededor del valor
verdadero, debida al azar

Aumenta con:

Muestras pequeñas

Variabilidad del fenómeno

Afectan la precisión
ERROR ALEATORIO O ERROR ESTANDAR

Cuando se mide el estadístico en diferentes muestras tomadas


aleatoriamente los resultados son variables. Esta variabilidad o
dispersión del estadístico introduce un error en la estimación a
la que se denomina error aleatorio y es causada por el azar.

Es equivalente a la desviación estándar

Este error puede medirse, pues las medias de los estimadores


siempre se distribuyen “normalmente” (Teorema del límite
central) aunque los mismos estimadores no lo hayan hecho.

s1 s2

s4
s3
ERRORES DE LA MEDICIÓN
Sesgos o errores sistemáticos

Diferencia sistemática entre las


mediciones y el valor verdadero,
debida a problemas de diseño
Relacionados con:

Adelanto diagnóstico (Lead -Time bias)


Notificación (Reporting bias)
Recuerdo (Recall bias)
Selección (Selection bias)

Afectan la validez
Sesgo

•Error sistemático introducido en la


planeación del estudio

•Sesgo de Selección

•Sesgo de Información
Tipos de sesgo de selección
• Sesgo Berksoniano – Puede haber una asociación
espuria entre enfermedades o entre una característica y
una enfermedad debido a las diferentes probabilidades de
admisión a un hospital para aquellos con la enfermedad,
sin la enfermedad pero con la característica de interés

• Sesgo de respuesta – aquellos que aceptan estar en un


estudio pueden ser de alguna forma diferentes a los que
rehusan participar

– Voluntarios son diferentes de aquellos enlistados


Tipos de sesgo de información
• Sesgo del entrevistador – el conocimiento de un
entrevistador puede influenciar la estructura de preguntas y la
manera de presentarlas, lo cual puede influenciar las respuestas

• Sesgo de recuerdo – aquellos (as) con una exposición o


resultados particulares pueden recordar eventos más claramente
o ampliar sus pensamientos sobre el evento

• Sesgo del observador – observadores pueden tener expectativas


preconcebidas de lo que deberían encontrar en un exámen

• Pérdida de seguimiento – aquellos que son perdidos en el


seguimiento o quienes se retiran del estudio pueden ser diferentes
que aquellos seguidos por todo el estudio
Sesgo de información
• Efecto Hawthorne – un efecto primeramente
documentado en la planta manufactora Hawthorne;
las personas actúan diferentemente si saben que
están siendo observadas

• Sesgo de vigilancia o monitoreo – el grupo con


la exposición o el resultado pueden ser seguidos
más estrechamente o por más tiempo que el
grupo de comparación
Controles para sesgos
• Sea propositivo en la planeación del estudio para
minimizar la oportunidad de sesgos
– Ejemplo: use más de un grupo control
• Defina, quien es un caso o qué constituye una
exposición, para que no se superpongan
– Defina categorías dentro de grupos claramente
(grupos de edad, agregados de personas-años)
• Señale estrictas guías para la colección de datos
– Entrene a observadores o entrevistadores para
obtener datos de la misma manera
– Es preferible usar más de un observador o
entrevistador, pero no demasiados de tal forma que no
puedan ser entrenados de una manera idéntica
Controles para sesgos
• Aleatoriamente situe las tareas de colección de
datos para observadores/ entrevistadores
• Instituya un proceso de cegado, si es apropiado
– Estudio con ciego simple – los sujetos no saben de si
ellos están en el grupo experimental o en el control
– Estudio doble ciego – el sujeto y el observador no saben la
situación del sujeto.
– Estudio triple ciego – el sujeto, el observador y el analista
de los datos no saben de la situación del sujeto.

• Construya métodos para minimizar la pérdida de


sujetos en el seguimiento
ESTADISTICA INFERENCIAL III:

PRUEBA DE HIPOTESIS
(CONTRASTE DE HIPOTESIS)

Bioestadistica 7
¿Qué es la prueba de hipotesis?

Es un
procedimiento
estadístico, una
herramienta de
análisis de datos
que permite
ACEPTAR o
RECHAZAR la
Hipótesis
estadística.
1. Establecer la hipótesis nula

2. Establecer la hipótesis alternativa

3. Elegir un nivel de significación: nivel crítico para


alfa (generalmente 5% o 0.05)

4. Elegir un estadístico de contraste (Prueba


estadística)

5. Calcular el estadístico para una muestra aleatoria y


compararlo con la región crítica, o, calcular el
"valor p" (probabilidad de obtener ese valor, u otro
más alejado de la Ho, si Ho fuera cierta) y
compararlo con alfa.
Hipótesis: definición

• Son suposiciones que


relacionan una variable con
otra y que serán probadas a
través de la investigación,
con el fin de ser aceptadas
o rechazadas por medio de
los resultados obtenidos.

• Son ante todo, enunciados


que expresan afirmaciones
o negaciones sobre la
realidad.
Hipótesis: características
• Puede ser o no verdaderas

• Se refiere a una situación real

• Se refiere a una sola relación entre


variables

• Precisa, concreta, clara y lógica

• Se refiere a variables y relaciones


observables y medibles

• Consideran técnicas disponibles


para su contraste
Hipótesis: clasificación

• de investigación (generales o
específicas), las cuales
pueden responder en forma
amplia a las interrogantes
planteadas en el Marco
Teórico respecto al problema
en estudio;

• estadísticas, las que expresan


la relación en términos
matemáticos.
 En el proceso de la estadística inferencial, hay dos tipos de
hipótesis claves:

LA HIPOTESIS NULA (Ho), se construye


artificialmente para que el investigador evalúe su hipótesis de
investigación. Plantea que no existe relación entre los dos
fenómenos. ES LA QUE SE DEBE CONTRASTAR.

LA HIPOTESIS ALTERNA (H1), es la hipotesis


complementaria que simplemente señala la existencia de un
hecho o de un evento, o la relación entre dos o más
fenómenos. ES COMPLEMENTARIA A LA ANTERIOR.
Realidad
H0 verdadera H0 falsa
Error de tipo II
El tratamiento sí tiene efecto
La Prueba de Correcto pero no lo percibimos.
hipotesis: Probabilidad β
No rechazo H0

Error de tipo I
La Prueba de El tratamiento no tiene
Hipotesis: efecto pero se decide que
sí.
Rechazo H0 Correcto
Probabilidad α
(aceptación de la H1)
ERROR DE TIPO I - 
 Es rechazar una hipótesis nula siendo verdadera
(GRAVE).

NEMOTECNIA: reCHazar VERdadera I

A la probabilidad de cometer un error de Tipo I se denota por alfa (


el nivel o tamaño de significancia de la prueba es decir

), y se le llama

 = P(error Tipo I)= P(rechazar H | H es verdadera)


0 0
Nivel de significancia (
 Es la probabilidad de error al comparar dos o más muestras o
grupos cuando aseguramos que ambos son diferentes.

 < 0.05 significa que tenemos un 5% de probabilidades de error en


las conclusiones, por lo cual la probabilidad de equivocarnos es
baja.

/2 /2

región crítica Región de aceptación región crítica

-z/2 z/2 Z
ERROR DE TIPO II - β

 Error tipo Beta: o tipo II, es aceptar una hipótesis


nula siendo falsa

 Nemotecnia: es la inversa a la anterior


RELACION DE LOS
ERRORES DE TIPO I y II

Se observa la existencia de una relación


inversa entre la magnitud de los errores y :
conforme  aumenta,  disminuye.

Esto obliga a establecer con cuidado el valor de  para las


pruebas estadísticas.
• Nivel de confianza (1 – 
Representa el complemento del error tipo I, es decir la
probabilidad de no rechazar la hipotesis nula siendo
ésta verdadera.
Se representa con (1 -). Los niveles más utilizados son 0,90
0,95 y 0,99.

Intervalos de confianza: es el alcance (rango) de la


estimación que estamos haciendo.
Poder de la Prueba (Potencia del test)

(1-)
La meta de las pruebas estadísticas es rechazar la
hipótesis nula.

El poder de la prueba se debe entender como la


probabilidad de RECHAZAR LA HIPOTESIS NULA
SIENDO ESTA FALSA.
Valores P

el P valor o nivel de significación


empírico del contraste es el dato
obtenido a partir del valor del
estadístico del contraste , en las
observaciones que corresponden a la
realización de la muestra de tamaño n
extraída de la población X.

Si el valor p es más chico que el nivel de significación la hipótesis nula es


rechazada.

si P<, H0 se rechaza.

Si el valor p es más grande que el nivel de significación la hipótesis nula no


es rechazada.
Significación: p

No se rechaza
H0: =70


H0: =70
X  72
Significación: p
•Es la probabilidad que tendría una región crítica (alfa) que comenzase exactamente
en el valor del estadístico obtenido de la muestra.
•Es la probabilidad de tener una muestra que discrepe aún más que la nuestra de H 0.
•Es la probabilidad de que por puro azar obtengamos una muestra “más extraña” que
la obtenida.
•p es conocido después de realizar el experimento aleatorio
•El contraste es no significativo cuando p>alfa.

P 

No se rechaza
H0: =70

P 

X  72
Significación : p

Se rechaza H0: =70

Se acepta H1: >70


X  85
Significación : p
El contraste es estadísticamente significativo cuando p< 
Es decir, si el resultado experimental discrepa más de “lo tolerado” a priori.

 P

Se rechaza H0: =40

Se acepta H1: >40


 P

X  85
Resumen: , p y criterio de rechazo
• Sobre  • Sobre p
– Es número pequeño, – Es conocido tras
preelegido al diseñar realizar el experimento
el experimento

– Conocido  – Conocido p sabemos


todo sobre el resultado
sabemos todo sobre del experimento
la región crítica

 Sobre el criterio de rechazo


 Contraste significativo = p menor que 
BIOESTADISTICA

PRUEBAS DE
SIGNIFICACION
ESTADISTICA
TIPOS DE PRUEBAS DE SIGNIFICACION
ESTADISTICA

• La elección del Método Analítico o Prueba


Estadistica, esta determinada principalmente por
el tipo de variable con el que se vaya a trabajar.

– Variable Contínua (cuantitativa) y con


distribución NORMAL utilizaremos Test
Paramétricos (porque se conocen los
parámetros estadísticos de la población y
muestra).

– Variable cuantitativa o cualitativa sin


distribución NORMAL, utilizaremos Test No
Paramétrico.
Tipos de Técnicas de Estadística
Inferencial

En la estadística inferencial el investigador se


encuentra con dos tipos de técnicas:

Las paramétricas
Las no paramétricas
Técnicas Paramétricas
Son más potentes que las no paramétricas y por consiguiente las
inferencias que se realizan son más fiables.

El inconveniente es que el investigador no siempre puede cumplir con


los requisitos y supuestos que exige el enfoque paramétrico, sobre
todo en investigaciones educativas y sociales.

Técnicas No Paramétricas
Son fáciles de utilizar y no son tan potentes como las paramétricas.

El análisis de datos cualitativos ha generado técnicas propias, que


actualmente constituyen toda una metodología específica que viene
marcada por la propia idiosincrasia cualitativa y que toma
determinadas opciones en relación a las unidades del registro de los
datos y la forma de tratarlos.
PRUEBAS PARAMETRICAS

1. Test de la t de Student.
2. ANOVA
3. t de Student apareada.
4. Correlación de Pearson.
5. Test de Friedman.
PRUEBAS NO PARAMETRICAS

• Chi cuadrado
• Test de Wilcoxon o del Rango con signo.
• Test de la U de Mann-Whitney.
• Test de Kruskal-Wallis.
• Coeficiente de correlación de spearman
• Test de Mc Nemar
¿Qué es la prueba “t” ?

• Definición:
Es una prueba estadística para evaluar si dos
grupos difieren entre sí de manera significativa
respecto a su medias.

Se simboliza por “ t ”

Hipótesis a probar:
De diferencia entre dos grupos. La hipóteisis de
investigación propone que los grupos difieren
significativamente entre sí y la hipótesis nula no
difiere significativamente
Tipos de pruebas t
• Prueba t para una muestra: prueba si la media de
la muestra de una variable difiere significativamente
de la media conocida de la población

• Prueba t no pareada o independiente: prueba si las


medias estimadas de la población por 2 muestras
independientes difieren significativamente (grupo
de hombres y grupo de mujeres)

• Prueba t pareada: prueba si la media estimada de


la población por muestras dependientes difieren
significativamente (media de pre y post-tratamiento
para el mismo grupo de pacientes.
¿Qué es el coeficiente de correlación
de Pearson?
• Definición.-

Es una prueba estadística para analizar la relación entre dos o


más variables cuantitativas

Se simboliza por “ r “ y sus valores son de -1 a +1

Mientras mas cercano este a los extremos la relación es mas


fuerte (positiva o negativa).

Coeficiente de determinación: r 2.

Hipótesis a probar:
Correlacionalmente, del tipo : “A mayor X, mayor Y”;
”A mayor X, menor Y”, “Altos valores en X están asociados
con altos valores en Y”, “Altos valores en X se asocian con
bajos valores de Y”
Correlación
• Denota fuerza de relación entre variables
¿Qué es la regresión lineal?

• Definición.-
Es un modelo matemático para estimar el
efecto (predecir) de una variable sobre otra.
Está asociado con el coeficiente de Pearson r
de Pearson

• Hipótesis a probar:
Correlacionales y causales
ANALISIS MULTIVARIADO

• Los métodos de análisis multivariado son aquellos en donde se


analiza la relación entre varias variables independientes y al
menos una dependiente.

• Son métodos que requieren del uso de computadoras para


efectuar los cálculos necesarios

• La regresión múltilpe es un método que permite analizar


el efecto de dos o más variables independientes sobre una
dependiente. Es una extensión de la regresión lineal sólo que
con un mayor número de variables independientes.
¿Qué es el análisis de varianza
unidireccional ? ANOVA (oneway)

Definición
Es una prueba estadística para analizar si más de dos
grupos difieren significativamente entre sí en cuanto a sus
medias y varianzas .
La prueba “ t “ es utilizada para dos grupos y el análisis de
varianza unidereccional se usa para tres, cuatro o más
grupos

Hipótesis a probar:
De diferencia entre más de dos grupos, se propone que los
grupos difieren significativamente entre si y la nula propone
que no difieren
Test de Friedman

Esta es una prueba parametrica desarrollada por el


economista Milton Friedman. Es similar a la medida
ANOVA, y es usada para detectar diferencias en
tratamientos a través de múltiples pruebas.
¿Qué son los coeficientes de
correlación por rangos ordenados
de Spearman y Kendall?
• Los coeficientes rho de Spearman, simbolizado por rs, y tau
de Kendall, simbolizado como t, son medidas de correlación
para variables en un nivel de medición ordinal, de tal modo que
los individuos u objetos de la muestra pueden ordenarse por
rangos o jerarquías.

• Ambos coeficientes varían de -1.0 (correlación negativa


perfecta) a +1,0 ( correlación positiva perfecta)

• Estadísticas sumamente perfecta para variables ordinales


Prueba chi²

• Usada para probar la fuerza de


asociación entre dos variables
cualitativas
• Usada para datos categóricos
• Se basa en el cálculo de las
frecuencias observadas y las
esperadas.
Requerimientos
• Datos deberán estar en forma de frecuencias

• El total número de observaciones deberá exceder 20

• Frecuencia esperada en una categoría o en cualquier


celda deberá ser >5 (cuando un de las celdas tiene <5
observados se usa corrección de Yates o si tiene <5 de
esperados se usa exacta de Fisher)

• El grupo de comparación deberá ser aproximadamente


igual.

245
Test de Wilcoxon o del Rango
con signo.

La prueba de los signos de Wilcoxon es una


prueba no paramétrica para comparar la mediana
de dos muestras relacionadas (APAREADAS) y
determinar si existen diferencias entre ellas. Se
utiliza como alternativa a la prueba t de Student
apareada cuando no se puede suponer la
normalidad de dichas muestras.
Test de la U de Mann-Whitney.

es una prueba no paramétrica aplicada a dos


muestras independientes, cuyos datos han sido
medidos al menos en una escala de nivel ordinal.

El test es virtualmente idéntico a la realización de


una prueba paramétrica ordinaria T student
de dos muestras en los datos después de haber
ordenado las muestras combinadas.
Test de Kruskal-Wallis.

es un método no paramétrico para probar si un


grupo de datos proviene de la misma población.
Intuitivamente, es idéntico al ANOVA con los
datos reemplazados por categorías. Es una
extensión de la prueba de la U de Mann-Whitney
para 3 o más grupos.
TEST DE KOLMOGOROV-SMIRNOV

• Es la prueba estadística que se utiliza


para demostrar si una colección de datos
sigue una distribución NORMAL (una
Curva de Gauss)
ESTADISTICO DE KAPPA

Indice de comparación de la concordancia entre


dos (02) observadores independientes sobre si
el resultado de una prueba diagnóstica es
normal o anormal.

Se usa para medir la repetibilidad del test


diagnóstico.
Como seleccionar la prueba
estadística adecuada
• Tipo de variables
• Cuantitativa (tensión arterial)
• Cualitativa (género)

• Tipos de preguntas de investigación


• Asociación
• Comparación
• Factor de riesgo

• Estructura de datos
• Independientes
• Dependientes
• Pareados
Diseño Tipo de variable Prueba Estadística

Un grupo Proporciones Prueba Z

Cuantitativas Prueba t, Intervalos de Confianza

Dos grupos independientes Proporciones (nominal) Fisher, Ji cuadrada,

Rango (ordinal) U Mann-Whitney

Cuantitativas Prueba t no pareada

Dos grupos relacionados Proporciones (nominal) McNemar, Binomial

Rango (ordinal) Signos, Wilcoxon

Cuantitativas Prueba t pareada


Correlación de Pearson

Tres o más grupos independientes Proporciones (nominal) Ji cuadrada

Rango (ordinal) Kruskal-Wallis

Cuantitativas ANOVA

Tres o más grupos relacionados Proporciones Q de Cochran

Rango Friedman

Cuantitativas ANOVA con observaciones repetidas

Multivariado Proporciones Log lineales

Cuantitativas Regresión
Comparando variables (diferencias)

Variable Número de variables

2 grupos indep. datos pareados >2grupos

Prueba t Prueba t pareada ANOVA (indep y


Cuantitativa
dep)

Kruskal wallis
Ordinal
Mann-Whitney Wilcoxon (indep)
Friedman (dep)

nominal
chi-cuadrada* McNemar (2) chi-cuadrada
Q de Cochrane (>2) (indep)
FLUXOGRAMA PARA SELECCIONAR PRUEBA
ESTADISTICA
TIPO DE HIPOTESIS
ENTRE VERAIBLES PARAMETRICAS

•Correlación de pearson
RELACION O •Regresión Lineal
COMPARACION DE ASOCIACION
VARIABLES ENTRE VARIABLES
•Regresión logística

NO PARAMETRICAS

Tipo de variable
•Correlación de spearman

CUANTITATIVA CUALITATIVA
(PARAMETRICA) (NO PARAMETRICA)

Nº DE GRUPOS
ORDINAL NOMINAL
(Proporción, %) (Proporción, %)

2 >2 2 >2 2 >2

T DE STUDENT
U MANN WITHNEY
INDEPENDIENTE
NO
APAREADOS

ANOVA
CHI CUADRADO
KRUSKALL WALLIS

T DE STUDENT WILCOXON MC
APAREADOS APAREADO NEMAR
EJERCICIOS
1. La posible relación entre dos variables cuantitativas se puede estudiar con:

2. La asociación entre dos variables cualitativas apareadas se verifica con.

3. En un ensayo clínico se comparan las cifras de uricemia al final del estudio


entre 3 grupos de pacientes, cada uno de los cuales a sido sometido a un
tratamiento diferente. Cual es la prueba estadística mas adecuada para
realizar el análisis.

4. La posible relación entre dos variable cualitativas se hace con:

5. Con que se puede comparar dos proporciones:

6. Cual es la prueba de significación estadística que se permite analizar los


estudios de investigación con datos categorizables que comparan mas de
dos grupos independientes medidos en escalas nominales.

7. Para comparar varias proporciones con datos independientes se utiliza.

También podría gustarte