TEMA 2
ESTIMACIÓN
Conceptos básicos
POBLACIÓN: Conjunto de elementos sobre los que se observa un carácter común. Se
representa con la letra N.
MUESTRA: Conjunto de unidades de una población. Cuanto más significativa sea, mejor
será la muestra. Se representa con la letra n.
UNIDAD DE MUESTREO: Está formada por uno o más elementos de la población. El total
de unidades de muestreo constituyen la población. Estas unidades son disjuntas entre sí
y cada elemento de la población pertenece a una unidad de muestreo.
PARÁMETRO: Es un resumen numérico de alguna variable observada de la población.
Los parámetros normales que se estudian son:
• La media poblacional: µ
• Total poblacional: N
• Proporción: π
Conceptos básicos
ESTIMADOR: Un estimador θ* de un parámetro θ, es un estadístico que se emplea para
conocer el parámetro θ desconocido.
ESTADÍSTICO: Es una función de los valores de la muestra. Es una variable aleatoria,
cuyos valores dependen de la muestra seleccionada. Su distribución de probabilidad, se
conoce como “Distribución muestral del estadístico”.
ESTIMACIÓN: Este término indica que a partir de lo observado en una muestra (un
resumen estadístico con las medidas que conocemos de Descriptiva) se extrapola o
generaliza dicho resultado muestral a la población total, de modo que lo estimado es el
valor generalizado a la población. Consiste en la búsqueda del valor de los parámetros
poblacionales objeto de estudio. Puede ser puntual o por intervalo de confianza:
DISTRIBUCIÓN DE MUESTREO
Una distribución de muestreo describe la probabilidad de obtener
cada valor posible de un estadístico de una muestra aleatoria de una
población.
En otras palabras, qué proporción de todas las muestras aleatorias de
ese tamaño ofrecerá ese valor.
Las mas comunes son para:
MEDIA DIFERENCIA ENTRE MEDIAS
PROPORCION DIFERENCIA DE PROPORCIONES
VARIANZA COCIENTE O RELACION DE VARIANZAS
Estimación
El objetivo principal de la estadística
inferencial es la estimación, esto es que
mediante el estudio de una muestra de
una población se quiere generalizar las
conclusiones hacia el total de dicha
población.
Mientras menor sea el error estándar de un estadístico, más cercanos serán sus
valores. El Error estándar podríamos expresarlo conceptualmente como el error que
se puede cometer al intentar conocer a una población por medio de una muestra
tomada de dicha población.
Estimación
✓Es un conjunto de técnicas que permiten dar un valor
aproximado de un parámetro de una población a partir de
datos proporcionados de una muestra.
✓Estimar es establecer conclusiones sobre características
poblacionales a partir de resultados muéstrales.
- Puntual: cuando buscamos un valor concreto.
Inferencia, estimación y contraste de hipótesis
- Intervalo de confianza: cuando determinamos un intervalo, dentro del cual se
supone que va a estar el valor del parámetro que se busca con una cierta
probabilidad.
CONTRATE DE HIPÓTESIS: Consiste en determinar si es aceptable, partiendo de datos
muestrales, que la característica o el parámetro poblacional estudiado tome un
determinado valor o esté dentro de unos determinados valores.
NIVEL DE CONFIANZA: Indica la proporción de veces que acertaríamos al afirmar que el
parámetro θ está dentro del intervalo al seleccionar muchas muestras.
Estimador
Un estimador es un estadístico es decir es un estimador de la
muestra.
EJEMPLOS
✓media
✓varianza
Estas métricas tan conocidas, son estimadores.
Los estimadores son estadísticos que deben, obligatoriamente,
tomar valores posibles de los datos que estamos estudiando.
Características de un estimador
A) Insesgadez: Diremos que un estimador θ* de un parámetro θ es insesgado si su
esperanza coincide con el verdadero valor del parámetro.
E[θ*] = θ.
En el caso de que no coincidan, diremos que el estimador es sesgado.
B) Eficiencia: Dados dos estimadores θ1* y θ2* para un mismo parámetro θ, se dice que
θ1* es más eficiente que θ2* si:
V[θ1*] < V[θ2*].
Características de un estimador
C) Suficiencia: Se dice que un estimador de un parámetro es suficiente cuando para su
cálculo utiliza toda la información de la muestra.
D) Consistencia: Decimos que un estimador θ* de un parámetro θ es consistente si la
distribución del estimador tiende a concentrarse en un cierto punto cuando el tamaño
de la muestra tiende a infinito.
n ∞→ = {PLim [θ* − ε ≤ θ ≤ θ* + ε ]}.
Tipos de estimación
ESTIMACIÓN
PUNTUAL
ESTIMACIÓN
ESTIMACIÓN
POR INTÉRVALOS
Puntuales Intervalo
En pocas palabras, es una fórmula que Se determina un intervalo dentro del cual
depende de los valores obtenidos de una se encuentra el valor del parámetro, con
muestra, para realizar estimaciones. Lo que una probabilidad determinada.
se pretende obtener es el valor exacto de Es un rango, generalmente de ancho finito,
un parámetro. Por ejemplo, si se pretende que se espera que contenga el parámetro.
estimar la talla media de un determinado
grupo de individuos, puede extraerse una
muestra y ofrecer como estimación puntual
la talla media de los individuos de la
muestra.
Estimación puntual
Consiste en un solo estadístico muestral que se usa para estimar el valor verdadero de
un parámetro de una población que es desconocido.
Una estimación es puntual cuando se usa un solo valor extraído de la muestra para
estimar el parámetro desconocido de la población.
•La media de la población se puede estimar puntualmente mediante la media de la
muestra:
•La proporción de la población se puede estimar puntualmente mediante la
proporción de la muestra:
•La desviación típica de la población se puede estimar puntualmente mediante la
desviación típica de la muestra, aunque hay mejores estimadores:
Fórmulas
Métodos para obtener estimadores
El demostrar que un cierto estimador cumple estas propiedades puede ser complicado en
determinadas ocasiones. Existen varios métodos que nos van a permitir obtener los
estimadores puntuales. Los más importantes son:
• MÉTODO DE LOS MOMENTOS: se basa en que los momentos poblacionales y se
estiman mediante los momentos muestrales. Suelen dar estimadores consistentes.
• MÉTODO DE MÍNIMOS CUADRADOS: consiste en obtener un estimador que hace
mínima una determinada función.
• MÉTODO DE MÁXIMA VEROSIMILITUD: consiste en tomar como parámetro poblacional
el valor de la muestra que sea más probable, es decir, que tenga mayor probabilidad. Se
suelen obtener estimadores consistentes y eficientes. Es el más utilizado.
La probabilidad de que la media muestral sea igual a la media poblacional es cero,
ത
P[𝑋=μ] = 0 , es decir, que será bastante complicado obtener un estimador puntual, por
ello se utiliza más el Intervalo de Confianza y el Contraste de Hipótesis.
ESTIMACIÓN POR INTERVALOS
La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable se
encuentre el parámetro. La obtención del intervalo se basa en las siguientes consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades de
ocurrencia de los estadísticos muestrales.
b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la probabilidad de que
el estimador se halle dentro de los intervalos de la distribución muestral.
c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se establece
alrededor del estimador. Si repetimos el muestreo un gran número de veces y definimos un intervalo
alrededor de cada valor del estadístico muestral, el parámetro se sitúa dentro de cada intervalo en
un porcentaje conocido de ocasiones. Este intervalo es denominado "intervalo de confianza".
Estimación por intervalos.
• Intervalo de confianza: intervalo (a , b) tal que hay una determinada
probabilidad conocida de que contenga al verdadero valor del parámetro
poblacional.
• Nivel de confianza: es la probabilidad de que el parámetro poblacional
pertenezca al intervalo de confianza. Generalmente se representa por 1 – α.
Es decir: P ( a < μ < b) = 1 - α
• Nivel de significación o de riesgo: es la probabilidad de que el parámetro
poblacional no pertenezca al intervalo de confianza; es decir, 1 – (1 – α) = α.
Ejemplo.- Si se nos pide que estimemos la media poblacional con un nivel
de confianza del 95%, se tratará, a partir de una muestra, de encontrar un
intervalo (a , b) en el cual podamos asegurar que está contenida μ con una
probabilidad de 0.95
En tal caso, la probabilidad de que μ no pertenezca a dicho intervalo será
de 0.05; ése será por lo tanto el riesgo asumido con esa estimación (nivel
de significación).
• Valor crítico: Se representa por Zα/2(t, X2 o F). Es el valor de la abscisa en
una determinada distribución que deja a su derecha un área igual a α/2,
siendo 1-α el nivel de confianza. Normalmente los valores críticos están
tabulados o pueden calcularse en función de la distribución de la
población.
Intervalo de confianza para la media
Un intervalo de confianza se calcula siempre seleccionando primero un nivel
de confianza, que es una medida del grado de confiabilidad en el intervalo.
Y para este se utiliza la siguiente formula:
Siempre y cuando conozcamos la desviación de la población
Este es el caso es para varianza poblacional conocida
• Dada una variable aleatoria con distribución Normal N(μ, σ), el objetivo
es la construcción de un intervalo de confianza para el parámetro μ,
basado en una muestra de tamaño n de la variable.
• Desde el punto de vista didáctico hemos de considerar dos
posibilidades sobre la desviación típica de la variable: que sea conocida
o que sea desconocida y tengamos que estimarla a partir de la muestra.
El caso de σ conocida, ya comentado anteriormente, no pasa de ser un
caso académico con poca aplicación en la práctica, sin embargo es útil
desde del punto de vista didáctico.
Caso de varianza conocida
Dada una muestra X1, ..., Xn, el estadístico
se distribuye según una Normal estándar. Por tanto, aplicando el método del pivote podemos
construir la expresión
donde zα/2 es el valor de una distribución Normal estándar que deja a su derecha una
probabilidad de α/2, de la que se deduce el intervalo de confianza
Se utilizan las siguientes fórmulas si desconocemos la varianza poblacional:
Cuando n > 30
s s s
Cuando n ≤ 30
s
t
Caso de varianza desconocida
Dada una muestra X1, ..., Xn, el estadístico
se distribuye según una t de Student de n − 1 grados de libertad. Por tanto, y siguiendo pasos similares a
los del apartado anterior, el intervalo de confianza resultante es
donde tα/2 es el valor de una distribución t de Student con n − 1 grados de libertad que deja a su derecha
una probabilidad de α/2.
Ejemplos: Se encuentra que la concentración promedio de zinc de una
muestra de 36 cereales es de 2.6 gramos por miligramo. Encuentre los
intervalos de confianza de 95% para la concentración media de zinc en el
cereal. Suponga que la desviación estándar de la población es 0.3.
Encuentre los Intervalos de confianza
El valor de Z para un nivel de confianza del 95%
El error
Para un N.C del 95%.
Los I.C son: (2.50 , 2.60)
El valor de Z es: 1.96
El error es: 0.098
Un fabricante de papel para computadora tiene un proceso de producción que opera
continuamente a lo largo del turno. Se espera que el papel tenga una media de longitud de 11
pulgadas. De 500 hojas se selecciona una muestra de 29 hojas con una media de longitud del
papel de 10,998 pulgadas y una desviación estándar de 0,02 pulgadas. Calcular la estimación del
intervalo de confianza del 99%
NOTA:
EN CUALQUIER INTERVALO DE CONFIANZA O PRUEBA
DE HIPÓTESIS, PUEDE Y ES NECESARIO USAR UN
FACTOR DE CORRECCION SI TENEMOS EL TAMAÑO
DE LA POBLACION
FORMULA DEL FACTOR DE CORRECCION
𝑁−𝑛
𝑁−1
Este factor de corrección multiplica al error de
estimación, o dicho de otra forma multiplica a la
desviación entre la raíz del tamaño de muestra
Interpretación: Existe un 99% de confianza
de que la media poblacional se encuentra
entre 10,998 y 11,008
TAREA
1.- Se encuentra que la concentración promedio de zinc de una muestra
de 36 cereales es de 2.6 gramos por miligramo. Encuentre el intervalo
de confianza de 98% para la concentración media de zinc en el cereal.
Suponga que la desviación estándar de la población es 0.3.
2.- Un fabricante de papel para computadora tiene un proceso de
producción que opera continuamente a lo largo del turno. Se espera
que el papel tenga una media de longitud de 11 pulgadas. De 500 hojas
se selecciona una muestra de 29 hojas con una media de longitud del
papel de 10,998 pulgadas y una desviación estándar de 0,02 pulgadas.
Calcular la estimación del intervalo de confianza del 90%
Intervalo de confianza para la diferencia de medias
Sean x1 , x2 , ... xn , una muestra aleatoria de n1, observaciones tomadas de una primera
población con valor esperado μ1 , y varianza σ1 al cuadrado; e y1, y2 , ... yn , una muestra
aleatoria de n2 observaciones tomada de la segunda población con valor esperado μ2 y
varianza σ2 al cuadrado.
Si x1 e y1 son las medias muéstrales, la estadística x1−y1 es un estimador puntual de μ1−μ2
, y tiene una distribución normal si las dos poblaciones son normales, o
aproximadamente normal si cumple con las condiciones del teorema del limite central
(tamaños de muestras relativamente grandes).
Se utilizan las siguientes fórmulas si desconocemos la varianza poblacional:
SUPONEMOS QUE SON DIFERENTES POBLACIONES (INDEPENDIENTES)
Cuando n > 30
𝑺𝟐𝟏 𝑺𝟐𝟐
ഥ𝟏 − 𝑿
𝑿 ഥ 𝟐 ± 𝒁𝜶ൗ +
𝟐 𝒏𝟏 𝒏𝟐
𝑆12 𝑆22 𝑆12 𝑆22
𝑋ത1 − 𝑋ത2 − 𝑍𝛼ൗ + < 𝜇1 − 𝜇2 < 𝑋ത1 − 𝑋ത2 + 𝑍𝛼ൗ +
2 𝑛1 𝑛2 2 𝑛1 𝑛2
Cuando n ≤ 30
𝑺𝟐𝟏 𝑺𝟐𝟐
ഥ𝟏 − 𝑿
𝑿 ഥ 𝟐 ± 𝒕𝜶ൗ +
𝟐 𝒏𝟏 𝒏𝟐
𝑆12 𝑆22 𝑆12 𝑆22
𝑋ത1 − 𝑋ത2 − 𝑡𝛼ൗ + < 𝜇1 − 𝜇2 < 𝑋ത1 − 𝑋ത2 + 𝑡𝛼ൗ +
2 𝑛1 𝑛2 2 𝑛1 𝑛2
Se utilizan las siguientes fórmulas si desconocemos la varianza poblacional:
SUPONEMOS QUE SON IGUALES POBLACIONES (DEPENDIENTES)
Cuando n > 30
𝒏𝟏 − 𝟏 𝑺𝟐𝟏 + 𝒏𝟐 − 𝟏 𝑺𝟐𝟐 𝟏 𝟏
ഥ𝟏 − 𝑿
𝑿 ഥ 𝟐 ± 𝒁𝜶ൗ +
𝟐 𝒏𝟏 + 𝒏𝟐 − 𝟐 𝒏𝟏 𝒏𝟐
𝑛1 − 1 𝑆12 + 𝑛2 − 1 𝑆22 1 1 𝑛1 − 1 𝑆12 + 𝑛2 − 1 𝑆22 1 1
𝑋ത1 − 𝑋ത2 − 𝑍𝛼ൗ + < 𝜇1 − 𝜇2 < 𝑋ത1 − 𝑋ത2 + 𝑍𝛼ൗ +
2 𝑛1 + 𝑛2 − 2 𝑛1 𝑛2 2 𝑛1 + 𝑛2 − 2 𝑛1 𝑛2
Cuando n ≤ 30
𝒏𝟏 − 𝟏 𝑺𝟐𝟏 + 𝒏𝟐 − 𝟏 𝑺𝟐𝟐 𝟏 𝟏
ഥ𝟏 − 𝑿
𝑿 ഥ 𝟐 ± 𝒕𝜶ൗ +
𝟐 𝒏𝟏 + 𝒏𝟐 − 𝟐 𝒏𝟏 𝒏𝟐
𝑛1 − 1 𝑆12 + 𝑛2 − 1 𝑆22 1 1 𝑛1 − 1 𝑆12 + 𝑛2 − 1 𝑆22 1 1
𝑋ത1 − 𝑋ത2 − 𝑡𝛼ൗ + < 𝜇1 − 𝜇2 < 𝑋ത1 − 𝑋ത2 + 𝑡𝛼ൗ +
2 𝑛1 + 𝑛2 − 2 𝑛1 𝑛2 2 𝑛1 + 𝑛2 − 2 𝑛1 𝑛2
La altura media de los alumnos del ITNL se distribuye según una normal con desviación típica de 15 cm y la
de las alumnas sigue una normal con desviación típica de 18 cm. Para estimar la diferencia de altura media
de los chicos y las chicas se elige una muestra al azar de 40 alumnos y de 35 alumnas. Las alturas medias
muéstrales son:
XH = 170 cm y XM = 160 cm.
Encontrar el intervalo de confianza para la diferencia de alturas medias al nivel del 90%.
TAREA
3.- De dos muestras independientes de tamaño 16 y 25 que provienen de
poblaciones normales con desviaciones 4.8 y 3.5 respectivamente, se
encontró que tienen medias de 18.2 y 23.4; Encuentre un intervalo de
confianza del 95% para la diferencia de estas medias.
4.- Doce arboles cítricos de cierta variedad tienen una media de 13.8 pies
de altura y una desviación de 1.2 pies, y 15 arboles cítricos de otra variedad
tienen una media de 12.9 y desviación de 1.5; encuentre el intervalo de
confianza para el 90% para la diferencia entre medias si:
a) Provienen de poblaciones con varianzas iguales
b) Provienen de poblaciones con varianzas diferentes
INTERVALOS DE CONFIANZA PARA PROPORCIÓN
• Sirve para calcular la estimación de la proporción de elementos de una
población que tiene ciertas características de interés
Proporcion muestral. Formula :
𝑥
P=
𝑛
X= numero de éxitos.
N=tamaño de la muestra.
Ejemplo: Se llevo a cabo una encuesta de mercado para calcular la
proporción de amas de casa que reconocerían el nombre de la marca de un
limpiador a partir de la forma y color del envase, de las 1400 amas de casa
de la muestra 420 identificaron la marca por su nombre.
b) Construya el intervalo de confianza del 99% de la
a) calcule el valor
proporción muestral.
de la 0.3 1−0.3
p=0.3 0.3±2.58
proporción 1400
n=1400
muestral.
1-α=99%
Z =2.58 √0.3(0.7)
X= 420 =0.3±2.58
n= 1400 1400
=0.3±0.03
𝟒𝟐𝟎
P= = 0.3= 30% Respuesta: 27%-33% de amas de
𝟏𝟒𝟎𝟎
casa que identifican la marca por 0.3+0.03= 0.33 x 100= 33%
su presentación comercial. 0.3-0.03= 0.27 x 100=27%
TAREA
5.- Entre los 100 peces capturados en cierto lago, 18 no eran comestibles
como resultado de la contaminación química del ambiente. Construya el
intervalo de confianza para el 96%.
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES
• Los limites para el intervalo de una diferencia de proporción correspondientes a dos muestras
independientes son:
FORMULA:
• Donde el símbolo Za/2 es el mismo valor critico que antes, prob( Z > Za/2 )= a/2, y
corresponde a un intervalo de confianza 1 – a%.
Interpretación.
Como el “0” esta dentro de los limites; no hay diferencias significativas entre la proporción de defectos antes del cambio y
después del cambio
TAREA
6.- En una muestra aleatoria de visitantes a un sitio turístico famoso, 84 de
250 hombres y 156 de 250 mujeres compraron recuerdos. Construya el
intervalo de confianza para el 94%.
INTERVALO DE CONFIANZA PARA LA VARIANZA
Si tenemos una muestra de tamaño n tomada de una población normal, podemos obtener un
intervalo de confianza del nivel dado (90%, 95%, 99%, etc) para la varianza
A partir del estadístico:
La fórmula para el intervalo de confianza, con nivel de confianza 1 − α es la siguiente:
(𝑛 − 1)𝑠 2 (𝑛 − 1)𝑠 2
, 2
𝜒𝛼2 𝜒 𝛼
2 ,𝑛−1
1− 2 , 𝑛−1
Podemos encontrar el intervalo de confianza correspondiente para la desviacion estandar, σ,
obteniendo las raíces cuadradas de los límites de confianza para la varianza.
Ejercicio
Estimar la varianza de una población normal, con una muestra de 22 elementos que
alcanzo una varianza muestral de 16. Calcular un intervalo de confianza para 𝜎 2 del
95% 2 2
(𝑛 − 1)𝑠 (𝑛 − 1)𝑠
,
𝜒𝛼2 𝜒2 𝛼
, 𝑛−1 1− , 𝑛−1
2 2
22 − 1 16 22 − 1 16
2 ,
𝜒0.05 𝜒2 0.05
2 ,22−1
1− 2 , 22−1
21 16 21 16
2 , 2
𝑋0.025,21 𝑋0.975, 21
21 16 21 16
,
35.48 10.28
Intervalo de confianza para la varianza
9.4701, 32.6848
3.0773, 5.7170 Intervalo de confianza para la desviación
TAREA
7.- La longitud de los cráneos de 10 esqueletos fósiles de una especie
extinta de pájaros tiene una media de 5.68 cm y una desviación de 0.29 cm.
Encuentre el intervalo de confianza del 95% para la varianza y la desviación.
INTERVALO DE CONFIANZA PARA EL COCIENTE DE DOS VARIANZAS
Intuitivamente, podríamos comparar las varianzas de dos poblaciones, 𝜎²₁ y σ²₂,
utilizando la razón de las varianzas muéstrales
S₁² ̸ S²₂
y si es casi igual a 1, se tendrá poca evidencia para indicar que σ²₁ y σ²₂ no son iguales.
Por otra parte, un valor muy grande o muy pequeño para S₁² ̸ S²₂, proporcionará
evidencia de una diferencia en las varianzas de las poblaciones.
Para encontrar un intervalo de confianza para el cociente de dos varianzas, empleamos
la distribución F que es similar a como hicimos en el caso de una sola varianza
empleando la distribución chi cuadrada, sólo que ahora usamos el estadístico definido
por:
El intervalo de confianza que resulta es
1 𝑠12 𝜎12 𝑠12
∗ 2 ≤ 2 ≤ 𝐹1−𝛼, 𝑛 −1, 𝑛 −1 ∗ 2
𝐹1−𝛼, 𝑛 𝑠2 𝜎2 2 1 2 𝑠2
2 2 −1, 𝑛1 −1
1 𝑠12 𝑠12
∗ 2 , 𝐹1−𝛼, 𝑛 −1, 𝑛 −1 ∗ 2
𝐹1−𝛼, 𝑛 𝑠2 2 1 2 𝑠2
2 2 −1, 𝑛1 −1
donde Fα/2 es el valor de una distribución F de Fisher-Snedecor
con n1 − 1 y n2 − 1 grados de libertad que deja a su derecha una
probabilidad de α/2.
Ejemplo
Un fabricante de automóviles pone a prueba dos nuevos métodos de ensamblaje de motores respecto al
tiempo en minutos. Los resultados se muestran en la tabla siguiente: Construir un intervalo de confianza
del 90% para
1 𝑠12 𝑠12
∗ 2 , 𝐹1−𝛼, 𝑛 −1, 𝑛 −1 ∗ 2
𝐹1−𝛼, 𝑛 𝑠2 2 1 2 𝑠2
2 2 −1, 𝑛1 −1
1 50 50
∗ , 𝐹 0.1 ∗
𝐹 0.1 24 1− 2 , 31−1,25−1 24
1− 2 , 25−1,31−1
1 50 50
∗ , 𝐹0.95, 24, 30 ∗
𝐹0.95, 24, 30 24 24
1 50 50
∗ , 1.939 ∗
1.887 24 24
1.1040, 4.0395 Intervalo de confianza para la razón de varianzas
1.0507, 2.0098 Intervalo de confianza para la razón de desviaciones
TAREA
8.- Doce arboles cítricos de cierta variedad tienen una media de 13.8 pies
de altura y una desviación de 1.2 pies, y 15 arboles cítricos de otra variedad
tienen una media de 12.9 y desviación de 1.5; construya el intervalo de
confianza del 98% para la razón de varianzas
SELECCIÓN TAMAÑO DE MUESTRA
• Una preocupación frecuente al diseñar un estudio estadístico consiste en cuántos
elementos debe haber en una muestra.
• Si una muestra es demasiado grande, se gasta mucho dinero en recabar datos.
• Si la muestra es muy pequeña, las conclusiones resultarán inciertas.
• El tamaño adecuado de una muestra depende de tres factores:
1. El nivel de confianza deseado. (Los mas comunes son de 95% y 99%).
2. El margen de error que tolerará el investigador. (corresponde a la mitad
de la amplitud del intervalo de confianza, entre mas pequeño mayor el tamaño de
muestra, entre mas grande menor la muestra).
3. La variabilidad de la población que se estudia. (la población esta dispersa
mayor tamaño de muestra, si esta mas concentrada menor tamaño).
• Existen distintas formas de encontrar el tamaño de muestra en este
tema veremos usando:
RECORDAR QUE
q=1-p
EJEMPLOS
Un estudiante de administración pública desea determinar la cantidad media que ganan al
mes los miembros de los consejos ciudadanos de las grandes ciudades. El error al calcular
la media debe ser inferior a $100, con un nivel de confianza de 95%. El estudiante
encontró un informe del Departamento del Trabajo en el que la desviación estándar es de
$1 000. ¿Cuál es el tamaño de la muestra que se requiere?
DATOS FÓRMULA Y PROCEDIMIENTO
𝑒 = 100
𝑁𝐶 = 1 − 𝛼 = 95% 𝑧𝛼 𝜎 2 2
𝛼 = 5% = 0.05 2 (1.96)(1000)
𝑛= = = 384.16 ≈ 385
𝜎 = 1000 𝑒 100
𝑧𝛼 = 1.96
2
Siempre se aproxima hacia arriba…. Mejor que sobre a que falte
FÓRMULA Y PROCEDIMIENTO
¿Cuál seria el tamaño de muestra si el consejo tiene 5000 miembros?
𝑁 𝑧𝛼 2 𝜎 2 5000 1.96 2 (1000)2 19208000000
2
𝑛= 2 𝜎 2 + (𝑁 − 1)𝑒 2
= = = 356.81 ≈ 357
𝑧𝛼 1.96 2 (1000)2 +(5000 − 1)(100)2 53831600
2
En un estudio se calcula la proporción de ciudades que cuentan con recolectores de basura privados.
El estudiante desea que el margen de error se encuentre a 0.10 de la proporción de la población; el
nivel de confianza deseado es de 90%, y no se encuentra disponible ningún estimador para la
proporción de la población. ¿Cuál es el tamaño de la muestra que se requiere?
(cuando no tenemos el estimador de la proporción se trabaja con p=0.5)
DATOS FÓRMULA Y PROCEDIMIENTO
𝑒 = 0.10
𝑁𝐶 = 1 − 𝛼 = 90% 𝑧𝛼 2 𝑝(1 − 𝑝) 1.65 2 (0.5)(1 − 0.5) 0.680
2
𝛼 = 10% = 0.1 𝑛= = = = 68
𝑒2 (0.1)2 0.01
𝑝 = 0.5
𝑧𝛼 = 1.65
2 Siempre se aproxima hacia arriba…. Mejor que sobre a que falte
FÓRMULA Y PROCEDIMIENTO
¿Cuál seria el tamaño de muestra si se cuenta con 5000 ciudades?
𝑁 𝑧𝛼 2 𝑝(1 − 𝑝) 5000 1.65 2 (0.5)(1 − 0.5) 3403.125
2
𝑛= = = = 67.162 ≈ 68
𝑧𝛼 2 𝑝(1 − 𝑝) + (𝑁 − 1)𝑒 2 1.65 2 (0.5)(1 − 0.5) + (5000 − 1)(0.1)2 50.670
2
TAREA
9.- Cuántas personas deben formar la muestra para estimar la prevalencia (es una
proporción) de la miopía en los menores de 18 años en una población de en la
que actualmente hay censados 10.000 menores de 18 años. Sabemos
previamente que la proporción esperada está alrededor del 60%. Escogemos
un nivel de os confianza del 95% y admitimos un margen de error del 4%.
10.- En una fábrica de muebles con un proceso muy mecanizado se quiere saber
cuál es la media del peso de un determinado modelo de mesa que ha sido
fabricado a lo largo del último año. Se han fabricado una cantidad muy grande de
unidades. Por anteriores ejercicios sabemos que la desviación típica σ de la
variable buscada está alrededor de 50 gr. Queremos saber la media con un
margen de error del 95% y admitimos un margen de error de 6 gr.
SELECCIÓN DEL TAMAÑO DE MUESTRA PARA
ESTIMAR LA DIFERENCIA DE DOS MEDIAS
El método más sencillo implica no tomar en cuenta el error tipo II (β) y
contemplar que los tamaños de muestra sean iguales.
𝑧𝛼2 𝜎12 + 𝜎22
𝑛=
𝑑2
Donde d es la diferencia entre las medias.
Si tomamos en cuenta el error tipo II y se desconoce las varianzas de las
poblaciones
2 2
2 𝑧𝛼 + 𝑧 𝛽 𝑠
𝑛=
𝑑2
Un director de personal quiere comparar la efectividad de dos métodos de
entrenamiento para trabajadores industriales a fin de efectuar cierta
operación de montaje. Se divide un número de operarios en dos grupos
iguales: el primero recibe el método de entrenamiento 1, y el segundo, el
método 2. Cada uno realizará la operación de montaje y se registrará el
tiempo de trabajo. Se espera que las mediciones para ambos grupos tengan
una desviación estándar aproximadamente de 2 minutos. Si se desea que la
estimación de la diferencia en tiempo medio de montaje sea correcta hasta
por un minuto, con una probabilidad igual a 0.95, ¿cuántos trabajadores se
tienen que incluir en cada grupo de entrenamiento?
𝑧𝛼2 𝜎12 + 𝜎22 (1.96)2 22 + 22
𝑛= 2
= 2
= 31
𝑑 1
Se desea utilizar un nuevo fármaco antidiabético y se considera que
sería clínicamente eficaz si lograse un descenso de 15 mg/dl respecto al
tratamiento habitual con el antidiabético estándar. Por estudios previos
sabemos que la desviación típica de la glucemia en pacientes que
reciben el tratamiento habitual es de 16 mg/dl. Se acepta un riesgo de
0,05 y se desea una potencia estadística del 90 % para detectar
diferencias, si es que existen: