Estimação de
Parâmetros
Prof. Claudio Loesch
[email protected]
Departamento de Matemática
UFSC – Campus Blumenau
Estimadores
Parâmetros são medidas descritivas de alguma população, usadas como entradas na sua
distribuição de probabilidades, tais como o valor de 𝑝 na distribuição de Bernoulli, μ e σ na
normal, λ na exponencial, etc. Iremos denotar um parâmetro de forma geral por 𝜃 .
Muitas vezes o valor de algum parâmetro 𝜃 de uma V.A. populacional é desconhecido.
Um estimador para um parâmetro 𝜃 é uma estatística usada para obter uma estimativa, que
é o valor numérico obtido a partir de uma amostra extraída da população.
Quando propomos o uso de um estimador para obter uma estimativa de algum
parâmetro 𝜃, não esperamos realmente a estimativa venha a ser igual a 𝜃 pois, sendo
uma estatística, pode tomar diferentes valores para diferentes amostras, devido às
variabilidade natural da V.A. Este dilema origina duas importantes questões:
1. Quais as características que desejamos que um “bom” estimador apresente?
2. Como decidiremos que um estimador é “melhor” do que outro?
Para isso, vamos estabelecer qualidades que um estimador deveria apresentar:
Qualidades de um estimador para um parâmetro 𝜃 (tamanho da amostra = 𝑛):
1) é justo (ou não-tendencioso) se o seu valor esperado é igual ao valor do parâmetro,
isto é, .
2) é consistente se, além de justo, = 0 (as estimativas melhoram à medida que o tamanho da
amostra aumente).
3) é eficiente se nenhum outro estimador possuir variância menor que .
Exemplo. O TEOREMA 1 (distribuições amostrais) afirma que, numa amostra aleatória 𝑋1, 𝑋2,
, 𝑋𝑛 de valor esperado 𝐸(𝑋𝑖) = 𝜇e variância 𝑉(𝑋 𝑖) = 𝜎 2, a média amostral aproxima-se da
distribuição normal de valor esperado e variância .
Como , é um estimador justo para 𝜇. E como , tem-se
,
portanto também é um estimador consistente para 𝜇. É possível mostrar-se que é eficiente,
isto é, nenhum outro estimador para 𝜇 possui variância menor do que .
Estimação pontual
A estimação por ponto consiste em fornecer a melhor estimativa possível para um
parâmetro mediante um valor único. Devemos sempre usar o melhor estimador, isto é,
aquele que possua as três qualidades apresentadas.
Melhores estimadores de alguns parâmetros populacionais:
a média amostral é o melhor estimador para a média populacional 𝐸
= 𝑋(𝑋);
a variância amostral é o melhor estimador para a variância popul. 𝑉(𝑋);
a proporção amostral 𝑃 é o melhor estimador para a probabilidade 𝑝 de alguma
característica observável = a proporção dessa característica na população finita.
Exemplo 1. O mês mais quente em Blumenau é fevereiro. Uma amostra de 10 temperaturas
máximas diárias neste resultou nos valores 30,2; 25,5; 28,4; 30,5; 24,8; 27,2; 28,2; 26,1; 29,3;
25,8. Encontre estimativas para a média e variância da V.A. 𝑋 = temp. máxima diária em
Blumenau em fevereiro.
Como a média 𝜇 é desconhecida:
Exemplo 2. Numa enquete sobre ‘a favor da pena de morte’, 16 pessoas responderam e o resultado
foi 1; 0; 0; 1; 1; 1; 0; 1; 1; 0; 1; 1; 0; 1; 1; 0 onde 1 codifica a favor e 0 contra. Encontre a estimativa
para a proporção populacional a favor da pena de morte.
Estimativa intervalar
A estimativa intervalar usa os valores de uma amostra para estimar um intervalo de
confiança (𝐼.𝐶.) para o valor de um parâmetro populacional 𝛳 desconhecido, de
forma que 𝛳 pertence ao I.C. com uma probabilidade 1 – 𝛼, chamado nível de
confiança do intervalo. Este valor é pré-estabelecido.
Usualmente a estimativa pontual está no centro do I.C. que é, assim, um intervalo da
forma [ ⎼ 𝑒, + 𝑒] onde 𝑒 é o raio do I.C. Então 1 – 𝛼 = 𝑃𝑟( ⎼ 𝑒 ≤ 𝛳 ≤ + 𝑒).
O valor a é a probabilidade de erro, que é a probabilidade do parâmetro 𝛳 estar fora
do intervalo, de forma que 𝑃𝑟(𝛳 < ⎼ 𝑒) = 𝛼/2 e 𝑃𝑟(𝛳 > + 𝑒) = 𝛼/2.
Por exemplo, seja a V.A. estatura do brasileiro adulto masculino, da qual desconhecemos
o valor de sua média 𝜇. Mediante alguma amostra obtivemos um I.C. [1,69 , 1,72] com
um nível de confiança de 95%. Isso quer dizer que 𝑃𝑟(1,69 ≤ 𝜇 ≤ 1,72) = 0,95;
probabilidade de erro é 𝛼 = 0,05 = 5%, sendo que 𝑃𝑟(𝜇 < 1,69) = 𝑃𝑟(𝜇 > 1,72) =
0,025.
I.C. para a Média Populacional
A partir da (média) e (desvio padrão) construímos um 𝐼.𝐶. Para a média
populacional de raio 𝑒, de forma [⎼ 𝑒, + 𝑒] ou ± 𝑒. Vamos ver a dedução de como calcular
o raio 𝑒 do intervalo.
𝛼 /2 = 𝑃𝑟( ⎼ 𝜇 > 𝑒) = 𝑃𝑟
e, como , tem-se 𝑃 =𝑟
/2
𝑃 = 𝑟 ( 𝑡𝑛⎼1 > 𝑡𝑛⎼1;𝛼 /2) e, assim,
Mas /2
⇒ ⇒
𝐼 .𝐶 .= [ 𝑥 −𝑒; 𝑥+𝑒 ]
Resumindo. A partir de uma amostra de tamanho 𝑛, calculamos a média e seu desvio-
padrão 𝑠. A partir de um nível de confiança 1 ⎼𝛼 desejado, procuramos na tabela . Então
calculamos 𝑒, e daí temos .
No EXCEL:
Funções com nomes que começam com DIST, como DIST.NORM.P(𝑥, cumul.) DIST.T(𝑥, gl,
cumul.), DIST.POISSON(𝑥, cumul.) retornam:
• Se cumulativo = 1, , a fda da variável aleatória 𝑋;
• Se cumulativo = 0, se a V.A. 𝑋 é discreta; a fdp 𝑓(𝑥) se 𝑋 é contínua.
Funções com nomes que começam com INV como INV.NORM(𝑝) e INV.T(𝑝, 𝑔𝑙) são as
inversas das acima quando usadas com valor cumulativo 1. Essas funções como tem
como primeiro parâmetro uma probabilidade 0 ≤ 𝑝 ≤ 1 e retornam um número real 𝑥
tal que = 𝑝.
Exemplo:
= DIST.NORMP.N(1,644854; 1) retorna valor 0,95
= INV.NORMP.N(0,95) retorna valor 1,644854
Exemplo 1. A amostra de 10 notas de Matemática de uma população de alunos do Ensino
Médio forneceu = 5,6 e 𝑠 = 1,3098. Qual é o 𝐼.𝐶. para a média da população a um nível de
confiança de (a) 90%; (b) 95% ?
(a) Nível de confiança 90%: 1–a = 0,90 a = 0,10 a/2 = 0,05 t9;0,05 = 1,8331.
Então = 0,76. Então I.C. = [5,6 ⎼ 0,76, 5,6 + 0,76]
= [4,84; 6,36] ou 5,6 0,76.
(b) Nível de confiança 95%: encontra-se 𝑒 = 0,94 e assim
𝐼.𝐶. = [4,66; 6,54] ou 5,6 0,94.
Observação: no Excel = INV.T(0,95; 9) retorna 1,8331.
I.C. para a Proporção Populacional (ou Probabilidade)
A partir da frequência relativa 𝑓 construímos um 𝐼.𝐶. [𝑓 ⎼ 𝑒, 𝑓 𝑒] de raio 𝑒 para a proporção
populacional (ou para a probabilidade) 𝑝. Então,
𝛼/2 = 𝑃𝑟(𝑝 < 𝑓 ⎼ 𝑒) = 𝑃𝑟(𝑓 ⎼ 𝑝 > 𝑒) = 𝑃𝑟
e, como , resulta /2𝑃 = 𝑟 . Como /2 𝑃 = 𝑟 (Z > z 𝛼/2) tem-se
⇒.
Mas não podemos calcular 𝑒 dessa forma, 1-𝛼 a 𝛼/2 𝑧a/2
porque 𝑝 é desconhecido. Então usamos, em seu 0,90 0,10 0,05 1,645
lugar, a aproximação dada por sua estimativa 𝑓 . 0,95 0,05 0,025 1,960
Daí, 0,98 0,02 0,01 2,326
0,99 0,01 0,005 2,576
Tabela com alguns valores comuns para 𝛼.
Exemplo 2. Uma amostra de grupos sanguíneos analisada sobre 900 brasileiros revelou
que 324 deles pertencem ao grupo O+. Encontre o 𝐼.𝐶. para a proporção populacional
brasileira a um nível de confiança de 90%.
Temos
𝑛 = 900,
1 – a = 0,90 a = 0,10 e a/2 = 0,05 z0,05 = 1,645.
Assim,
⇒ 𝐼.𝐶. = [0,334; 0,386] ou 36% 2,6%.
Observações sobre o I.C.
Quanto mais largo um intervalo de confiança, pior é, pois aumenta a
imprecisão de localização do parâmetro; quando maior o nível de confiança melhor
é, pois aumenta a probabilidade nas previsões feitas por I.C. (o ideal seria 100%;
nunca haveria erro). Infelizmente, para uma amostra de tamanho fixo, o aumento do
nível de confiança produz intervalos cada vez mais largos.
Aumentar o tamanho 𝑛 da amostra acarreta mais trabalho, mas traz
benefícios porque, a uma nível de confiança fixado, aumentar 𝑛 implica em obter
I.C. mais estreitos pois seus raios são inversamente proporcionais à , o que diminui a
imprecisão.