Estatistica 017.410.195 32 1732714194
Estatistica 017.410.195 32 1732714194
Estatística
Estatística
Distribuições amostrais................................................................................................... 15
Inferência estatística. Estimação pontual: métodos de estimação, propriedades dos
estimadores, suficiência. Estimação intervalar: intervalos de confiança, intervalos de
credibilidade. Testes de hipóteses: hipóteses simples e compostas, níveis de signifi-
cância e potência de um teste, teste t de Student, teste qui-quadrado.......................... 65
Análise de regressão linear. Critérios de mínimos quadrados e de máxima verossi-
milhança. Modelos de regressão linear. Inferência sobre os parâmetros do modelo.
Análise de variância. Análise de resíduos....................................................................... 69
Técnicas de amostragem. Amostragem aleatória simples, estratificada, sistemática e
por conglomerados. Tamanho amostral......................................................................... 72
Exercícios........................................................................................................................ 74
Gabarito........................................................................................................................... 77
— Estatística Descritiva
O objetivo estatístico descritivo é sintetizar as principais características de um conjunto de dados usando
tabelas, gráficos e resumos numéricos.
As estatísticas estão se tornando uma importante ferramenta de apoio à decisão todos os dias. Resumindo:
É um conjunto de métodos e técnicos que ajudam a tomar decisões em meio à incerteza.
– Tabelas de frequência: ao dispor de uma lista volumosa de dados, as tabelas de frequência servem para
agrupar informações de modo que estas possam ser analisadas. As tabelas podem ser de frequência simples
ou de frequência em faixa de valores.
– Gráficos: o objetivo da representação gráfica é dirigir a atenção do analista para alguns aspectos de um
conjunto de dados. Alguns exemplos de gráficos são: diagrama de barras, diagrama em setores, histograma,
boxplot, ramo-e-folhas, diagrama de dispersão, gráfico sequencial.
– Resumos numéricos: por meio de medidas ou resumos numéricos podemos levantar importantes
informações sobre o conjunto de dados tais como: a tendência central, variabilidade, simetria, valores extremos,
valores discrepantes, etc.
– Estimação: a técnica consiste em utilizar um conjunto de dados incompletos, ao qual iremos chamar
de amostra, e nele calcular estimativas de quantidades de interesse. Estas estimativas podem ser pontuais
(representadas por um único valor) ou intervalares.
– Teste de Hipóteses: o fundamento é levantar suposições acerca de uma quantidade não conhecida e
utilizar, também, dados incompletos para criar uma regra de escolha.
População e amostra
– População: conjunto de todas as unidades sobre as quais há o interesse de investigar uma ou mais
características.
– Qualitativas: quando seus valores são expressos por atributos: sexo (masculino ou feminino), cor da pele,
entre outros. Dizemos que estamos qualificando.
– Quantitativas: quando seus valores são expressos em números (salários dos operários, idade dos alunos,
etc). Uma variável quantitativa que pode assumir qualquer valor entre dois limites recebe o nome de variável
contínua; e uma variável que só pode assumir valores pertencentes a um conjunto enumerável recebe o nome
de variável discreta.
– Crítica dos dados: Uma vez recebidos, os dados devem ser verificados cuidadosamente, procurando
possíveis enganos e imperfeições, para não cometer enganos grosseiros ou grandes que possam afetar
significativamente os resultados. A crítica pode ser externa e interna.
– Apuração dos dados: soma e processamento dos dados obtidos e a disposição mediante critérios de
classificação, que pode ser manual, eletromecânica ou eletrônica.
– Exposição ou apresentação de dados: os dados devem ser apresentados sob forma adequada (tabelas
ou gráficos), isso torna mais fácil o exame daquilo que está sendo objeto de tratamento estatístico.
– Análise dos resultados: realizadas anteriores (Estatística Descritiva), fazemos uma análise dos resultados
obtidos, através dos métodos da Estatística Indutiva ou Inferencial, que tem por base a indução ou inferência,
e tiramos desses resultados conclusões e previsões.
Censo
Avaliação direta de um parâmetro, utilizando-se todos os componentes da população.
Principais propriedades:
– Admite erros processual zero e tem 100% de confiabilidade;
– É caro;
– É lento;
– É quase sempre desatualizado (visto que se realizam em períodos de anos 10 em 10 anos);
– Nem sempre é viável.
– Dados brutos: é uma sequência de valores numéricos não organizados, obtidos diretamente da observação
de um fenômeno coletivo.
Tabelas de frequência
Podemos agrupar os valores de variáveis quantitativas ou qualitativas a partir de dados brutos e criar
tabelas de frequências. As tabelas de frequência podem ser simples ou por faixas de valores, dependendo da
classificação da variável.
— Distribuição de Frequência
O termo “frequência” indica o número de vezes que um dado aparece numa observação estatística. Exemplo:
Um professor organizou os resultados obtidos em uma prova com 25 alunos da seguinte forma:
Organizando-os de modo que a consulta a eles seja simplificada. Depois, faremos a distribuição de frequência
destas notas, por meio da contagem de dados, que podemos chamar de frequência de dados absolutos.
A forma como organizamos os dados é conhecida como distribuição de frequência, e o número de vezes
que um dado aparece é chamado de frequência absoluta. O somatório SEMPRE é a quantidade de dados
apresentados, que neste é 25.
Agrupamento em Classes
Em uma distribuição de frequência, ao trabalhar com grandes conjuntos de dados e com valores dispersos,
podemos agrupá-los em classes. Isso torna mais fácil entender os dados e visualizá-los melhor.
Se o conjunto de dados for muito disperso, agrupar-se os dados criando uma escala de frequência é a
melhor representação. Ocorrência contrário, a tabela será muito longa.
Exemplo: Um radar instalado em uma rodovia registrou a velocidade (em Km/h) de 40 veículos.
O maior valor (128) e o Menor valor (70) são obtidos da lista dos registros das velocidades dos 40 veículos.
– Montar as classes a partir do Menor valor (70), somando com a amplitude de classe (10) até que se chegue
na 6ª classe, assim:
Faz-se uso no Brasil da seguinte notação de intervalo ├ (Resolução 866/66 do IBGE). Já na literatura
estrangeira utiliza‐se comumente com intervalo fechado.
– Limites de classe: valores extremos de cada classe. No exemplo 70 ├ 80, temos que o limite inferior é 70
e o limite superior 80.
– Amplitude total da distribuição (AT): diferença entre o limite superior da última classe e o limite inferior
da primeira classe, no exemplo 130 – 70 = 60.
– Amplitude amostral (AA): diferença entre o valor máximo e o valor mínimo da amostra, no exemplo 128
– 70 = 58.
Assim temos as distribuições de frequências absoluta f, relativa fr(%), absoluta acumulada Fa e relativa
acumulada FRa(%), bem como o Histograma desta distribuição.
– Polígono de frequência: gráfico em linha que representa os pontos centrais dos intervalos de classe.
Construímos este gráfico, através do cálculo do ponto central de classe (xi), que é o ponto que divide o intervalo
de classe em duas partes iguais.
Para construirmos polígono de frequência:
1º) Construímos um histograma;
2º) Marcamos no “telhado” de cada coluna o ponto central e
3º) Unimos sequencialmente esses pontos.
– Ogiva: é um polígono de frequência acumulada. Representada por um gráfico em linha que representa as
frequências acumuladas (Fa), levantada nos pontos correspondentes aos limites superiores dos intervalos de
classe. Construção: elaborar o histograma de frequência f em uma escala menor, considerando o último valor
a frequência acumulada da última classe, no caso, 40.
Gráficos
Tem como objetivo da representação. Dentre eles temos:
– Gráfico de Barras: este tipo de gráfico é interessante para as variáveis qualitativas ordinais ou quantitativas
discretas, pois permite investigar a presença de tendência nos dados. Elas podem ser na vertical ou horizontal.
Exemplos:
– Histograma: este consiste em retângulos contíguos com base nas faixas de valores da variável e com
área igual à frequência relativa da respectiva faixa. Desta forma, a altura de cada retângulo é denominada
densidade de frequência ou simplesmente densidade definida pelo quociente da área pela amplitude da faixa.
– Polígono de Frequência: se assemelha ao histograma, porém é construído a partir dos pontos médios
das classes. Exemplo:
– Cartograma: representação sobre uma carta geográfica (mapa). Utilizamos para dados relacionados com
áreas geográficas ou políticas.
– Tendência central: elas indicam, em geral, um valor central em torno do qual os dados estão distribuídos.
– Ponderada: é a soma dos produtos de cada elemento multiplicado pelo respectivo peso, dividida
pela soma dos pesos. Para o cálculo:
Mediana (mdobs)
Valor central em um conjunto de dados ordenados. Pela mediana o conjunto de dados é dividido em duas
partes iguais sendo metade dos valores abaixo da mediana e, a outra metade, acima.
1 – Para um conjunto com um número n (ímpar) de observações, a mediana é o valor na posição n+1/2.
2 – Para um conjunto com um número n (par) de observações a mediana é a media aritmética dos valores
nas posições n/2 e n/2 + 1.
Moda
Valor que aparece com maior frequência.
at = ES - EI
onde:
ES: extremo superior do conjunto de dados ordenado;
EI: extremo inferior do conjunto de dados ordenado.
A amplitude total é uma medida pouco precisa, por esta razão é extremamente influenciada por valores
discrepantes.
– Variância: representada por s² , é a medida de dispersão mais utilizada, seja pela sua facilidade de
compreensão e cálculo, seja pela possibilidade de emprego na inferência estatística. É dada pela média dos
quadrados dos desvios em relação à média aritmética. Assim, temos:
onde:
n −1: é o número de graus de liberdade ou desvios independentes.
A utilização do denominador n −1, em vez de n, tem duas razões fundamentais:
– Desvio Padrão: representado por s, surge para solucionar o problema de interpretação da variância e é
definido como a raiz quadrada positiva da variância. Assim, temos:
– Separatrizes: elas delimitam proporções de observações de uma variável ordinal. Elas estabelecem
limites para uma determinada proporção 0 ≤ p ≤ 1 de observações. Trata-se de medidas intuitivas, de fácil
compreensão e frequentemente resistentes.
A mediana divide o conjunto em duas metades, essas medidas separatrizes são denominadas quartis.
– Quartis: representados por Qi, onde i = 1, 2 e 3, são três medidas que dividem um conjunto de dados
ordenado em quatro partes iguais. São elas:
− Primeiro quartil (Q1): 25% dos valores ficam abaixo e 75% ficam acima desta medida.
− Segundo quartil (Q2): 50% dos valores ficam abaixo e 50% ficam acima desta medida. O segundo quartil
de um conjunto de dados corresponde à mediana (Q2 = Md).
− Terceiro quartil (Q3): 75% dos valores ficam abaixo e 25% ficam acima desta medida.
PROBABILIDADE
O estudo da probabilidade vem da necessidade de em certas situações, prevermos a possibilidade de
ocorrência de determinados fatos.
A teoria da probabilidade é o ramo da Matemática que cria e desenvolve modelos matemáticos para estudar
os experimentos aleatórios. Alguns elementos são necessários para efetuarmos os cálculos probabilísticos.
Experimentos aleatórios são fenômenos que apresentam resultados imprevisíveis quando repetidos, mes-
mo que as condições sejam semelhantes.
Exemplos
a) lançamento de 3 moedas e a observação das suas faces voltadas para cima
b) jogar 2 dados e observar o número das suas faces
c) abrir 1 livro ao acaso e observar o número das suas páginas.
Evento é qualquer subconjunto de um espaço amostral (S); muitas vezes um evento pode ser caracterizado
por um fato. Indicamos pela letra E.
Exemplo
a) no lançamento de 3 moedas:
E1→ aparecer faces iguais
E1 = {(c,c,c);(k,k,k)}
O número de elementos deste evento E1 é n(E1) = 2
E2→ aparecer coroa em pelo menos 1 face
E2 = {(c,c,k); (c,k,k); (c,k,c); (k,k,k,); (k,c,k); (k,c,c); (k,k,c)}
Logo n(E2) = 7
Veremos agora alguns eventos particulares:
Evento certo é aquele que possui os mesmos elementos do espaço amostral (todo conjunto é subconjunto
de si mesmo); E = S.
Exemplo
A soma dos resultados nos 2 dados ser menor ou igual a 12.
Exemplo
O número de uma das faces de um dado ser 7.
E: Ø
Exemplo
A soma do resultado de dois dados ser igual a 12.
E: {(6,6)}
E1: {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3) (2,4), (2,5), (2,6)}
Como, C = S – E1
C = {(3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5),
(5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)}
Eventos mutuamente exclusivos, dois ou mais eventos são mutuamente exclusivos quando a ocorrência
de um deles implica a não ocorrência do outro. Se A e B são eventos mutuamente exclusivos, então: A ∩ B = Ø.
Sejam os eventos:
A: quando lançamos um dado, o número na face voltada para cima é par.
A = {2,4,6}
B: quando lançamos um dado, o número da face voltada para cima é divisível por 5.
B = {5}
Os eventos A e B são mutuamente exclusivos, pois A ∩ B = Ø.
Sendo 0 ≤ P(E) ≤ 1 e S um conjunto equiprovável, ou seja, todos os elementos têm a mesma “chance
de acontecer.
Onde:
n(E) = número de elementos do evento E.
n(S) = número de elementos do espaço amostral S.
Exemplo
Lançando-se um dado, a probabilidade de sair um número ímpar na face voltada para cima é obtida da se-
guinte forma:
Sendo n(S) o número de elementos do espaço amostral, vamos dividir os dois membros da equação por n(S)
a fim de obter a probabilidade P (A U B).
P (A U B) = P(A) + P(B) – P (A ∩ B)
P (A U B) = P(A) + P(B)
Exemplo
A probabilidade de que a população atual de um país seja de 110 milhões ou mais é de 95%. A probabilidade
de ser 110 milhões ou menos é de 8%. Calcule a probabilidade de ser 110 milhões.
Sendo P(A) a probabilidade de ser 110 milhões ou mais: P(A) = 95% = 0,95
Sendo P(B) a probabilidade de ser 110 milhões ou menos: P(B) = 8% = 0,08
P (A ∩ B) = a probabilidade de ser 110 milhões: P (A ∩ B) = ?
P (A U B) = 100% = 1
Utilizando a regra da união de dois eventos, temos:
P (A U B) = P(A) + P(B) – P (A ∩ B)
1 = 0,95 + 0,08 - P (A ∩ B)
Probabilidade condicional
Exemplo
No lançamento de 2 dados, observando as faces de cima, para calcular a probabilidade de sair o número 5
no primeiro dado, sabendo que a soma dos 2 números é maior que 7.
Montando temos:
S = {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5),
(3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)}
Evento A: o número 5 no primeiro dado.
A = {(5,1), (5,2), (5,3), (5,4), (5,5), (5,6)}
Evento B: a soma dos dois números é maior que 7.
B = {(2,6), (3,5), (3,6), (4,4), (4,5), (4,6), (5,3), (5,4), (5,5), (5,6), (6,2), (6,3), (6,4), (6,5), (6,6)}
A ∩ B = {(5,3), (5,4), (5,5), (5,6)}
P (A ∩ B) = 4/36
P(B) = 15/36
Logo:
Eventos independentes, dois eventos A e B de um espaço amostral S são independentes quando P(A|B) =
P(A) ou P(B|A) = P(B). Sendo os eventos A e B independentes, temos:
Exemplo
Lançando-se simultaneamente um dado e uma moeda, determine a probabilidade de se obter 3 ou 5 no dado
e cara na moeda.
Sendo, c = coroa e k = cara.
S = {(1,c), (1,k), (2,c), (2,k), (3,c), (3,k), (4,c), (4,k), (5,c), (5,k), (6,c), (6,k)}
Evento A: 3 ou 5 no dado
A = {(3,c), (3,k), (5,c), (5,k)}
Os eventos são independentes, pois o fato de ocorrer o evento A não modifica a probabilidade de ocorrer o
evento B. Com isso temos:
P (A ∩ B) = P(A). P(B)
No entanto nem sempre chegar ao n(A ∩ B) é fácil, depende do nosso espaço amostral.
Exemplo:
Lançando-se uma moeda 4 vezes, qual a probabilidade de ocorrência 3 caras?
Está implícito que ocorrerem 3 caras deve ocorrer uma coroa. Umas das possíveis situações, que satisfaz o
problema, pode ser:
Temos que:
n=4
k=3
portanto
DISTRIBUIÇÃO NORMAL
CURVA NORMAL
Entre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a distribuição
normal.
Muitas das variáveis analisadas na pesquisa socioeconômica correspondem à distribuição normal ou dela
se aproximam.
O aspecto gráfico de uma distribuição normal é o da Figura 10.1:
Para uma perfeita compreensão da distribuição normal, observe a Figura 10.1 e procure visualizar as se-
guintes propriedades:
2°) A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da mé-
dia (), que recebe o nome de curva normal ou de Gauss.
3°) A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área corresponde à
probabilidade de a variável aleatória X assumir qualquer valor real.
5°) Como a curva é simétrica em torno de , a probabilidade de ocorrer valor maior do que a média é igual à
probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5. Escre-
vemos: P(X > ) = P(X < ) = 0,5.
Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal interesse é obter a
probabilidade de essa variável aleatória assumir um valor em um determinado intervalo. Vejamos como proce-
der, por meio de um exemplo concreto.
Seja X a variável aleatória que representa os diâmetros dos parafusos produzidos por certa máquina. Vamos
supor que essa variável tenha distribuição normal com média = 2 cm e desvio padrão s = 0,04 cm.
Pode haver interesse em conhecer a probabilidade de um parafuso ter um diâmetro com valor entre 2 e 2,05
cm.
É fácil notar que essa probabilidade, indicada por:
P (2 < X < 2,05),
Corresponde à área hachurada na Figura 10.2:
O cálculo direto dessa probabilidade exige um conhecimento de Matemática mais avançado do que aquele
que dispomos no curso de 2° grau. Entretanto, podemos contornar facilmente esse problema. Basta aceitar,
sem demonstração, que, se X é uma variável aleatória com distribuição normal de média e desvio padrão
s, então a variável:
tem distribuição normal reduzida, isto é, tem distribuição normal de média O e desvio padrão 1.
As probabilidades associadas à distribuição normal padronizada são encontradas em tabelas, não havendo
necessidade de serem calculadas.
Temos uma de distribuição normal reduzida, que nos dá a probabilidade de Z tomar qualquer valor entre a
média O e um dado valor z, isto é:
Temos, então, que se X é uma variável aleatória com distribuição normal de média e desvio padrão s, po-
demos escrever:
Queremos calcular P(2 < X < 2,05). Para obter essa probabilidade, precisamos, em primeiro lugar, calcular
o valor de z que corresponde
a . Temos, então:
donde:
P(2 < X < 2,05) = P(0 < X < 1,25)
Procuremos, agora, z = 1,25, porém para você que irá resolver apenas um exercício na prova, este valor
será dado, mas irei deixar abaixo a tabela onde poderá ser consultado este valor, para nossos problemas aqui
propostos.
Na primeira coluna encontramos o valor 1,2. Em seguida, encontramos, na primeira linha, o valor 5, que cor-
responde ao último algarismo do número 1,25. Na intersecção da linha e coluna correspondentes encontramos
o valor 0,3944, o que nos permite escrever:
P(0 < Z < 1,25) = 0,3944
Assim, a probabilidade de um parafuso fabricado por essa máquina apresentar um diâmetro entre a média
= 2 e o valor x = 2,05 é 0,3944.
Escrevemos, então:
P(2 < X < 2,05) = P(0 < Z < 1,25) = 0,3944 ou 39,44%
1. Determine as probabilidades:
a. P(-1,25 < Z < 0)
A probabilidade procurada corresponde à parte hachurada da figura:
Sabemos que:
P(0 < Z < 1,25) = 0,3944
Pela simetria da curva, temos:
P(-1,25 < Z < 0) = P(0 < Z < 1,25) = 0,3944
b. P(-0,5 < Z < 1,48)
A probabilidade procurada corresponde à parte hachurada da figura:
Temos:
P(-0,5 < Z < 1,48) = P(-0,5 < Z < 0) + P(0 < Z < 1,48)
Como:
P(-0,5 < Z < 0) = P(0 < Z < 0,5) = 0,1915
e
P(0 < Z < 1,48) = 0,4306,
obtemos:
P(-0,5 < Z < 1,48) = 0,1915 + 0,4306 = 0,6221
c. P(0,8 < Z < 1,23)
A probabilidade procurada corresponde à parte hachurada da figura:
Temos:
P(Z > 0,6) = P(Z > 0) - P(0 < Z < 0,6)
Como:
P(Z > 0) = 0,5 e P(0 < Z < 0,6) 0,2258,
obtemos:
P(Z > 0,6) - 0,5 - 0,2258 = 0,2742
e. P(Z < 0,92)
A probabilidade procurada corresponde à parte hachurada da figura:
Temos:
P(Z < 0,92) = P(Z < 0) + P(0 < Z < 0,92)
2. Os salários semanais dos operários industriais são distribuídos normalmente, em torno da média de R$
500, com desvio padrão de R$ 40. Calcule a probabilidade de um operário ter um salário semanal situado entre
R$ 490 e R$ 520.
Devemos, inicialmente, determinar os valores da variável de distribuição normal reduzida.
Assim:
Distribuições amostrais
Com as distribuições amostrais, você pode inferir propriedades de um agregado maior (a população) a partir
de um conjunto menor (a amostra), ou seja, inferir sobre parâmetros populacionais, dispondo apenas de esta-
tísticas amostrais.
Portanto, torna-se necessário um estudo detalhado das distribuições amostrais, que são base para interva-
los de confiança e testes de hipóteses.
Portanto, para que você tenha condições de fazer afirmações sobre um determinado parâmetro populacional
(ex: µ), baseadas na estimativa , obtido a partir dos dados amostrais, é necessário conhecer a relação exis-
tente entre e µ, isto é, o comportamento de , quando se extraem todas as amostras possíveis da popula-
ção, ou seja, sua distribuição amostral.
Para obtermos a distribuição amostral de um estimador, é necessário conhecer o processo pelo qual as
amostras foram retiradas, isto é, se amostras foram retiradas com reposição ou sem reposição.
Portanto, a partir do comportamento da estatística amostral, pode- se aplicar um teorema muito conhecido
na estatística como Teorema do Limite Central. Este teorema propõe que, se retirarmos todas as possíveis
amostras de tamanho n de uma população independente de sua distribuição, e verificarmos como as estatísti-
cas amostrais obtidas se distribuem, teremos uma distribuição aproximadamente normal, com
(variância das médias mostrais igual à variância da população dividida pelo tamanho da amostra), se
a amostragem for realizada com reposição, ou
,
se a amostragem for realizada sem reposição em uma população finita ( n/N > 0,05), independentemente da
distribuição da variável em questão.
Considere uma população formada pelos números {1, 2, 3}. Sabemos que esta população apresenta µ= 2 e
variância s2 = 2/3. Retire todas as amostras possíveis com n=2, fazendo com e sem reposição e calcule a
média das médias amostrais (µ2) e a variância das médias amostrais . Compare com os resultados da
população e veja se o teorema é verdadeiro. Pesquise este problema em sites da internet ou outros livros de
Estatística.
Portanto, considerando a distribuição amostral de médias, quando se conhece a variância ou a amostra é
grande (n > 30), utilizamos a estatística z da distribuição normal vista anteriormente, independente da distribui-
ção da população. Então, por meio do teorema do limite central, a estatística será dada por:
Porém, ocorre que, na prática, muitas das vezes não se conhece s2 e trabalha-se com amostras pequenas,
ou seja, menores ou iguais a 30. Assim, você conhece apenas sua estimativa s (desvio-padrão amostral). Subs-
tituindo σ por seu estimador s, na expressão da variável padronizada, obtém-se a variável:
Vamos aprender a utilizar a Tabela da distribuição de t de Student. Na Tabela t de Student, na primeira linha
temos o valor de α, que corresponde à probabilidade (área) acima de um determinado valor da tabela. Na
figura a seguir, temos o conceito de α (área mais escura).
Retirando-se uma amostra de n elementos de uma população normal com média µ e variância , então, pode-
-se demonstrar que a distribuição amostral da variância amostral segue uma distribuição de (qui-quadrado)
com n-1 graus de liberdade. A variável da estatística de qui-quadrado será dada por:
No esquema a seguir, temos como é feita a utilização da distribuição de qui-quadrado com g graus de liber-
dade.
Fonte: www.dpi.inpe.br/~camilo/estatistica/06estimação.ppt
A distribuição F de Snedecor também conhecida como distribuição de Fisher é frequentemente utilizada na
inferência estatística para análise da variância.
Uma variável aleatória contínua tem distribuição de Snedecor com graus de liberdade no numerador e
graus de liberdade no denominador se sua função densidade de probabilidade é definida por
Teorema
Considere e variáveis aleatórias com distribuição qui-quadrado com n e m graus de liberdade, respec-
tivamente. Além disso, suponha que estas variáveis aleatórias são independentes. Então a variável aleatória:
tem distribuição de Snedecor com m graus de liberdade no numerador e n graus de liberdade no denomi-
nador.
Seja uma variável aleatória positiva com função densidade de probabilidade e uma variável aleatória
com função densidade . Suponha que as variáveis aleatórias e sejam independentes. Neste caso, a
função densidade de probabilidade conjunta é dada por . Considere a fração . Neste caso,
a função densidade conjunta do quociente é dada por
Ao substituirmos, concluímos que segue uma distribuição com graus de liberdade no numerador e
graus de liberdade no denominador.
Por construção, o quadrado da distribuição t-Student com graus de liberdade tem distribuição F com grau
de liberdade no numerador e graus de liberdade no denominador.
Axiomas
Na matemática, um axioma é uma hipótese inicial de qual outros enunciados são logicamente derivados.
Pode ser uma sentença, uma proposição, um enunciado ou uma regra que permite a construção de um sistema
formal. Diferentemente de teoremas, axiomas não podem ser derivados por princípios de dedução e nem são
demonstráveis por derivações formais, simplesmente porque eles são hipóteses iniciais. Isto é, não há mais
nada a partir do que eles seguem logicamente (em caso contrário eles seriam chamados teoremas). Em mui-
tos contextos, “axioma”, “postulado” e “hipótese” são usados como sinônimos. Como foi visto na definição, um
axioma não é necessariamente uma verdade auto evidente, mas apenas uma expressão lógica formal usada
em uma dedução, visando obter resultados mais facilmente. Axiomatizar um sistema é mostrar que suas infe-
rências podem ser derivadas a partir de um pequeno e bem-definido conjunto de sentenças. Isto não significa
que elas possam ser conhecidas independentemente, e tipicamente existem múltiplos meios para axiomatizar
um dado sistema (como a aritmética). A matemática distingue dois tipos de axiomas: axiomas lógicos e axiomas
não-lógicos.
Distribuições
A distribuição da probabilidade é uma função que determina probabilidades para eventos ou proposições.
Para qualquer conjunto de eventos ou proposições existem muitas maneiras de determinar probabilidades, de
forma que a escolha de uma ou outra distribuição é equivalente a criar diferentes hipóteses sobre os eventos
ou proposições em questão. Há várias formas equivalentes de se especificar uma distribuição de probabilidade.
Talvez a mais comum é especificar uma função densidade da probabilidade. Daí, a probabilidade de um evento
ou proposição é obtida pela integração da função densidade.
A função distribuição pode ser também especificada diretamente. Em uma dimensão, a função distribuição é
chamada de função distribuição cumulativa. As distribuições de probabilidade também podem ser especificadas
via momentos ou por funções características, ou por outras formas. Uma distribuição é chamada de distribuição
discreta se for definida em um conjunto contável e discreto, tal como o subconjunto dos números inteiros; ou
é chamada de distribuição contínua se tiver uma função distribuição contínua, tal como uma função polinomial
ou exponencial. A maior parte das distribuições de importância prática são ou discretas ou contínuas, porém há
exemplos de distribuições que não são de nenhum desses tipos.
Distribuição Binomial
Em teoria das probabilidades e estatística, a distribuição binomial é a distribuição de probabilidade discreta
do número de sucessos numa sequência de n tentativas tais que as tentativas são independentes; cada tenta-
tiva resulta apenas em duas possibilidades, sucesso ou fracasso (a que se chama de tentativa de Bernoulli); a
probabilidade de cada tentativa, p, permanece constante.
Função de probabilidade: Se a variável aleatória X que contém o número de tentativas que resultam em
sucesso tem uma distribuição binomial com parâmetros n e p escrevemos X ~ B(n, p). A probabilidade de ter
exatamente k sucessos é dado pela função de probabilidade:
Exemplo:
Três dados comuns e honestos serão lançados. A probabilidade de que o número 6 seja obtido mais de uma
vez é: A probabilidade de que seja obtido 2 vezes mais a probabilidade de que seja obtido 3 vezes. Usando a
distribuição binomial de probabilidade:
Acha-se a probabilidade de que seja obtido 2 vezes:
Assim, a resposta é:
Valor esperado e variância: Se a X ~ B(n, p) (isto é, X é uma variável aleatória binomialmente distribuida),
então o valor esperado de X é
e a variância é
Exemplo:
Seja X uma variável aleatória que contém o número de caras saídas em 12 lançamentos de uma moeda
honesta. A probabilidade de sair 5 caras em 12 lançamentos, P(X=5), é dada por:
Distribuição Normal
A distribuição normal é uma das mais importantes distribuições da estatística, conhecida também como
Distribuição de Gauss ou Gaussiana. Foi primeiramente introduzida pelo matemático Abraham de Moivre. Além
de descrever uma série de fenômenos físicos e financeiros, possui grande uso na estatística inferencial. É intei-
ramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes consegue-se
determinar qualquer probabilidade em uma distribuição Normal.
~ . Se e ,
a distribuição é chamada de distribuição normal padrão e a função de densidade de probabilidade reduz-se
a,
~ .
- Se X e Y são variáveis aleatórias independentes que seguem distribuição normal, então a soma U = X +
Y, a diferença V = X - Y ou qualquer combinação linear W = a X + b Y também são variáveis aleatórias com
distribuição normal.
- É fácil construir exemplos de distribuições normais X e Y dependentes (mesmo com correlação zero) cuja
soma X + Y não é normal. Por exemplo, seja X uma distribuição normal padrão (média 0 e variância 1), então
fixando-se um número real positivo a, seja Ya definida como X sempre que |X| < a e -X sempre que |X| ≥ a.
Obviamente, Ya também é uma normal e X + Ya é uma variável aleatória que nunca pode assumir valores de
módulo acima de 2 a (ou seja, não é normal). Quando a é muito pequeno, X e Y são praticamente opostas, e
- A distribuição normal é infinitamente divisível, no seguinte sentido: se X é uma variável aleatória que segue
uma distribuição normal e n é um número natural, então existem n variáveis aletórias , inde-
pendentes e identicamente distribuídas, tal que
Distribuição de Poisson
onde
- e é base do logaritmo natural (e = 2.71828...),
- k! é o fatorial de k,
- λ é um número real, igual ao número esperado de ocorrências que ocorrem num dado intervalo de tempo.
Por exemplo, se o evento ocorre a uma média de 4 minutos, e estamos interessados no número de eventos que
ocorrem num intervalo de 10 minutos, usariámos como modelo a distribuição de Poisson com λ = 10/4 = 2.5.
Como função de k, esta é a função de probabilidade. A distribuição de Poisson pode ser derivada como um
caso limite da distribuição binomial.
em que λ é uma constante (de unidade inversa da unidade do tempo). Ou seja, o número de eventos até uma
época qualquer t é uma distribuição de Poisson com parâmetro λ t.
Propriedades
Média: O valor esperado de uma distribuição de Poisson é igual a λ. Esta propriedade pode ser derivada
facilmente:
Em linguagem matemática
Como
: .
Portanto, este valor foi substituído na fórmula. Esta expressão equivale à expressão da linha imediatamente
superior; apenas se substituiu a expressão de somatório pela soma infinita para melhor compreensão. Note que
como o primeiro termo é sempre igual a zero, podemos reescrever
Fazemos uma substituição para facilitar o cálculo. Tomamos a substituição acima e tiramos a constante para
fora do somatório (pois o primeiro termo da expressão imediatamente superior é igual à . Nova transfor-
mação para facilitar os cálculos...
Abrindo o somatório, verifica-se que a série converge para
Obtemos
Soma de variáveis: A soma de duas variáveis de Poisson independentes é ainda uma variável de Poisson
com parâmetro igual à soma dos respectivos parâmetros.
Ou seja, se
segue uma distribuição de Poisson com parâmetro e as variáveis aleatórias são estatisticamente inde-
pendentes, então
também segue uma distribuição de Poisson cujo parâmetro é igual à soma dos .
Intervalo de confiança: Um método rápido e fácil para calcular um intervalo de confiança de aproximada de
λ, é proposto na Guerriero (2012). Dado um conjunto de eventos k (pelo menos 15 - 20) ao longo de um período
de tempo T, os limites do intervalo confiança para a frequência são dadas por:
Exemplos:
A distribuição de Poisson representa um modelo probabilístico adequado para o estudo de um grande núme-
ro de fenômenos observáveis. Eis alguns exemplos:
- Chamadas telefônicas por unidade de tempo;
- Defeitos por unidade de área;
- Acidentes por unidade de tempo;
- Chegada de clientes a um supermercado por unidade de tempo;
- Número de glóbulos sangüíneos visíveis ao microscópio por unidade de área;
- Número de partículas emitidas por uma fonte de material radioativo por unidade de tempo.
Distribuição Qui-Quadrado
O coeficiente χ2 ou chi-quadrado é um valor da dispersão para duas variáveis de escala nominal, usado em
alguns testes estatísticos. Ele nos diz em que medida é que os valores observados se desviam do valor espe-
rado, caso as duas variáveis não estivessem correlacionadas. Quanto maior o chi-quadrado (ou Qui-quadrado),
mais significante é a relação entre a variável dependente e a variável independente. Este valor está relacionado
com uma distribuição, chamada Distribuição Chi-Quadrado.
A Distribuição Chi-quadrado com k graus de liberdade é a distribuição gama com parâmetros (k/2, 1/2).
Quanto maior o número de casos (n) ou o número de linhas ou colunas da tabela de contingência, maior será
o Chi-quadrado. Por isso não faz sentido comparar o Chi-quadrado de duas relações entre variáveis. Para o
efeito existem outros coeficientes, entre os quais o coeficiente de contingência. A distribuição Chi-quadrado
pode ser simulada a partir da distribuição normal.
Um corolário imediato da definição é que a soma de duas Chi-quadrado independentes também é uma Chi-
-quadrado:
A fórmula do chi-quadrado é:
Referência
http://www.pucrs.br/famat/sergio/Probabilidade_Estatistica_T360/Lista2_prob_estat.pdf
Definição 1 Dada uma variável aleatória (discreta) X, a função de distribuição acumulada de X é definida por
É interessante notar que a função FX está definida para todo número real x. Antes de passar às propriedades
teóricas da função de distribuição acumulada (usaremos a abreviação fda), também conhecida como função de
distribuição, vamos ver um exemplo.
Exemplo
Voltando ao exemplo 1 anterior, temos que a fdp da v.a. X = “máximo das faces de 2 dados” é dada por
Para calcular a fda de X, notemos inicialmente que nenhum valor menor que 1 é possível. Logo,
Para qualquer valor de x tal que 1 < x < 2, temos que pX(x)= 0. Logo,
e também que
ou seja,
Para x ≥ 6 devemos notar que o evento {X ≤ x} corresponde ao espaço amostral completo; logo
(b) A fda é
x -2 -1 0 1 2 3
p X 0,1 0,2 0,2 0,3 0,1 0,1
(x)
Consideremos a função Y = g(X) = X2. Então, Y é uma nova variável aleatória, cujos possíveis valores são
0, 1, 4, 9. Para calcular as probabilidades desses valores, temos que identificar os valores de X que originaram
cada um deles. Temos a seguinte equivalência de eventos:
y 0 1 4 9
pY (y) 0,2 0,5 0,2 0,1
Exemplos
1. Considere o problema do pôquer. Suponha que um jogador paga R$100,00 para entrar no jogo. Se ele ti-
rar uma sequência, ele ganha R$200,00; se tirar 5 iguais, ganha R$5.100,00; se tirar 4 iguais, ganha R$100,00.
Em todos os outros casos, ele perde. Seja L o lucro do jogador. Encontre a fdp de L.
Solução:
De acordo com o exercício citado, temos a seguinte equivalência de eventos:
Solução:
Logo, a fda de Y é
onde o somatório se estende por todos os valores possíveis de X. Podemos ver, então, que a esperança de
X é uma média dos seus valores, ponderada pelas respectivas probabilidades. Lembre-se que no caso das
distribuições de frequências tínhamos . Como antes, a média de uma v.a. X está medida na mesma
unidade da variável.
Exemplo
Em determinado setor de uma loja de departamentos, o número de produtos vendidos em um dia pelos
funcionários é uma variável aleatória P com a seguinte distribuição de probabilidades (esses números foram
obtidos dos resultados de vários anos de estudo):
Cada vendedor recebe comissões de venda, distribuídas da seguinte forma: se ele vende até 2 produtos em
um dia, ele ganha uma comissão de R$10,00 por produto vendido. A partir da terceira venda, a comissão passa
para R$50,00. Qual é o número médio de produtos vendidos por cada vendedor e qual a comissão média de
cada um deles?
Solução:
O número médio de vendas por funcionário é
E(P) = 0 × 0,1 + 1 × 0,4 + 2 × 0,2 + 3 × 0,1 + 4 × 0,1 + 5 × 0, 05 + 6 × 0, 05 = 2, 05
e
E(C) = 0 × 0,1 + 10 × 0,4 + 20 × 0,2 + 70 × 0, 1 + 120 × 0, 1 + 170 × 0, 05 + 220 × 0, 05 = 46, 5
ou seja, a comissão média por dia de cada vendedor é R$46,50.
Em geral, a média é vista como um “valor representativo” de X, estando localizada em algum ponto no “cen-
tro do domínio de valores de X”. Uma interpretação mais precisa deste pensamento é a seguinte: a esperança
de X é o centro de gravidade da distribuição de probabilidades, no seguinte sentido. Pensando as colunas do
gráfico, que representam as probabilidades, como pesos distribuídos ao longo de uma vara delgada, a média
representa o ponto onde a vara se equilibraria.
Interpretação da média como centro de gravidade da distribuição
A interpretação da esperança como centro de gravidade nos permite entender melhor as diversas proprie-
dades que demonstraremos a seguir. No que segue, X é uma variável aleatória discreta com distribuição de
probabilidades pX(x) e a, b 0 são constantes reais quaisquer.
1. E (a) = a
De fato: se X é uma v.a. constante, isso significa que X = a com probabilidade 1. Logo, E(X) = a ×1 = a.
2. E (X + a) = E(X) + a (“somando uma constante, a média fica somada da constante”)
De fato: fazendo g(X) = X + a, pelo resultado 1.11, temos que
3. E(bX) = bE(X) (“multiplicando por uma constante, a esperança fica multiplicada pela constante”)
De fato: fazendo g(X) = bX, pelo resultado 1.11, temos que
que pode ser lida de maneira mais fácil como “a variância é a esperança do quadrado menos o quadrado da
esperança”. Lembre-se que tínhamos visto resultado análogo para a variância de um conjunto de dados. Vimos
também que a unidade de medida da variância é igual ao quadrado da unidade da variável.
Sendo uma medida de dispersão, é fácil ver as seguintes propriedades: seja X uma v.a. discreta com fdp
pX(x) e sejam a, b 0 constantes reais quaisquer.
1. Var (a) = 0 (“uma constante não tem dispersão”)
De fato:
Desvio padrão
Como já dito, a unidade de medida da variância é o quadrado da unidade de medida da variável em estudo,
sendo assim, uma unidade sem significado físico. Para se ter uma medida de dispersão na mesma unidade dos
dados, define-se o desvio padrão como a raiz quadrada da variância.
Como consequência direta dessa definição e das propriedades da variância, seguem as seguintes proprieda-
des do desvio padrão, que deverão ser demonstradas pelo leitor. Como antes, seja X uma v.a. discreta com
fdp pX(x) e sejam a, b 0 constantes reais quaisquer.
Exemplo
Um lojista mantém extensos registros das vendas diárias de um certo aparelho. O quadro a seguir dá a dis-
tribuição de probabilidades do número de aparelhos vendidos em uma semana. Se é de R$500,00 o lucro por
unidade vendida, qual o lucro esperado em uma semana? Qual é o desvio padrão do lucro?
Solução:
Seja X o número de aparelhos vendidos em uma semana e seja L o lucro semanal. Então, L = 500X.
Consideremos o lançamento de dois dados equilibrados. Como já visto, o espaço amostral desse experi-
mento é formado pelos pares ordenados (i, j) onde i, j = 1, 2, 3, 4, 5, 6. Esse é um experimento onde o espaço
amostral não é formado por números. Suponhamos que nosso interesse esteja no máximo das faces dos dois
dados. Nesse caso, podemos associar um número a cada ponto do espaço amostral, conforme ilustrado na
figura 1.
Esse exemplo ilustra o conceito de variável aleatória.
Definição 1: Uma variável aleatória é uma função real (isto é, que assume valores em R) definida no espaço
amostral Ω de um experimento aleatório.
Por essa definição, podemos ver que, no lançamento de uma moeda, observar o resultado obtido, cara ou
coroa, não é uma variável aleatória, pois os resultados não são números. Mas se associarmos o número 0 à
ocorrência de cara e o número 1 à ocorrência de coroa, teremos uma variável aleatória.
Analogamente, em uma pesquisa domiciliar, o espaço amostral é formado pelos domicílios de uma deter-
minada localidade e simplesmente anotarmos os domicílios sorteados para uma amostra não constitui uma
variável aleatória. Mas, na prática, quando da realização de uma pesquisa domiciliar, estamos interessados em
alguma característica desse domicílio e aí poderemos ter várias variáveis aleatórias associadas a esse experi-
mento, como, por exemplo, a renda domiciliar mensal em reais,
o número de moradores, o grau de instrução do chefe de família medido pelo número de anos de estudo, etc.
Definição 2: Uma variável aleatória é discreta se sua imagem (ou conjunto de valores que ela pode tomar) é
um conjunto finito ou enumerável. Se a imagem é um conjunto não enumerável dizemos que a variável aleatória
é contínua.
Exemplos
1. Dentre os 5 alunos de um curso com coeficiente de rendimento (CR) superior 8,5, dois serão sorteados
para receber uma bolsa de estudos. Os CRs desses alunos são: 8,8; 9,2; 8,9; 9,5; 9,0.
(a) Designando por A, B, C, D e E os alunos, defina um espaço amostral para esse experimento.
(a) Note que aqui a ordem não importa; logo, #Ω = = 10. Mais especificamente,
Ω = {(A, B) , (A, C) , (A, D) , (A, E) , (B, C) , (B, D) , (B, E) , (C, D) , (C, E) , (D, E)}
(b) Usando uma tabela de duas entradas podemos representar os valores de X da seguinte forma:
2. Um homem possui 4 chaves em seu bolso. Como está escuro, ele não consegue ver qual a chave correta
para abrir a porta de sua casa. Ele testa cada uma das chaves até encontrar a correta.
(b) Defina a v.a. X = número de chaves experimentadas até conseguir abrir a porta (inclusive a chave corre-
ta). Quais são os valores de X?
Respostas
(a) Vamos designar por C a chave da porta e por E1, E2 e E3 as outras chaves. Se ele para de testar as
chaves depois que acha a chave correta, então o espaço amostral é:
Ω ={ E1C, E2C, E3C, E1E2C, E2E1C, E1E3C, E3E1C, E2E3C, E3E2C, E1E2E3C, E1E3E2C, E2E1E3C,
E2E3E1C, E3E1E2C, E3E2E1C}
(b) X = 1, 2, 3, 4
e, assim
Como os eventos no lado direito da expressão acima são mutuamente exclusivos e igualmente prováveis,
resulta que
Definição 3: Seja X uma v.a. discreta. A função de distribuição de probabilidades de X é a função pX (x)
que associa, a cada valor possível x de X, sua respectiva probabilidade, calculada da seguinte forma: pX (x) é
a probabilidade do evento {X = x} consistindo de todos os resultados do espaço amostral que deram origem ao
valor x.
Para não sobrecarregar o texto, omitiremos os colchetes oriundos da notação de evento/conjunto e escreve-
remos Pr (X = x) no lugar de Pr ({X = x}), que seria a forma correta. Uma outra convenção que seguiremos tam-
bém será a de indicar por letras maiúsculas as variáveis aleatórias e por letras minúsculas os números reais,
tais como os valores específicos de uma v.a. Além disso, abreviaremos por fdp o termo função de distribuição
de probabilidade.
Das propriedades (axiomas) da probabilidade resultam os seguintes fatos sobre a função de distribuição de
probabilidades de uma v.a. X:
Onde indica somatório ao longo de todos os possíveis valores de X. Note que essa propriedade é de-
corrente do axioma Pr (Ω) = 1, pois os eventos {X = x} são mutuamente exclusivos e formam uma partição do
espaço amostral.
Considere uma urna com 10 bolas, das quais 6 são vermelhas e 4 brancas. Dessa urna retiram-se 3 bolas
sem reposição e conta-se o número de bolas brancas retiradas. Qual é a distribuição dessa variável aleatória?
Os possíveis valores de X são 0,1,2,3. Para calcular a probabilidade de cada um desses valores, devemos
notar inicialmente que o espaço amostral tem eventos elementares.
Analogamente, o evento {X = 1} corresponde à união dos eventos onde aparece 1 bola branca e 2 vermelhas.
O número de tais sequências é e, portanto
e a fdp de X é
Estimação Pontual
Estimador pontual Θ^ : Função dos valores x1, x2, … , xn da amostra multidimensional X1,X2, … ,Xn que,
se tiver um dado conjunto de propriedades, dá um valor aproximado Θ^ para um parâmetro Θ da distribuição
da população. Exemplos:
ção populacional.
- Desvio Quadrático Médio Amostral (DQM) = (N-1)/M . σX2 ≠ σX2
- O DQM é um estimador sempre enviesado, de enviesamento = - σX2 / N
- Variância Amostral: S2 = 1/(N-1) . ∑ n=1 → N (Xn - X~)2 = N/(N-1) . DQM = σX2
- A variância amostral é um estimador sempre não-enviesado da variância populacional, qualquer que seja
a distribuição populacional.
Estimador Eficiente
Exemplo:
Estimador Consistente
Um estimador diz-se consistente quando, para qualquer δ > 0 , limn→oo P[|Θ^ - Θ| < δ] = 1 ;isto é, quando
a dimensão da amostra tende para o infinito, o estimador consistente concentra se sobre o seu alvo tomando
o valor do parâmetro estimado.
Por outro lado, se uma das duas seguintes condições(condições suficientes) se verificar, o estimador é con-
sistente:
Estimativa MV de Θ : dL(Θ) / dΘ = 0
Vantagens dos estimadores VM
- São, em geral, consistentes
- As suas distribuições são, frequentemente, assimptoticamente normais
- Tendem a ser não-enviesados e eficientes, à medida que a dimensão das amostras crescem.
Pergunta: Admita que os tempos entre avarias de uma certa máquina seguem uma distribuição Exponencial
Negativa com parâmetro λ.
Com base na seguinte amostra aleatória constituída pelos seguintes tempos, expresso em horas, calcule a
estimativa de máxima verosimilhança do parâmetro λ.
{ 24.2 , 13.5 , 53.1 , 17.1 , 7.7 , 14.0 , 8.3 , 34.2 }
Pergunta: A variável aleatória X segue uma distribuição com função densidade de probabilidade dada por
f(x)=(x-α)/2 , quando α < x < α+2. A função assume o valor 0 para os restantes valores de x. α é um parâmetro
desconhecido.
Recorrendo ao método da máxima verosimilhança, estime o parâmetro α a partir da seguinte amostra alea-
tória, constituida por 10 observações:
{ 3.5 , 4.3 , 2.8 , 4.5 , 2.9 , 3.3 , 3.8 , 2.9 , 4.0 , 3.9 }
Por exemplo, seja X uma variável aleatória que representa o lançamento de uma moeda honesta, no qual
e Se lançarmos essa moeda n vezes então temos que a média aritmética dos
valores observados tendem a 1/2, ou seja, tendem a A lei dos grandes números nos diz que a média
aritmética dos valores observados tendem a esperança da variável aleatória.
Um outro exemplo, é quando lançamos um dado equilibrado, com as faces numeradas de 1 a 6. A probabi-
lidade de obtermos o número 4 é de pois os eventos são equiprováveis. Vamos simular os
resultados no computador da seguinte forma.
Primeiramente lançamos os dados 100 vezes e anotamos quantas vezes a face 4 aparece nos resultados e
por fim calculamos a proporção de vezes que a face 4 aparece. Repetimos isto para 1000 e 10000 lançamen-
tos. Assim, obtemos os seguintes resultados:
Observe que quanto maior o número de lançamentos do dado, mais o resultado experimental se aproxima
da probabilidade esperada.
Sejam uma sequência enumerável de variáveis aleatórias independentes dois a dois. Se a sequência
tem variância finita e uniformemente limitada, ou seja, existe uma constante tal que .
Então a sequência satisfaz a Lei Fraca dos Grandes Números:
em que
Seja uma sequência de ensaios de bernoulli independentes, com mesma probabilidade de sucesso. Então
em que
Exemplos
2 http://www.portalaction.com.br/probabilidades/72-lei-dos-grandes-numeros
Logo,
03. Se no exemplo acima a variância de X é igual a 20, qual a probabilidade de que a produção do dia esteja
entre 40 e 100 borrachas produzidas ?
Utilizando a desigualdade de Chebyshev, obtemos que:
ou seja,
Desta forma a probabilidade de que a produção do dia esteja entre 40 e 100 borrachas produzidas é de
aproximadamente 97,7%.
04. Seja uma sequência de eventos aleatórios com o mesmo espaço de probabilidades. Seja a função
indicadora de do conjunto , mostremos que se, e somente se, .
Agora vamos supor que , isto é, , então neste caso temos que:
Portanto
De fato, seja X uma variável aleatória com variância zero pela desigualdade de Chebyshev temos
que
não é limitada.
3 http://www.portalaction.com.br/probabilidades/722-lei-forte-dos-grandes-numeros
Exemplo
Valor esperado infinito implica em variância infinita.
Mas, e
Portanto,
Em particular, variáveis aleatórias com valor esperado infinito não satisfazem a condição de Kolmogorov e
consequentemente não há garantias que cumpra a lei dos grandes números.
então
Condição de Lindeberg
4 http://www.portalaction.com.br/probabilidades/732-teorema-central-do-limite
Então
Condição de Lyapunov
Proposição: Seja uma sequência de variáveis aleatórias independentes tal que para todo
Exemplos
Portanto, para n suficientemente grande, tem distribuição aproximadamente normal com média e
variância
02. Um candidato a prefeito da cidade de São Carlos gostaria de ter uma ideia de quantos votos receberá nas
próximas eleições. Para isto, foi feito uma pesquisa com os cidadãos, em que representa a proporção de
votos do candidato com Quantas pessoas devem ser entrevistadas com 95% de confiança para que
o valor de tenha sido determinado com erro inferior a 5%, supondo que as escolhas de cada pessoa sejam
independentes.
Seja o número de candidatos, denotamos a variável aleatória de Bernoulli que assume va-
lor 1, com probabilidade p, se a i-ésima pessoa entrevistada declara a intenção de votar no candidato. Assu-
me o valor 0, com probabilidade caso contrário.
Assim e Consequentemente, e para todo
em que
Mas, temos que
— Intervalo de confiança
Um intervalo de confiança (IC) é um intervalo estimado de um parâmetro de interesse de uma população. Em
vez de estimar o parâmetro por um único valor, é dado um intervalo de estimativas prováveis. O quanto estas
estimativas são prováveis será determinado pelo coeficiente de confiança (1 – α), para α ϵ (0,1).
Em outras palavras Intervalos de confiança são usados para indicar a confiabilidade de uma estimativa.
Para interpretar o intervalo de confiança da média, assumimos que os valores foram amostrados de forma
independente e aleatória de uma população com distribuição normal com média μ e variância σ². Dado que
estas suposições são válidas, temos 95% de “chance” de o intervalo conter o verdadeiro valor da média popu-
lacional. Se produzirmos diversos intervalos de confiança provenientes de diferentes amostras independentes
de mesmo tamanho, podemos esperar que aproximadamente 95% destes intervalos devem conter o verdadeiro
valor da média populacional.
Fonte: http://www.portalaction.com.br
— Testes de hipóteses
As hipóteses a serem testadas, retirar as amostras das populações a serem estudadas, calcular as estatís-
ticas delas e, por fim, determinar o grau de aceitação de hipóteses baseadas na teoria de decisão, ou seja, se
uma determinada hipótese será validada ou não.
Para decidir se uma hipótese é verdadeira ou falsa, ou seja, se ela deve ser aceita ou rejeitada, consideran-
do uma determinada amostra, precisamos seguir uma série de passos:
1) Definir a hipótese de igualdade (H0) e a hipótese alternativa (H1) para tentar rejeitar H0 (possíveis erros
associados à tomada de decisão).
2) Definir o nível de significância (α).
3) Definir a distribuição amostral a ser utilizada.
4) Definir os limites da região de rejeição e aceitação.
5) Calcular a estatística da distribuição escolhida a partir dos valores amostrais obtidos e tomar a decisão.
Através da amostra obtida, você deve calcular a estimativa que servirá para aceitar ou rejeitar a hipótese
nula.
5) Tomar a decisão.
Para tomar a decisão, você deve calcular a estimativa do teste estatístico que será utilizado para rejeitar ou não
a hipótese Ho. A estrutura deste cálculo para a média de forma generalista é dada por:
Se o valor da estatística estiver na região crítica (de rejeição), rejeitar Ho; caso contrário, aceitar H0. O es-
quema a seguir mostra bem a situação de decisão.
Onde
x: média amostral;
μ: média populacional;
s: desvio-padrão amostral e
n: tamanho da amostra.
Se a hipótese é nula e as alternativas de um teste de hipóteses são:
Exemplo: Uma região do país é conhecida por ter uma população obesa. A distribuição de probabilidade do
peso dos homens dessa região entre 20 e 30 anos é normal com média de 90 kg e desvio padrão de 10 kg. Um
endocrinologista propõe um tratamento para combater a obesidade que consiste de exercícios físicos, dietas
e ingestão de um medicamento. Ele afirma que com seu tratamento o peso médio da população da faixa em
estudo diminuirá num período de três meses.
Testando as hipóteses temos:
A estatística de teste:
— Regressão
Uma linha de regressão também chamada de linha de melhor ajuste, é a linha para a qual a soma dos qua-
drados dos resíduos é um mínimo. FARBER (2009).
Regressão linear
A análise de regressão5 consiste na realização de uma análise estatística com o objetivo de verificar a exis-
tência de uma relação funcional entre uma variável dependente com uma ou mais variáveis independentes. Em
outras palavras consiste na obtenção de uma equação que tenta explicar a variação da variável dependente
pela variação do(s) nível(is) da(s) variável(is) independente(s).
Para tentar estabelecer uma equação que representa o fenômeno em estudo pode-se fazer um gráfico, cha-
mado de diagrama de dispersão, para verificar como se comportam os valores da variável dependente (Y) em
função da variação da variável independente (X).
O comportamento de Y em relação a X pode se apresentar de diversas maneiras: linear, quadrático, cúbico,
exponencial, logarítmico, etc.... Para se estabelecer o modelo para explicar o fenômeno, deve-se verificar qual
tipo de curva e equação de um modelo matemático que mais se aproxime dos pontos representados no diagra-
ma de dispersão.
Contudo, pode-se verificar que os pontos do diagrama de dispersão, não vão se ajustar perfeitamente à
curva do modelo matemático proposto. Haverá na maior parte dos pontos, uma distância entre os pontos do
diagrama e a curva do modelo matemático. Isto acontece, devido ao fato do fenômeno que está em estudo,
não ser um fenômeno matemático e sim um fenômeno que está sujeito a influências que acontecem ao acaso.
Assim, o objetivo da regressão é obter um modelo matemático que melhor se ajuste aos valores observados de
Y em função da variação dos níveis da variável X.
No entanto o modelo escolhido deve ser coerente com o que acontece na prática. Para isto, deve-se levar
em conta as seguintes considerações no momento de se escolher o modelo:
– o modelo selecionado deve ser condizente tanto no grau como no aspecto da curva, para representar em
termos práticos, o fenômeno em estudo;
– o modelo deve conter apenas as variáveis que são relevantes para explicar o fenômeno;
Como foi dito anteriormente, os pontos do diagrama de dispersão ficam um pouco distantes da curva do mo-
delo matemático escolhido. Um dos métodos que se pode utilizar para obter a relação funcional, se baseia na
obtenção de uma equação estimada de tal forma que as distâncias entre os pontos do diagrama e os pontos da
curva do modelo matemático, no todo, sejam as menores possíveis. Este método é denominado de Método dos
Mínimos Quadrados (MMQ). Em resumo por este método a soma de quadrados das distâncias entre os pontos
do diagrama e os respectivos pontos na curva da equação estimada é minimizada, obtendo-se, desta forma,
uma relação funcional entre X e Y, para o modelo escolhido, com um mínimo de erro possível.
Ao se construí um diagrama de dispersão, não sabemos o comportamento da reta em relação aos pontos
grafados. Para tanto, devemos calcular o ajustamento da reta aos pontos. Alguns exemplos de diagramas de
dispersão com o ajustamento da reta aos pontos:
em que:
Para se obter a equação estimada, vamos utilizar o MMQ, visando a minimização dos erros. Assim, tem-se
que:
aplicando o somatório,
— Técnicas de amostragem
É uma técnica especial para recolher amostras, que garante, tanto quanto possível, o acaso na escolha. Ela
pode ser:
Amostragem casual ou aleatória simples: este tipo de amostragem se assemelha ao sorteio lotérico. Ela
pode ser realizada numerando-se a população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo
aleatório qualquer, k números dessa sequência, os quais serão pertentes à amostra.
Exemplo: 15% dos alunos de uma população de notas entre 8 e 10, serão sorteados para receber uma bolsa
de estudos de inglês.
Vantagens: Desvantagens:
– Facilidade de cálculo estatístico; – Requer listagem da população;
– Probabilidade elevada de compatibilidade – Trabalhosa em populações elevadas;
dos dados da amostra e da população
– Custos elevados se a dispersão da amostra for
elevada.
Vantagens:
Desvantagens:
– Pressupõe um erro de amostragem menor;
– Necessita de maior informação
– Assegura uma boa representatividade das sobre a população;
variáveis estratificadas;
– Cálculo estatístico mais
– Podem empregar-se metodologias complexo.
diferentes para cada estrato;
– Fácil organização do trabalho de campo.
Amostragem por conglomerado: é uma amostra aleatória de agrupamentos naturais de indivíduos (conglo-
merados) na população.
Vantagens: Desvantagens:
– Não existem listagem de toda a população; – Maior erro de amostragem;
– Concentra os trabalhos de campo num número limi- – Cálculo estatístico mais complexo na
tado de elementos da população. estimação do erro de amostragem.
Amostragem por cotas: consiste em uma amostragem por julgamento que ocorre em suas etapas. Em um
primeiro momento, são criadas categorias de controle dos elementos da população e, a seguir, selecionam-se
os elementos da amostra com base em um julgamento.
Amostragem por julgamento: Essa amostragem é ideal quando o tamanho da população é pequeno e suas
características, bem conhecidas, pois baseia-se no julgamento pessoal.
Amostragem por conveniência: é uma amostra composta de indivíduos que atendem os critérios de entrada
e que são de fácil acesso do investigador. Para o critério de seleção arrolamos uma amostra consecutiva.
Vantagens: Desvantagens:
– Mais econômica; – Maior erro de amostragem que em amostras aleatórias;
– Fácil administração; – Não existem metodologias válidas para o cálculo do
erro de amostragem;
– Não necessita de listagem da
população. – Limitação representativa;
– Maior dificuldade de controle de trabalho de campo
esteira
bicicleta Maria ou João
Com base nas informações do texto e da tabela acima, julgue o item seguinte.
A probabilidade de Maria ter-se exercitado na bicicleta no 29.º dia é inferior a 0,3.
( ) CERTO
( ) ERRADO
Com base nas informações do texto e da tabela acima, julgue o item seguinte.
A probabilidade de Pedro ou João terem-se exercitado na esteira no 21.º dia é superior a 0,7.
( ) CERTO
( ) ERRADO
Gabarito
1 CERTO
2 ERRADO
3 CERTO
4 CERTO
5 ERRADO
6 CERTO
7 CERTO
8 CERTO
9 ERRADO
10 ERRADO