0% acharam este documento útil (0 voto)

51 visualizações78 páginas

Estatistica 017.410.195 32 1732714194

Enviado por

Patricia Lins

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

51 visualizações78 páginas

Estatistica 017.410.195 32 1732714194

Enviado por

Patricia Lins

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 78

Polícia Federal - PF

Escrivão de Polícia Federal

Estatística

Estatística descritiva e análise exploratória de dados: gráficos, diagramas, tabelas,

medidas descritivas (posição, dispersão, assimetria e curtose...................................... 1
Probabilidade. Definições básicas e axiomas. Probabilidade condicional e independên-
cia. Variáveis aleatórias discretas e contínuas. Distribuição de probabilidades. Função
de probabilidade. Função densidade de probabilidade. Esperança e momentos. Dis-
tribuições especiais. Distribuições condicionais e independência. Transformação de
variáveis. Leis dos grandes números. Teorema central do limite. Amostras aleatórias.

Estatística
Distribuições amostrais................................................................................................... 15
Inferência estatística. Estimação pontual: métodos de estimação, propriedades dos
estimadores, suficiência. Estimação intervalar: intervalos de confiança, intervalos de
credibilidade. Testes de hipóteses: hipóteses simples e compostas, níveis de signifi-
cância e potência de um teste, teste t de Student, teste qui-quadrado.......................... 65
Análise de regressão linear. Critérios de mínimos quadrados e de máxima verossi-
milhança. Modelos de regressão linear. Inferência sobre os parâmetros do modelo.
Análise de variância. Análise de resíduos....................................................................... 69
Técnicas de amostragem. Amostragem aleatória simples, estratificada, sistemática e
por conglomerados. Tamanho amostral......................................................................... 72
Exercícios........................................................................................................................ 74
Gabarito........................................................................................................................... 77

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

Estatística descritiva e análise exploratória de dados: gráficos, diagramas, tabelas,
medidas descritivas (posição, dispersão, assimetria e curtose)

— Estatística Descritiva
O objetivo estatístico descritivo é sintetizar as principais características de um conjunto de dados usando
tabelas, gráficos e resumos numéricos.
As estatísticas estão se tornando uma importante ferramenta de apoio à decisão todos os dias. Resumindo:
É um conjunto de métodos e técnicos que ajudam a tomar decisões em meio à incerteza.

Estatística descritiva (Dedutiva)

O objetivo da Estatística Descritiva é resumir as principais características de um conjunto de dados por meio
de tabelas, gráficos e resumos numéricos. Fazemos uso de:

– Tabelas de frequência: ao dispor de uma lista volumosa de dados, as tabelas de frequência servem para
agrupar informações de modo que estas possam ser analisadas. As tabelas podem ser de frequência simples
ou de frequência em faixa de valores.

– Gráficos: o objetivo da representação gráfica é dirigir a atenção do analista para alguns aspectos de um
conjunto de dados. Alguns exemplos de gráficos são: diagrama de barras, diagrama em setores, histograma,
boxplot, ramo-e-folhas, diagrama de dispersão, gráfico sequencial.

– Resumos numéricos: por meio de medidas ou resumos numéricos podemos levantar importantes
informações sobre o conjunto de dados tais como: a tendência central, variabilidade, simetria, valores extremos,
valores discrepantes, etc.

Estatística inferencial (Indutiva)

Usar informações incompletas para tomar decisões e tirar conclusões satisfatórias. A base do método
estatístico lógico é o cálculo de probabilidades. Usamos:

– Estimação: a técnica consiste em utilizar um conjunto de dados incompletos, ao qual iremos chamar
de amostra, e nele calcular estimativas de quantidades de interesse. Estas estimativas podem ser pontuais
(representadas por um único valor) ou intervalares.

– Teste de Hipóteses: o fundamento é levantar suposições acerca de uma quantidade não conhecida e
utilizar, também, dados incompletos para criar uma regra de escolha.

População e amostra

– População: conjunto de todas as unidades sobre as quais há o interesse de investigar uma ou mais
características.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

1
Variáveis e suas classificações

– Qualitativas: quando seus valores são expressos por atributos: sexo (masculino ou feminino), cor da pele,
entre outros. Dizemos que estamos qualificando.

– Quantitativas: quando seus valores são expressos em números (salários dos operários, idade dos alunos,
etc). Uma variável quantitativa que pode assumir qualquer valor entre dois limites recebe o nome de variável
contínua; e uma variável que só pode assumir valores pertencentes a um conjunto enumerável recebe o nome
de variável discreta.

Fases do método estatístico

– Coleta de dados: A coleta pode ser direta e indireta.

– Crítica dos dados: Uma vez recebidos, os dados devem ser verificados cuidadosamente, procurando
possíveis enganos e imperfeições, para não cometer enganos grosseiros ou grandes que possam afetar
significativamente os resultados. A crítica pode ser externa e interna.

– Apuração dos dados: soma e processamento dos dados obtidos e a disposição mediante critérios de
classificação, que pode ser manual, eletromecânica ou eletrônica.

– Exposição ou apresentação de dados: os dados devem ser apresentados sob forma adequada (tabelas
ou gráficos), isso torna mais fácil o exame daquilo que está sendo objeto de tratamento estatístico.

– Análise dos resultados: realizadas anteriores (Estatística Descritiva), fazemos uma análise dos resultados
obtidos, através dos métodos da Estatística Indutiva ou Inferencial, que tem por base a indução ou inferência,
e tiramos desses resultados conclusões e previsões.

Censo
Avaliação direta de um parâmetro, utilizando-se todos os componentes da população.
Principais propriedades:
– Admite erros processual zero e tem 100% de confiabilidade;
– É caro;
– É lento;
– É quase sempre desatualizado (visto que se realizam em períodos de anos 10 em 10 anos);
– Nem sempre é viável.

– Dados brutos: é uma sequência de valores numéricos não organizados, obtidos diretamente da observação
de um fenômeno coletivo.

– Rol: é uma sequência ordenada dos dados brutos.

Tabelas de frequência
Podemos agrupar os valores de variáveis quantitativas ou qualitativas a partir de dados brutos e criar
tabelas de frequências. As tabelas de frequência podem ser simples ou por faixas de valores, dependendo da
classificação da variável.

• Tabela de frequência simples

São adequadas para resumir observações de uma variável qualitativa ou quantitativa discreta, desde que
esta apresente um conjunto pequeno de diferentes valores.
Exemplo:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

2
• Tabelas de frequências em faixas de valores
Para agrupar dados de uma variável quantitativa contínua ou até mesmo uma variável quantitativa discreta
com muitos valores diferentes, a tabela de frequências simples não é mais um método de resumo, pois corremos
o risco de praticamente reproduzir os dados brutos.
Utilizando este procedimento, devemos tomar cuidado pois ao contrário da tabela de frequência simples,
não é mais possível reproduzir a lista de dados a partir da organização tabular. Em outras palavras, estamos
perdendo informação ao condensá-las.
Exemplo:

Podemos achar esses valores através do uso das seguintes informações:

– Determinar a quantidade de classes(k)

– Calcular a amplitude das classes(h):

**Calcule a amplitude do conjunto de dados: L = xmáx–xmín
**Calcule a amplitude (largura) da classe: h = L / k
Arredonde convenientemente
- Calcular os Limites das Classes

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

3
– Limite das classes
Utilizamos a notação: [x,y) –intervalo de entre x (fechado) até y (aberto)
Frequentemente temos que “arredondar “a amplitude das classes e, consequentemente, arredondar também
os limites das classes. Como sugestão, podemos tentar, se possível, um ajuste simétrico nos limites das classes
das pontas nas quais, usualmente, a quantidade de dados é menor.
– Ponto médio das classes
xk= (Lsuperior–Linferior) / 2

— Distribuição de Frequência

Frequência absoluta e Histograma1

Utilizamos quando trabalhamos com um grande quantitativo de dados, e assim passamos a trabalhar com
os dados agrupados. Então fazemos uso das tabelas de distribuição de frequência, entre outros recursos que
facilitarão a compreensão dos dados.

O termo “frequência” indica o número de vezes que um dado aparece numa observação estatística. Exemplo:
Um professor organizou os resultados obtidos em uma prova com 25 alunos da seguinte forma:

Organizando-os de modo que a consulta a eles seja simplificada. Depois, faremos a distribuição de frequência
destas notas, por meio da contagem de dados, que podemos chamar de frequência de dados absolutos.

A forma como organizamos os dados é conhecida como distribuição de frequência, e o número de vezes
que um dado aparece é chamado de frequência absoluta. O somatório SEMPRE é a quantidade de dados
apresentados, que neste é 25.

1 Associação Educacional Dom Bosco - Estatística e probabilidade - Uanderson Rebula de Oliveira

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

4
Geralmente são ordenados os números do menor para o maior, divididos em grupos de tamanho razoável e,
depois, são colocados em gráficos para que se examine sua forma, ou distribuição. Este gráfico é chamado de
Histograma. Um histograma é um gráfico de colunas juntas. Em um histograma não existem espaços entre as
colunas adjacentes, como ocorre em um gráfico de colunas. No exemplo, a escala horizontal (→) representa as
notas e a escala vertical (↑) as frequências. Os gráficos são a melhor forma de apresentação dos dados.
Trabalhamos não somente com frequência absoluta (f), mas também com outros tipos de frequências:
frequência relativa (fr), frequência absoluta acumulada (Fa) e frequência relativa cumulada (FRa).

Frequência Relativa fr (%)

Representamos por fr(%), e significa a relação existente entre a frequência absoluta f e a soma das frequências
∑f. É a porcentagem (%) do número de vezes que cada dado aparece em relação ao total.

Frequência Absoluta Acumulada Fa

Representado por Fa, representa a soma das frequências absolutas até o elemento analisado.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

5
Frequência Relativa Acumulada FRa (%)
Representado por FRa (%), representa a soma das frequências relativas fr(%) até o elemento analisado.

Observe que os valores ao lado, deverão coincidir.

Agrupamento em Classes
Em uma distribuição de frequência, ao trabalhar com grandes conjuntos de dados e com valores dispersos,
podemos agrupá-los em classes. Isso torna mais fácil entender os dados e visualizá-los melhor.
Se o conjunto de dados for muito disperso, agrupar-se os dados criando uma escala de frequência é a
melhor representação. Ocorrência contrário, a tabela será muito longa.

Exemplo: Um radar instalado em uma rodovia registrou a velocidade (em Km/h) de 40 veículos.

Montando a tabela de distribuição de frequência temos:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

6
A distribuição de frequências que obtemos a partir desses dados é dada uma tabela razoavelmente extensa.
E por este motivo usamos a distribuição de frequência com classes, para que possamos trabalhar com uma
tabela menor.

Criando uma distribuição de frequência com classes

Pegando os dados anteriores teremos:
– Calcular a quantidade de classes (i), pela raiz da quantidade de dados. São 40 veículos. Então:

√40 = 6,3 ≈ i = 6 classes.

– Calcular a amplitude de classe (h) que é o tamanho da classe, sendo:

O maior valor (128) e o Menor valor (70) são obtidos da lista dos registros das velocidades dos 40 veículos.
– Montar as classes a partir do Menor valor (70), somando com a amplitude de classe (10) até que se chegue
na 6ª classe, assim:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

7
Teremos então os dados distribuídos da seguinte forma:

Tipos de intervalos de classe

Faz-se uso no Brasil da seguinte notação de intervalo ├ (Resolução 866/66 do IBGE). Já na literatura
estrangeira utiliza‐se comumente com intervalo fechado.

Conceitos que não podem ser esquecidos

– Limites de classe: valores extremos de cada classe. No exemplo 70 ├ 80, temos que o limite inferior é 70
e o limite superior 80.

– Amplitude total da distribuição (AT): diferença entre o limite superior da última classe e o limite inferior
da primeira classe, no exemplo 130 – 70 = 60.

– Amplitude amostral (AA): diferença entre o valor máximo e o valor mínimo da amostra, no exemplo 128
– 70 = 58.
Assim temos as distribuições de frequências absoluta f, relativa fr(%), absoluta acumulada Fa e relativa
acumulada FRa(%), bem como o Histograma desta distribuição.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

8
Como podemos representar os dados através de outras formas gráficas?

– Polígono de frequência: gráfico em linha que representa os pontos centrais dos intervalos de classe.
Construímos este gráfico, através do cálculo do ponto central de classe (xi), que é o ponto que divide o intervalo
de classe em duas partes iguais.
Para construirmos polígono de frequência:
1º) Construímos um histograma;
2º) Marcamos no “telhado” de cada coluna o ponto central e
3º) Unimos sequencialmente esses pontos.

– Ogiva: é um polígono de frequência acumulada. Representada por um gráfico em linha que representa as
frequências acumuladas (Fa), levantada nos pontos correspondentes aos limites superiores dos intervalos de
classe. Construção: elaborar o histograma de frequência f em uma escala menor, considerando o último valor
a frequência acumulada da última classe, no caso, 40.

Gráficos
Tem como objetivo da representação. Dentre eles temos:

– Gráfico de Barras: este tipo de gráfico é interessante para as variáveis qualitativas ordinais ou quantitativas
discretas, pois permite investigar a presença de tendência nos dados. Elas podem ser na vertical ou horizontal.
Exemplos:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

9
– Diagrama Circular ou setores: também conhecido como gráfico de pizza, repartimos um disco em seto-
res circulares correspondentes às porcentagens de cada valor (calculadas multiplicando-se a frequência rela-
tiva por 100).

– Histograma: este consiste em retângulos contíguos com base nas faixas de valores da variável e com
área igual à frequência relativa da respectiva faixa. Desta forma, a altura de cada retângulo é denominada
densidade de frequência ou simplesmente densidade definida pelo quociente da área pela amplitude da faixa.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

10
Exemplo:

– Gráfico de Linha ou Sequência: apresenta as observações de medidas ao longo do tempo, enfatizando

sua tendência ou periodicidade. Exemplo:

– Polígono de Frequência: se assemelha ao histograma, porém é construído a partir dos pontos médios
das classes. Exemplo:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

11
– Gráfico de Ogiva: neste apresentamos uma distribuição de frequências acumuladas, utilizamos então
uma poligonal ascendente utilizando os pontos extremos.

– Pictogramas: aqui os dados são apresentados por desenhos ilustrativos.

– Cartograma: representação sobre uma carta geográfica (mapa). Utilizamos para dados relacionados com
áreas geográficas ou políticas.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

12
Resumos(medidas) numéricos
Por meio destes podemos levantar informações importantes sobre um conjunto de dados tais como: a
tendência central, variabilidade, simetria, valores extremos, valores discrepantes, etc. Aqui serão apresentadas
3 classes de medidas:
– Tendência Central
– Dispersão (Variabilidade)
– Separatrizes

– Tendência central: elas indicam, em geral, um valor central em torno do qual os dados estão distribuídos.

Média Aritmética que podem ser:

– Simples: soma de todos os seus elementos, dividida pelo número de elementos n.

Para o cálculo: Se x for a média aritmética dos elementos do conjunto numérico A = {x1; x2; x3; ...; xn}, então,
por definição:

– Ponderada: é a soma dos produtos de cada elemento multiplicado pelo respectivo peso, dividida
pela soma dos pesos. Para o cálculo:

Mediana (mdobs)
Valor central em um conjunto de dados ordenados. Pela mediana o conjunto de dados é dividido em duas
partes iguais sendo metade dos valores abaixo da mediana e, a outra metade, acima.

1 – Para um conjunto com um número n (ímpar) de observações, a mediana é o valor na posição n+1/2.

2 – Para um conjunto com um número n (par) de observações a mediana é a media aritmética dos valores
nas posições n/2 e n/2 + 1.

Moda
Valor que aparece com maior frequência.

Medidas de variação ou dispersão

As medidas de variação ou dispersão complementam as medidas de localização ou tendência central,
sinalizando o quanto as observações diferem umas das outras ou o quão longe as observações estão da média.
As mais utilizadas são: a amplitude total, a variância, o desvio padrão e o coeficiente de variação.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

13
– Amplitude total: representada por at, fornece uma ideia de variação e consiste na diferença entre o maior
valor e o menor valor de um conjunto de dados. Assim, temos:

at = ES - EI
onde:
ES: extremo superior do conjunto de dados ordenado;
EI: extremo inferior do conjunto de dados ordenado.
A amplitude total é uma medida pouco precisa, por esta razão é extremamente influenciada por valores
discrepantes.

– Variância: representada por s² , é a medida de dispersão mais utilizada, seja pela sua facilidade de
compreensão e cálculo, seja pela possibilidade de emprego na inferência estatística. É dada pela média dos
quadrados dos desvios em relação à média aritmética. Assim, temos:

onde:
n −1: é o número de graus de liberdade ou desvios independentes.
A utilização do denominador n −1, em vez de n, tem duas razões fundamentais:

Propriedades matemáticas da variância

– 1ª propriedade: A variância de um conjunto de dados que não varia, ou seja, cujos valores são uma
constante, é zero.

– 2ª propriedade: Se somarmos uma constante c a todos os valores de um conjunto de dados, a variância

destes dados não se altera.

– 3ª propriedade: Se multiplicarmos todos os valores de um conjunto de dados por uma constante c, a

variância destes dados fica multiplicada pelo quadrado desta constante.

– Desvio Padrão: representado por s, surge para solucionar o problema de interpretação da variância e é
definido como a raiz quadrada positiva da variância. Assim, temos:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

14
– Coeficiente de Variação: representado por CV, é a medida mais utilizada quando existe interesse em
comparar variabilidades de diferentes conjuntos de dados. Definimos como a proporção da média representada
pelo desvio padrão e dado por:

– Separatrizes: elas delimitam proporções de observações de uma variável ordinal. Elas estabelecem
limites para uma determinada proporção 0 ≤ p ≤ 1 de observações. Trata-se de medidas intuitivas, de fácil
compreensão e frequentemente resistentes.
A mediana divide o conjunto em duas metades, essas medidas separatrizes são denominadas quartis.

– Quartis: representados por Qi, onde i = 1, 2 e 3, são três medidas que dividem um conjunto de dados
ordenado em quatro partes iguais. São elas:
− Primeiro quartil (Q1): 25% dos valores ficam abaixo e 75% ficam acima desta medida.
− Segundo quartil (Q2): 50% dos valores ficam abaixo e 50% ficam acima desta medida. O segundo quartil
de um conjunto de dados corresponde à mediana (Q2 = Md).
− Terceiro quartil (Q3): 75% dos valores ficam abaixo e 25% ficam acima desta medida.

Probabilidade. Definições básicas e axiomas. Probabilidade condicional e indepen-

dência. Variáveis aleatórias discretas e contínuas. Distribuição de probabilidades. Fun-
ção de probabilidade. Função densidade de probabilidade. Esperança e momentos.
Distribuições especiais. Distribuições condicionais e independência. Transformação de
variáveis. Leis dos grandes números. Teorema central do limite. Amostras aleatórias.
Distribuições amostrais

PROBABILIDADE
O estudo da probabilidade vem da necessidade de em certas situações, prevermos a possibilidade de
ocorrência de determinados fatos.

A teoria da probabilidade é o ramo da Matemática que cria e desenvolve modelos matemáticos para estudar
os experimentos aleatórios. Alguns elementos são necessários para efetuarmos os cálculos probabilísticos.

Experimentos aleatórios são fenômenos que apresentam resultados imprevisíveis quando repetidos, mes-
mo que as condições sejam semelhantes.

Exemplos
a) lançamento de 3 moedas e a observação das suas faces voltadas para cima
b) jogar 2 dados e observar o número das suas faces
c) abrir 1 livro ao acaso e observar o número das suas páginas.

Espaço amostral é o conjunto de todos os resultados possíveis de ocorrer em um determinado experimento

aleatório. Indicamos esse conjunto por uma letra maiúscula: U, S , A, Ω ... variando de acordo com a bibliografia
estudada.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

15
Exemplo
a) quando lançamos 3 moedas e observamos suas faces voltadas para cima, sendo as faces da moeda cara
(c) e coroa (k), o espaço amostral deste experimento é:
S = {(c,c,c); (c,c,k); (c,k,k); (c,k,c); (k,k,k,); (k,c,k); (k,c,c); (k,k,c)}, onde o número de elementos do espaço
amostral n(A) = 8

Evento é qualquer subconjunto de um espaço amostral (S); muitas vezes um evento pode ser caracterizado
por um fato. Indicamos pela letra E.

Exemplo
a) no lançamento de 3 moedas:
E1→ aparecer faces iguais
E1 = {(c,c,c);(k,k,k)}
O número de elementos deste evento E1 é n(E1) = 2
E2→ aparecer coroa em pelo menos 1 face
E2 = {(c,c,k); (c,k,k); (c,k,c); (k,k,k,); (k,c,k); (k,c,c); (k,k,c)}
Logo n(E2) = 7
Veremos agora alguns eventos particulares:

Evento certo é aquele que possui os mesmos elementos do espaço amostral (todo conjunto é subconjunto
de si mesmo); E = S.

Exemplo
A soma dos resultados nos 2 dados ser menor ou igual a 12.

Evento impossível é um evento igual ao conjunto vazio (Ø).

Exemplo
O número de uma das faces de um dado ser 7.
E: Ø

Evento simples é um evento que possui um único elemento.

Exemplo
A soma do resultado de dois dados ser igual a 12.
E: {(6,6)}

Evento complementar, se E é um evento do espaço amostral S, o evento complementar de E indicado por

C tal que C = S – E. Ou seja, o evento complementar é quando E não ocorre.
E1: o primeiro número, no lançamento de 2 dados, ser menor ou igual a 2.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

16
E2: o primeiro número, no lançamento de 2 dados, ser maior que 2.
S: espaço amostral é dado na tabela abaixo:

E1: {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3) (2,4), (2,5), (2,6)}
Como, C = S – E1
C = {(3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5),
(5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)}

Eventos mutuamente exclusivos, dois ou mais eventos são mutuamente exclusivos quando a ocorrência
de um deles implica a não ocorrência do outro. Se A e B são eventos mutuamente exclusivos, então: A ∩ B = Ø.
Sejam os eventos:
A: quando lançamos um dado, o número na face voltada para cima é par.
A = {2,4,6}
B: quando lançamos um dado, o número da face voltada para cima é divisível por 5.
B = {5}
Os eventos A e B são mutuamente exclusivos, pois A ∩ B = Ø.

Probabilidade em espaços equiprováveis

Considerando um espaço amostral S, não vazio, e um evento E, sendo E ⊂ S, a probabilidade de ocorrer o
evento E é o número real P (E), tal que:

Sendo 0 ≤ P(E) ≤ 1 e S um conjunto equiprovável, ou seja, todos os elementos têm a mesma “chance
de acontecer.
Onde:
n(E) = número de elementos do evento E.
n(S) = número de elementos do espaço amostral S.

Exemplo
Lançando-se um dado, a probabilidade de sair um número ímpar na face voltada para cima é obtida da se-
guinte forma:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

17
S = {1, 2, 3, 4, 5, 6} n(S) = 6
E = {1, 3, 5} n(E) = 3

Probabilidade da união de dois eventos

Vamos considerar A e B dois eventos contidos em um mesmo espaço amostral A, o número de elementos da
reunião de A com B é igual ao número de elementos do evento A somado ao número de elementos do evento
B, subtraindo o número de elementos da intersecção de A com B.

Sendo n(S) o número de elementos do espaço amostral, vamos dividir os dois membros da equação por n(S)
a fim de obter a probabilidade P (A U B).

P (A U B) = P(A) + P(B) – P (A ∩ B)

Para eventos mutuamente exclusivos, onde A ∩ B = Ø, a equação será:

P (A U B) = P(A) + P(B)

Exemplo
A probabilidade de que a população atual de um país seja de 110 milhões ou mais é de 95%. A probabilidade
de ser 110 milhões ou menos é de 8%. Calcule a probabilidade de ser 110 milhões.
Sendo P(A) a probabilidade de ser 110 milhões ou mais: P(A) = 95% = 0,95
Sendo P(B) a probabilidade de ser 110 milhões ou menos: P(B) = 8% = 0,08
P (A ∩ B) = a probabilidade de ser 110 milhões: P (A ∩ B) = ?
P (A U B) = 100% = 1
Utilizando a regra da união de dois eventos, temos:
P (A U B) = P(A) + P(B) – P (A ∩ B)
1 = 0,95 + 0,08 - P (A ∩ B)

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

18
P (A ∩ B) = 0,95 + 0,08 - 1
P (A ∩ B) = 0,03 = 3%

Probabilidade condicional

Vamos considerar os eventos A e B de um espaço amostral S, definimos como probabilidade condicional do

evento A, tendo ocorrido o evento B e indicado por P(A | B) ou , a razão :

Lemos P (A | B) como: a probabilidade de A “dado que” ou “sabendo que” a probabilidade de B.

Exemplo
No lançamento de 2 dados, observando as faces de cima, para calcular a probabilidade de sair o número 5
no primeiro dado, sabendo que a soma dos 2 números é maior que 7.
Montando temos:
S = {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5),
(3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)}
Evento A: o número 5 no primeiro dado.
A = {(5,1), (5,2), (5,3), (5,4), (5,5), (5,6)}
Evento B: a soma dos dois números é maior que 7.
B = {(2,6), (3,5), (3,6), (4,4), (4,5), (4,6), (5,3), (5,4), (5,5), (5,6), (6,2), (6,3), (6,4), (6,5), (6,6)}
A ∩ B = {(5,3), (5,4), (5,5), (5,6)}
P (A ∩ B) = 4/36
P(B) = 15/36
Logo:

Probabilidade de dois eventos simultâneos (ou sucessivos)

A probabilidade de ocorrer P (A ∩ B) é igual ao produto de um deles pela probabilidade do outro em relação
ao primeiro. Isto significa que, para se avaliar a probabilidade de ocorrem dois eventos simultâneos (ou suces-
sivos), que é P (A ∩ B), é preciso multiplicar a probabilidade de ocorrer um deles P(B) pela probabilidade de
ocorrer o outro, sabendo que o primeiro já ocorreu P (A | B).
Sendo:

Eventos independentes, dois eventos A e B de um espaço amostral S são independentes quando P(A|B) =
P(A) ou P(B|A) = P(B). Sendo os eventos A e B independentes, temos:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

19
P (A ∩ B) = P(A). P(B)

Exemplo
Lançando-se simultaneamente um dado e uma moeda, determine a probabilidade de se obter 3 ou 5 no dado
e cara na moeda.
Sendo, c = coroa e k = cara.
S = {(1,c), (1,k), (2,c), (2,k), (3,c), (3,k), (4,c), (4,k), (5,c), (5,k), (6,c), (6,k)}
Evento A: 3 ou 5 no dado
A = {(3,c), (3,k), (5,c), (5,k)}

Evento B: cara na moeda

B = {(1,k), (2,k), (3,k), (4,k), (5,k), (6,k)}

Os eventos são independentes, pois o fato de ocorrer o evento A não modifica a probabilidade de ocorrer o
evento B. Com isso temos:
P (A ∩ B) = P(A). P(B)

Observamos que A ∩ B = {(3,k), (5,k)} e a P (A ∩ B) poder ser calculada também por:

No entanto nem sempre chegar ao n(A ∩ B) é fácil, depende do nosso espaço amostral.

Lei Binomial de probabilidade

Vamos considerar um experimento que se repete “n” vezes. Em cada um deles temos:
P(E) = p, que chamamos de probabilidade de ocorrer o evento E com sucesso.

= 1 – p , probabilidade de ocorrer o evento E com insucesso (fracasso).

A probabilidade do evento E ocorrer k vezes, das n que o experimento se repete é dado por uma lei binomial.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

20
A probabilidade de ocorrer k vezes o evento E e (n - k) vezes o evento é o produto: pk . (1 – p)n - k
As k vezes do evento E e as (n – k) vezes do evento podem ocupar qualquer ordem. Então, precisamos
considerar uma permutação de n elementos dos quais há repetição de k elementos e de (n – k) elementos, em
outras palavras isso significa:

logo a probabilidade de ocorrer k vezes o evento E no n experimentos é dada:

A lei binomial deve ser aplicada nas seguintes condições:

- O experimento deve ser repetido nas mesmas condições as n vezes.
- Em cada experimento devem ocorrer os eventos E e .
- A probabilidade do E deve ser constante em todas as n vezes.
- Cada experimento é independente dos demais.

Exemplo:
Lançando-se uma moeda 4 vezes, qual a probabilidade de ocorrência 3 caras?
Está implícito que ocorrerem 3 caras deve ocorrer uma coroa. Umas das possíveis situações, que satisfaz o
problema, pode ser:

Temos que:
n=4
k=3

Logo a probabilidade de que essa situação ocorra é dada por:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

21
como essa não é a única situação de ocorre 3 caras e 1 coroa. Vejamos:

Podemos também resolver da seguinte forma: maneiras de ocorrer o produto

portanto

DISTRIBUIÇÃO NORMAL

CURVA NORMAL

Entre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a distribuição
normal.
Muitas das variáveis analisadas na pesquisa socioeconômica correspondem à distribuição normal ou dela
se aproximam.
O aspecto gráfico de uma distribuição normal é o da Figura 10.1:

Para uma perfeita compreensão da distribuição normal, observe a Figura 10.1 e procure visualizar as se-
guintes propriedades:

1°) A variável aleatória X pode assumir todo e qualquer valor real.

2°) A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da mé-
dia (), que recebe o nome de curva normal ou de Gauss.

3°) A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área corresponde à
probabilidade de a variável aleatória X assumir qualquer valor real.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

22
4°) A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se indefinidamente do
eixo das abscissas sem, contudo, alcançá-lo.

5°) Como a curva é simétrica em torno de , a probabilidade de ocorrer valor maior do que a média é igual à
probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5. Escre-
vemos: P(X > ) = P(X < ) = 0,5.
Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal interesse é obter a
probabilidade de essa variável aleatória assumir um valor em um determinado intervalo. Vejamos como proce-
der, por meio de um exemplo concreto.

Seja X a variável aleatória que representa os diâmetros dos parafusos produzidos por certa máquina. Vamos
supor que essa variável tenha distribuição normal com média = 2 cm e desvio padrão s = 0,04 cm.
Pode haver interesse em conhecer a probabilidade de um parafuso ter um diâmetro com valor entre 2 e 2,05
cm.
É fácil notar que essa probabilidade, indicada por:
P (2 < X < 2,05),
Corresponde à área hachurada na Figura 10.2:

O cálculo direto dessa probabilidade exige um conhecimento de Matemática mais avançado do que aquele
que dispomos no curso de 2° grau. Entretanto, podemos contornar facilmente esse problema. Basta aceitar,
sem demonstração, que, se X é uma variável aleatória com distribuição normal de média e desvio padrão
s, então a variável:

tem distribuição normal reduzida, isto é, tem distribuição normal de média O e desvio padrão 1.
As probabilidades associadas à distribuição normal padronizada são encontradas em tabelas, não havendo
necessidade de serem calculadas.

Temos uma de distribuição normal reduzida, que nos dá a probabilidade de Z tomar qualquer valor entre a
média O e um dado valor z, isto é:

Temos, então, que se X é uma variável aleatória com distribuição normal de média e desvio padrão s, po-
demos escrever:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

23
Voltemos, então, ao nosso problema.

Queremos calcular P(2 < X < 2,05). Para obter essa probabilidade, precisamos, em primeiro lugar, calcular
o valor de z que corresponde

a . Temos, então:

donde:
P(2 < X < 2,05) = P(0 < X < 1,25)
Procuremos, agora, z = 1,25, porém para você que irá resolver apenas um exercício na prova, este valor
será dado, mas irei deixar abaixo a tabela onde poderá ser consultado este valor, para nossos problemas aqui
propostos.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

24
Fonte: https://bloglosbifes.files.wordpress.com/2013/10/distribuicao_normal_padrao.png

Na primeira coluna encontramos o valor 1,2. Em seguida, encontramos, na primeira linha, o valor 5, que cor-
responde ao último algarismo do número 1,25. Na intersecção da linha e coluna correspondentes encontramos
o valor 0,3944, o que nos permite escrever:
P(0 < Z < 1,25) = 0,3944
Assim, a probabilidade de um parafuso fabricado por essa máquina apresentar um diâmetro entre a média
= 2 e o valor x = 2,05 é 0,3944.
Escrevemos, então:
P(2 < X < 2,05) = P(0 < Z < 1,25) = 0,3944 ou 39,44%

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

25
Exemplos

1. Determine as probabilidades:
a. P(-1,25 < Z < 0)
A probabilidade procurada corresponde à parte hachurada da figura:

Sabemos que:
P(0 < Z < 1,25) = 0,3944
Pela simetria da curva, temos:
P(-1,25 < Z < 0) = P(0 < Z < 1,25) = 0,3944
b. P(-0,5 < Z < 1,48)
A probabilidade procurada corresponde à parte hachurada da figura:

Temos:
P(-0,5 < Z < 1,48) = P(-0,5 < Z < 0) + P(0 < Z < 1,48)
Como:
P(-0,5 < Z < 0) = P(0 < Z < 0,5) = 0,1915
e
P(0 < Z < 1,48) = 0,4306,
obtemos:
P(-0,5 < Z < 1,48) = 0,1915 + 0,4306 = 0,6221
c. P(0,8 < Z < 1,23)
A probabilidade procurada corresponde à parte hachurada da figura:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

26
Temos:
P(0,8 < Z < 1,23) = P(0 < Z < 1,23) - P(0 < Z < 0,8)
Como:
P(0 < Z < 1,23) = 0,3907 e P(0 < Z < 0,8) = 0,2881,
obtemos:
P(0,8 < Z < 1,23) = 0,3907 - 0,2881 = 0,1026
d. P(Z > 0,6)
A probabilidade procurada corresponde à parte hachurada da figura:

Temos:
P(Z > 0,6) = P(Z > 0) - P(0 < Z < 0,6)
Como:
P(Z > 0) = 0,5 e P(0 < Z < 0,6) 0,2258,
obtemos:
P(Z > 0,6) - 0,5 - 0,2258 = 0,2742
e. P(Z < 0,92)
A probabilidade procurada corresponde à parte hachurada da figura:

Temos:
P(Z < 0,92) = P(Z < 0) + P(0 < Z < 0,92)

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

27
Como:
P(Z < 0) = 0,5 e P(0 < Z < 0,92) = 0,3212,
obtemos:
P(Z < 0,92) = 0,5 + 0,3212 = 0,8212

2. Os salários semanais dos operários industriais são distribuídos normalmente, em torno da média de R$
500, com desvio padrão de R$ 40. Calcule a probabilidade de um operário ter um salário semanal situado entre
R$ 490 e R$ 520.
Devemos, inicialmente, determinar os valores da variável de distribuição normal reduzida.
Assim:

Logo, a probabilidade procurada é dada por:

P(490 < X < 520) = P(-0,25 < Z < 0,5) = P(-0,25 < Z < 0) +
+ P(0 < Z < 0,5) = 0,0987 + 0,1915 = 0,2902
É, pois, de se esperar que, em média, 29,02% dos operários tenham salários entre R$ 490 e R$ 520.

Amostragem por cotas

Neste tipo de amostragem, a população é dividida em grupos, e seleciona-se uma cota proporcional ao
tamanho de cada grupo. Entre- tanto, dentro de cada grupo não é feito sorteio, e sim os elementos são pro-
curados até que a cota de cada grupo seja cumprida. Em pesquisas eleitorais, a divisão de uma população em
grupos (considerando, por exemplo, o sexo, o nível de escolaridade, a faixa etária e a renda) pode servir de base
para a definição dos grupos, partindo da suposição de que estas variáveis definem grupos com comportamentos
diferenciados no processo eleitoral. Para se ter uma ideia do tamanho destes grupos, pode-se recorrer a pesquisas
feitas anteriormente pelo IBGE (Instituto Brasileiro de Geografia e Estatística).

Distribuições amostrais
Com as distribuições amostrais, você pode inferir propriedades de um agregado maior (a população) a partir
de um conjunto menor (a amostra), ou seja, inferir sobre parâmetros populacionais, dispondo apenas de esta-
tísticas amostrais.
Portanto, torna-se necessário um estudo detalhado das distribuições amostrais, que são base para interva-
los de confiança e testes de hipóteses.

Portanto, para que você tenha condições de fazer afirmações sobre um determinado parâmetro populacional
(ex: µ), baseadas na estimativa , obtido a partir dos dados amostrais, é necessário conhecer a relação exis-
tente entre e µ, isto é, o comportamento de , quando se extraem todas as amostras possíveis da popula-
ção, ou seja, sua distribuição amostral.

Para obtermos a distribuição amostral de um estimador, é necessário conhecer o processo pelo qual as
amostras foram retiradas, isto é, se amostras foram retiradas com reposição ou sem reposição.

Portanto, a partir do comportamento da estatística amostral, pode- se aplicar um teorema muito conhecido
na estatística como Teorema do Limite Central. Este teorema propõe que, se retirarmos todas as possíveis
amostras de tamanho n de uma população independente de sua distribuição, e verificarmos como as estatísti-
cas amostrais obtidas se distribuem, teremos uma distribuição aproximadamente normal, com

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

28
(média das médias amostrais igual à média populacional) e variância das médias

(variância das médias mostrais igual à variância da população dividida pelo tamanho da amostra), se
a amostragem for realizada com reposição, ou

,
se a amostragem for realizada sem reposição em uma população finita ( n/N > 0,05), independentemente da
distribuição da variável em questão.

Considere uma população formada pelos números {1, 2, 3}. Sabemos que esta população apresenta µ= 2 e
variância s2 = 2/3. Retire todas as amostras possíveis com n=2, fazendo com e sem reposição e calcule a
média das médias amostrais (µ2) e a variância das médias amostrais . Compare com os resultados da
população e veja se o teorema é verdadeiro. Pesquise este problema em sites da internet ou outros livros de
Estatística.
Portanto, considerando a distribuição amostral de médias, quando se conhece a variância ou a amostra é
grande (n > 30), utilizamos a estatística z da distribuição normal vista anteriormente, independente da distribui-
ção da população. Então, por meio do teorema do limite central, a estatística será dada por:

Porém, ocorre que, na prática, muitas das vezes não se conhece s2 e trabalha-se com amostras pequenas,
ou seja, menores ou iguais a 30. Assim, você conhece apenas sua estimativa s (desvio-padrão amostral). Subs-
tituindo σ por seu estimador s, na expressão da variável padronizada, obtém-se a variável:

A distribuição t apresenta as seguintes características:

• é simétrica em relação à média, que é zero;
• tem forma campanular (semelhante à normal);
• quando n tende para infinito, a distribuição t tende para a distribuição normal, na prática, a aproximação é
considerada boa quando n >30; e
• possui n-1 graus de liberdade.

Vamos aprender a utilizar a Tabela da distribuição de t de Student. Na Tabela t de Student, na primeira linha
temos o valor de α, que corresponde à probabilidade (área) acima de um determinado valor da tabela. Na
figura a seguir, temos o conceito de α (área mais escura).

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

29
Observe que na Tabela de t (a seguir), temos na primeira coluna os graus de liberdade (GL) e no centro da
tabela, teremos os valores da estatística t de Student. Na primeira linha temos os valores de α.

Tabela 8: Limites unilaterais da distribuição t de Student ao nível α de probabilidade

Fonte: www.dpi.inpe.br/~camilo/estatistica/06estimação.ppt

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

30
Para exemplificar o uso da tabela, consideremos que desejamos encontrar a probabilidade de ser maior do
que um valor de t igual a 2,764, trabalhando com uma amostra de tamanho n = 11. Portanto, teremos 10 graus
de liberdade e nesta linha procuramos o valor que desejamos encontrar, 2,764. Subindo na Tabela em direção
ao α encontraremos um valor de 0,01 na primeira linha, ou seja, esta é a probabilidade de ser maior do que
2,764, com 10 graus de liberdade.

Retirando-se uma amostra de n elementos de uma população normal com média µ e variância , então, pode-
-se demonstrar que a distribuição amostral da variância amostral segue uma distribuição de (qui-quadrado)
com n-1 graus de liberdade. A variável da estatística de qui-quadrado será dada por:

tem distribuição com n-1 graus de liberdade.

Esta distribuição é sempre positiva, o que pode ser comprovado pela própria definição da variável. Esta dis-
tribuição é assimétrica, como pode ser visto no gráfico da distribuição mostrado a seguir.

No esquema a seguir, temos como é feita a utilização da distribuição de qui-quadrado com g graus de liber-
dade.
Fonte: www.dpi.inpe.br/~camilo/estatistica/06estimação.ppt
A distribuição F de Snedecor também conhecida como distribuição de Fisher é frequentemente utilizada na
inferência estatística para análise da variância.

Uma variável aleatória contínua tem distribuição de Snedecor com graus de liberdade no numerador e
graus de liberdade no denominador se sua função densidade de probabilidade é definida por

Neste caso, utilizamos a notação .

O gráfico abaixo ilustra a função densidade da distribuição de Snedecor com parâmetros m = 3 e n = 2.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

31
Exemplo

Um importante exemplo da distribuição de Snedecor corresponde a estatística . Suponha que te-

mos duas populações independentes tendo distribuições normais com variâncias iguais a . Considere
uma amostra aleatória da primeira população com observações e uma amostra
aleatória da segunda população com observações. Então, a estatística

tem distribuição de Snedecor com graus de liberdade no numerador e graus de liberdade no

denominador, onde e sãos os desvios padrão amostrais da primeira e da segunda amostra, respectiva-
mente.

Teorema

Considere e variáveis aleatórias com distribuição qui-quadrado com n e m graus de liberdade, respec-
tivamente. Além disso, suponha que estas variáveis aleatórias são independentes. Então a variável aleatória:

tem distribuição de Snedecor com m graus de liberdade no numerador e n graus de liberdade no denomi-
nador.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

32
Demonstração

Seja uma variável aleatória positiva com função densidade de probabilidade e uma variável aleatória
com função densidade . Suponha que as variáveis aleatórias e sejam independentes. Neste caso, a
função densidade de probabilidade conjunta é dada por . Considere a fração . Neste caso,
a função densidade conjunta do quociente é dada por

em que . Assim temos que

Considerando a mudança de variável ; temos que:

Assim, a função densidade de probabilidade de é dada por

Como e são independentes, a distribuição conjunta do quociente é dada por

Portanto a distribuição do quociente , com e é dada por:

de onde concluímos que

lembrando que . Fazendo a substituição e reorganizando a integral acima

temos que:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

33
Para finalizar, tomamos e, neste caso, temos que

Ao realizarmos a transformação de variáveis , concluímos que

Ao substituirmos, concluímos que segue uma distribuição com graus de liberdade no numerador e
graus de liberdade no denominador.
Por construção, o quadrado da distribuição t-Student com graus de liberdade tem distribuição F com grau
de liberdade no numerador e graus de liberdade no denominador.

Axiomas
Na matemática, um axioma é uma hipótese inicial de qual outros enunciados são logicamente derivados.
Pode ser uma sentença, uma proposição, um enunciado ou uma regra que permite a construção de um sistema
formal. Diferentemente de teoremas, axiomas não podem ser derivados por princípios de dedução e nem são
demonstráveis por derivações formais, simplesmente porque eles são hipóteses iniciais. Isto é, não há mais
nada a partir do que eles seguem logicamente (em caso contrário eles seriam chamados teoremas). Em mui-
tos contextos, “axioma”, “postulado” e “hipótese” são usados como sinônimos. Como foi visto na definição, um
axioma não é necessariamente uma verdade auto evidente, mas apenas uma expressão lógica formal usada
em uma dedução, visando obter resultados mais facilmente. Axiomatizar um sistema é mostrar que suas infe-
rências podem ser derivadas a partir de um pequeno e bem-definido conjunto de sentenças. Isto não significa
que elas possam ser conhecidas independentemente, e tipicamente existem múltiplos meios para axiomatizar
um dado sistema (como a aritmética). A matemática distingue dois tipos de axiomas: axiomas lógicos e axiomas
não-lógicos.

Distribuições
A distribuição da probabilidade é uma função que determina probabilidades para eventos ou proposições.
Para qualquer conjunto de eventos ou proposições existem muitas maneiras de determinar probabilidades, de
forma que a escolha de uma ou outra distribuição é equivalente a criar diferentes hipóteses sobre os eventos
ou proposições em questão. Há várias formas equivalentes de se especificar uma distribuição de probabilidade.
Talvez a mais comum é especificar uma função densidade da probabilidade. Daí, a probabilidade de um evento
ou proposição é obtida pela integração da função densidade.
A função distribuição pode ser também especificada diretamente. Em uma dimensão, a função distribuição é
chamada de função distribuição cumulativa. As distribuições de probabilidade também podem ser especificadas
via momentos ou por funções características, ou por outras formas. Uma distribuição é chamada de distribuição
discreta se for definida em um conjunto contável e discreto, tal como o subconjunto dos números inteiros; ou
é chamada de distribuição contínua se tiver uma função distribuição contínua, tal como uma função polinomial
ou exponencial. A maior parte das distribuições de importância prática são ou discretas ou contínuas, porém há
exemplos de distribuições que não são de nenhum desses tipos.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

34
Dentre as distribuições discretas importantes, pode-se citar a distribuição uniforme discreta, a distribuição de
Poisson, a distribuição binomial, a distribuição binomial negativa e a distribuição de Maxwell-Boltzmann. Dentre
as distribuições contínuas, a distribuição normal, a distribuição gama, a distribuição t de Student e a distribuição
exponencial.

Distribuição Binomial
Em teoria das probabilidades e estatística, a distribuição binomial é a distribuição de probabilidade discreta
do número de sucessos numa sequência de n tentativas tais que as tentativas são independentes; cada tenta-
tiva resulta apenas em duas possibilidades, sucesso ou fracasso (a que se chama de tentativa de Bernoulli); a
probabilidade de cada tentativa, p, permanece constante.

Função de probabilidade: Se a variável aleatória X que contém o número de tentativas que resultam em
sucesso tem uma distribuição binomial com parâmetros n e p escrevemos X ~ B(n, p). A probabilidade de ter
exatamente k sucessos é dado pela função de probabilidade:

para e onde é uma combinação.

Através do desenvolvimento do binômio e algumas operações com expoentes e fatoriais, é possível de-
monstrar que:

Exemplo:
Três dados comuns e honestos serão lançados. A probabilidade de que o número 6 seja obtido mais de uma
vez é: A probabilidade de que seja obtido 2 vezes mais a probabilidade de que seja obtido 3 vezes. Usando a
distribuição binomial de probabilidade:
Acha-se a probabilidade de que seja obtido 2 vezes:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

35
Agora a probabilidade de que seja obtido 3 vezes:

Assim, a resposta é:

Valor esperado e variância: Se a X ~ B(n, p) (isto é, X é uma variável aleatória binomialmente distribuida),
então o valor esperado de X é

e a variância é

Exemplo:
Seja X uma variável aleatória que contém o número de caras saídas em 12 lançamentos de uma moeda
honesta. A probabilidade de sair 5 caras em 12 lançamentos, P(X=5), é dada por:

Distribuição Normal
A distribuição normal é uma das mais importantes distribuições da estatística, conhecida também como
Distribuição de Gauss ou Gaussiana. Foi primeiramente introduzida pelo matemático Abraham de Moivre. Além
de descrever uma série de fenômenos físicos e financeiros, possui grande uso na estatística inferencial. É intei-
ramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes consegue-se
determinar qualquer probabilidade em uma distribuição Normal.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

36
Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de outras dis-
tribuições quando o número de observações fica grande. Essa importante propriedade provém do Teorema do
Limite Central que diz que “toda soma de variáveis aleatórias independentes de média finita e variância limitada
é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande” (ver o teo-
rema para um enunciado mais preciso).
A distribuição normal foi introduzida pela primeira vez por Abraham de Moivre em um artigo no ano 1733, que
foi reproduzido na segunda edição de seu The Doctrine of Chances (1738) no contexto da aproximação de dis-
tribuições binomiais para grandes valores de n. Seu resultado foi estendido por Laplace, em seu livro Analytical
Theory of Probabilities (1812), e agora é chamado o teorema de Moivre-Laplace.
Laplace usou a distribuição normal na análise de erros de experimentos. O importante método dos mínimos
quadrados foi introduzido por Legendre, em 1805. Gauss, que alegou ter usado o método desde 1794, justi-
fica-o rigorosamente em 1809 assumindo uma distribuição normal para os erros. O fato de muitas vezes esta
distribuição ser chamado de distribuição gaussiana pode ser um exemplo de Stigler’s Law.
O nome “curva em forma de sino” ou “curva de sino” remonta a Esprit Jouffret que primeiro utilizou o termo
“superfície de sino” em 1872 para um normal bivariada com componentes independentes (atentar que nem toda
curva de sino é uma gaussiana). O nome “distribuição normal”, foi inventado independentemente por Charles S.
Peirce, Francis Galton e Wilhelm Lexis, por volta de 1875.

Função de densidade de probabilidade: A função densidade de probabilidade da distribuição normal com

média e variância (de forma equivalente, desvio padrão ) é assim definida,

Se a variável aleatória segue esta distribuição escreve-se:

~ . Se e ,
a distribuição é chamada de distribuição normal padrão e a função de densidade de probabilidade reduz-se
a,

Propriedades: Sejam a e b constantes conhecidas.

- Se X segue uma distribuição normal, ~ , então

~ .
- Se X e Y são variáveis aleatórias independentes que seguem distribuição normal, então a soma U = X +
Y, a diferença V = X - Y ou qualquer combinação linear W = a X + b Y também são variáveis aleatórias com
distribuição normal.
- É fácil construir exemplos de distribuições normais X e Y dependentes (mesmo com correlação zero) cuja
soma X + Y não é normal. Por exemplo, seja X uma distribuição normal padrão (média 0 e variância 1), então
fixando-se um número real positivo a, seja Ya definida como X sempre que |X| < a e -X sempre que |X| ≥ a.
Obviamente, Ya também é uma normal e X + Ya é uma variável aleatória que nunca pode assumir valores de
módulo acima de 2 a (ou seja, não é normal). Quando a é muito pequeno, X e Y são praticamente opostas, e

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

37
sua correlação é próxima de -1. Quando a é muito grande, X e Y são praticamente idênticas, e sua correlação
é próxima de 1. Como a correlação entre X e Ya varia continuamente com a, existe um valor de a para o qual
a correlação é zero.
- A soma de uma grande quantidade de variáveis aleatórias (com algumas restrições) tende a uma distribui-
ção normal - o significado mais preciso disto é o Teorema do Limite Central.

- A distribuição normal é infinitamente divisível, no seguinte sentido: se X é uma variável aleatória que segue
uma distribuição normal e n é um número natural, então existem n variáveis aletórias , inde-
pendentes e identicamente distribuídas, tal que

Distribuição de Poisson

Na teoria da probabilidade e na estatística, a distribuição de Poisson é uma distribuição de probabilidade

discreta que expressa a probabilidade de uma série de eventos ocorrer num certo período de tempo se estes
eventos ocorrem independentemente de quando ocorreu o último evento. A distribuição foi descoberta por Si-
méon-Denis Poisson (1781–1840) e publicada, conjuntamente com a sua teoria da probabilidade, em 1838 no
seu trabalho Recherches sur la probabilité des jugements en matières criminelles et matière civile (“Inquérito
sobre a probabilidade em julgamentos sobre matérias criminais e civis”). O trabalho focava-se em certas variá-
veis aleatórias N que contavam, entre outras coisas, o número de ocorrências discretas (por vezes chamadas
de “chegadas”) que tinham lugar durante um intervalo de tempo de determinado comprimento. A probabilidade
de que existam exactamente k ocorrências (k sendo um inteiro não negativo, k = 0, 1, 2, ...) é

onde
- e é base do logaritmo natural (e = 2.71828...),
- k! é o fatorial de k,
- λ é um número real, igual ao número esperado de ocorrências que ocorrem num dado intervalo de tempo.
Por exemplo, se o evento ocorre a uma média de 4 minutos, e estamos interessados no número de eventos que
ocorrem num intervalo de 10 minutos, usariámos como modelo a distribuição de Poisson com λ = 10/4 = 2.5.
Como função de k, esta é a função de probabilidade. A distribuição de Poisson pode ser derivada como um
caso limite da distribuição binomial.

Função de probabilidade da distribuição de Poisson para vários valores de λ.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

38
Processo de Poisson: A distribuição de Poisson aparece em vários problemas físicos, com a seguinte
formulação: considerando uma data inicial (t = 0), seja N(t) o número de eventos que ocorrem até uma certa
data t. Por exemplo, N(t) pode ser um modelo para o número de impactos de asteróides maiores que um certo
tamanho desde uma certa data de referência. Uma aproximação que pode ser considerada é que a probabili-
dade de acontecer um evento em qualquer intervalo não depende (no sentido de independência estatística) da
probabilidade de acontecer em qualquer outro intervalo disjunto. Neste caso, a solução para o problema é o
processo estocástico chamado de Processo de Poisson, para o qual vale:

em que λ é uma constante (de unidade inversa da unidade do tempo). Ou seja, o número de eventos até uma
época qualquer t é uma distribuição de Poisson com parâmetro λ t.

Propriedades

Média: O valor esperado de uma distribuição de Poisson é igual a λ. Esta propriedade pode ser derivada
facilmente:

Em linguagem matemática

Como

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

39
Em Português
Por definição, a esperança de uma variável aleatória X é igual à soma de cada uma das suas possíveis
ocorrências ponderadas pela probabilidade de que estas ocorrências aconteçam. No caso de variáveis com
distribuição, a probabilidade de que determinado evento ocorre é calculado por

: .
Portanto, este valor foi substituído na fórmula. Esta expressão equivale à expressão da linha imediatamente
superior; apenas se substituiu a expressão de somatório pela soma infinita para melhor compreensão. Note que
como o primeiro termo é sempre igual a zero, podemos reescrever

Fazemos uma substituição para facilitar o cálculo. Tomamos a substituição acima e tiramos a constante para
fora do somatório (pois o primeiro termo da expressão imediatamente superior é igual à . Nova transfor-
mação para facilitar os cálculos...
Abrindo o somatório, verifica-se que a série converge para

Obtemos

Variância: A variância de uma distribuição de Poisson é igual a λ.

Soma de variáveis: A soma de duas variáveis de Poisson independentes é ainda uma variável de Poisson
com parâmetro igual à soma dos respectivos parâmetros.
Ou seja, se

segue uma distribuição de Poisson com parâmetro e as variáveis aleatórias são estatisticamente inde-
pendentes, então

também segue uma distribuição de Poisson cujo parâmetro é igual à soma dos .

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

40
Por exemplo, é uma variável aleatória que representa o número de óbitos por mil nascimentos na cidade
“A” (distribuição de Poisson com média 1,2, digamos) e é uma variável aleatória que representa o número
de óbitos por mil nascimentos na cidade “B” (variável de Poisson com média 3). Ao todo, o número de óbitos
por mil nascimentos nas cidades “A” e “B” têm distribuição de Poisson com média
.

Intervalo de confiança: Um método rápido e fácil para calcular um intervalo de confiança de aproximada de
λ, é proposto na Guerriero (2012). Dado um conjunto de eventos k (pelo menos 15 - 20) ao longo de um período
de tempo T, os limites do intervalo confiança para a frequência são dadas por:

em seguida, os limites do parâmetro são dadas por:

Exemplos:
A distribuição de Poisson representa um modelo probabilístico adequado para o estudo de um grande núme-
ro de fenômenos observáveis. Eis alguns exemplos:
- Chamadas telefônicas por unidade de tempo;
- Defeitos por unidade de área;
- Acidentes por unidade de tempo;
- Chegada de clientes a um supermercado por unidade de tempo;
- Número de glóbulos sangüíneos visíveis ao microscópio por unidade de área;
- Número de partículas emitidas por uma fonte de material radioativo por unidade de tempo.

Distribuição Qui-Quadrado

O coeficiente χ2 ou chi-quadrado é um valor da dispersão para duas variáveis de escala nominal, usado em
alguns testes estatísticos. Ele nos diz em que medida é que os valores observados se desviam do valor espe-
rado, caso as duas variáveis não estivessem correlacionadas. Quanto maior o chi-quadrado (ou Qui-quadrado),
mais significante é a relação entre a variável dependente e a variável independente. Este valor está relacionado
com uma distribuição, chamada Distribuição Chi-Quadrado.
A Distribuição Chi-quadrado com k graus de liberdade é a distribuição gama com parâmetros (k/2, 1/2).
Quanto maior o número de casos (n) ou o número de linhas ou colunas da tabela de contingência, maior será
o Chi-quadrado. Por isso não faz sentido comparar o Chi-quadrado de duas relações entre variáveis. Para o
efeito existem outros coeficientes, entre os quais o coeficiente de contingência. A distribuição Chi-quadrado
pode ser simulada a partir da distribuição normal.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

41
Por definição, se forem k distribuições normais padronizadas (ou seja, média 0 e desvio
padrão 1) independentes, então a soma de seus quadrados é uma distribuição Chi-quadrado com k graus de
liberdade:

Um corolário imediato da definição é que a soma de duas Chi-quadrado independentes também é uma Chi-
-quadrado:

A fórmula do chi-quadrado é:

A função densidade de probabilidade da distribuição χ²

A função distribuição acumulada da distribuição χ²

Referência
http://www.pucrs.br/famat/sergio/Probabilidade_Estatistica_T360/Lista2_prob_estat.pdf

Função de distribuição acumulada de uma variável aleatória discreta

A partir da função de distribuição de probabilidades de uma v.a. discreta X é possível calcular a probabilidade
de qualquer evento associado a ela. Por exemplo, para a fdp da figura 1.5, temos que

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

42
Então, podemos dizer que a fdp de uma variável aleatória discreta X nos dá toda a informação sobre X.
Existe uma outra função com tal característica, que é a função de distribuição acumulada de X, cuja definição
apresentamos a seguir.

Definição 1 Dada uma variável aleatória (discreta) X, a função de distribuição acumulada de X é definida por

É interessante notar que a função FX está definida para todo número real x. Antes de passar às propriedades
teóricas da função de distribuição acumulada (usaremos a abreviação fda), também conhecida como função de
distribuição, vamos ver um exemplo.

Exemplo
Voltando ao exemplo 1 anterior, temos que a fdp da v.a. X = “máximo das faces de 2 dados” é dada por

Para calcular a fda de X, notemos inicialmente que nenhum valor menor que 1 é possível. Logo,

Para x =1 devemos notar que

Para qualquer valor de x tal que 1 < x < 2, temos que pX(x)= 0. Logo,

Juntando os resultados (1.5) e (1.6), obtemos que

Com raciocínio análogo, obtemos que

e também que

ou seja,

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

43
Continuando obtemos que

Para x ≥ 6 devemos notar que o evento {X ≤ x} corresponde ao espaço amostral completo; logo

FDA da v.a. X do exercício 1

(b) A fda é

Funções de variáveis aleatórias

Dada uma v.a. X, podemos obter outras variáveis aleatórias através de funções de X e, da mesma forma que
calculamos a fdp de X, podemos calcular a fdp dessas novas variáveis.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

44
Exemplo
Considere a v.a. X cuja fdp é dada na tabela abaixo:

x -2 -1 0 1 2 3
p X 0,1 0,2 0,2 0,3 0,1 0,1
(x)

Consideremos a função Y = g(X) = X2. Então, Y é uma nova variável aleatória, cujos possíveis valores são
0, 1, 4, 9. Para calcular as probabilidades desses valores, temos que identificar os valores de X que originaram
cada um deles. Temos a seguinte equivalência de eventos:

Como os eventos são mutuamente exclusivos, segue que

e podemos resumir essa fdp como

y 0 1 4 9
pY (y) 0,2 0,5 0,2 0,1

Em geral, temos o seguinte resultado:

Seja X uma variável aleatória discreta com função de distribuição de probabilidade pX (x) . Se definimos uma
nova v.a. Y = g(X), onde g é uma função real qualquer, então a fdp de Y é calculada como

Exemplos

1. Considere o problema do pôquer. Suponha que um jogador paga R$100,00 para entrar no jogo. Se ele ti-
rar uma sequência, ele ganha R$200,00; se tirar 5 iguais, ganha R$5.100,00; se tirar 4 iguais, ganha R$100,00.
Em todos os outros casos, ele perde. Seja L o lucro do jogador. Encontre a fdp de L.

Solução:
De acordo com o exercício citado, temos a seguinte equivalência de eventos:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

45
Para calcular as probabilidades, temos que lembrar que A8 ⊂ A1. Logo, se denotarmos por A∗1 o eventos
“todas diferentes mas não em seqüência”, temos que Pr (A∗1 ) = Pr(A1) − Pr(A8) =

Considere a v.a. X cuja fdp é

Encontre o valor de p e a fda da v.a. Y = X2.

Solução:

Como Pr (Ω) = 1, temos que ter p = Os valores possíveis de Y são 1, 9, 25

Logo, a fda de Y é

Esperança e variância de variáveis aleatórias discretas

No estudo da Estatística Descritiva, vimos como sumarizar conjuntos de dados através de distribuições de
frequências e também por estatísticas-resumo, como a média e a variância, no caso de variáveis quantitativas.
Em particular, vimos que a média de dados agrupados em classes era calculada como uma média ponderada
dos valores centrais (valores representativos das classes), com a ponderação definida pelas frequências rela-
tivas das classes.
No estudo de variáveis aleatórias e suas distribuições de probabilidades, estamos associando números aos
pontos do espaço amostral, ou seja, o resultado é sempre uma variável quantitativa (note que os resultados
cara e coroa não definem uma variável aleatória; para tal, temos que associar números, 0 e 1 por exemplo, a

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

46
esses resultados). Sendo assim, podemos fazer perguntas do tipo “qual o valor médio da variável aleatória X?”,
“qual a dispersão dos valores de X?”, da mesma forma que fizemos na análise descritiva de dados. O ponto
chave para a compreensão das definições que serão apresentadas é o estabelecimento da analogia com o es-
tudo das distribuições de frequências feito na parte inicial do curso. Tal analogia se faz através da interpretação
frequencial do conceito de probabilidade.

Probabilidade e frequência relativa

Consideremos novamente o experimento aleatório “lançamento de um dado”, mas agora um dado que sabe-
mos não ser equilibrado. Como poderíamos proceder para calcular a probabilidade de cada face? Uma respos-
ta, talvez intuitiva, seria lançar esse dado um grande número de vezes e observar o número de ocorrências de
cada face. As frequências relativas nos dariam, então, o que poderíamos pensar como sendo a probabilidade
de cada evento simples (face). É de se esperar que, quanto maior o número de repetições do experimento (lan-
çamento do dado), mais próximas das “verdadeiras” probabilidades estariam essas frequências relativas. Esta
é, assim, a definição de probabilidade de um evento através da freqüência relativa:

onde o número de repetições do experimento deve ser grande.

Ao trabalharmos com variáveis aleatórias, podemos pensar também nas probabilidades dos diferentes va-
lores da variável como sendo frequências relativas em um número sempre crescente de repetições do experi-
mento, ou seja, podemos pensar as probabilidades como sendo limites das frequências relativas. Dessa forma,
definiremos medidas de posição e dispersão para distribuições de probabilidades de variáveis aleatórias de
maneira análoga à utilizada em distribuições de frequências.
Esperança ou média de uma variável aleatória discreta Seja X uma variável aleatória discreta que assume os
valores x1, x2, . . . com probabilidades p1, p2, . . . respectivamente. A média ou esperança de X é definida como

onde o somatório se estende por todos os valores possíveis de X. Podemos ver, então, que a esperança de
X é uma média dos seus valores, ponderada pelas respectivas probabilidades. Lembre-se que no caso das
distribuições de frequências tínhamos . Como antes, a média de uma v.a. X está medida na mesma
unidade da variável.

Exemplo
Em determinado setor de uma loja de departamentos, o número de produtos vendidos em um dia pelos
funcionários é uma variável aleatória P com a seguinte distribuição de probabilidades (esses números foram
obtidos dos resultados de vários anos de estudo):

Cada vendedor recebe comissões de venda, distribuídas da seguinte forma: se ele vende até 2 produtos em
um dia, ele ganha uma comissão de R$10,00 por produto vendido. A partir da terceira venda, a comissão passa
para R$50,00. Qual é o número médio de produtos vendidos por cada vendedor e qual a comissão média de
cada um deles?
Solução:
O número médio de vendas por funcionário é
E(P) = 0 × 0,1 + 1 × 0,4 + 2 × 0,2 + 3 × 0,1 + 4 × 0,1 + 5 × 0, 05 + 6 × 0, 05 = 2, 05

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

47
Com relação à comissão, vamos construir sua fdp:

e
E(C) = 0 × 0,1 + 10 × 0,4 + 20 × 0,2 + 70 × 0, 1 + 120 × 0, 1 + 170 × 0, 05 + 220 × 0, 05 = 46, 5
ou seja, a comissão média por dia de cada vendedor é R$46,50.
Em geral, a média é vista como um “valor representativo” de X, estando localizada em algum ponto no “cen-
tro do domínio de valores de X”. Uma interpretação mais precisa deste pensamento é a seguinte: a esperança
de X é o centro de gravidade da distribuição de probabilidades, no seguinte sentido. Pensando as colunas do
gráfico, que representam as probabilidades, como pesos distribuídos ao longo de uma vara delgada, a média
representa o ponto onde a vara se equilibraria.
Interpretação da média como centro de gravidade da distribuição

Esperança de funções de variáveis aleatórias

Vimos que é possível obter novas variáveis aleatórias a partir de funções g(X) de uma variável X e através
da fdp de X podemos obter a fdp de Y. Sendo assim, podemos calcular a esperança de Y. Foi exatamente isso
o que fizemos no caso das comissões no exemplo 1.7, onde tínhamos C = 2P + 50 × (3 − P). Analisando aten-
tamente aquele exemplo e notando que, por definição de função, a cada valor de X corresponde um único Y =
g(X), obtemos o resultado geral sobre a esperança de funções de variáveis aleatórias.
Seja X uma variável aleatória discreta com função de distribuição de probabilidade pX (x) . Se definimos uma
nova v.a. Y = g(X), então

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

48
Propriedades da esperança

A interpretação da esperança como centro de gravidade nos permite entender melhor as diversas proprie-
dades que demonstraremos a seguir. No que segue, X é uma variável aleatória discreta com distribuição de
probabilidades pX(x) e a, b 0 são constantes reais quaisquer.
1. E (a) = a
De fato: se X é uma v.a. constante, isso significa que X = a com probabilidade 1. Logo, E(X) = a ×1 = a.
2. E (X + a) = E(X) + a (“somando uma constante, a média fica somada da constante”)
De fato: fazendo g(X) = X + a, pelo resultado 1.11, temos que

3. E(bX) = bE(X) (“multiplicando por uma constante, a esperança fica multiplicada pela constante”)
De fato: fazendo g(X) = bX, pelo resultado 1.11, temos que

4. E(a + bX) = a + bE(X)

Esse resultado é conseqüência direta dos resultados anteriores.
5. xmin ≤ E(X) ≤ xmax onde xmin e xmax são os valores mínimo e máximo da variável X.
De fato: temos que xi ≥ xmin e xi ≤ xmax ∀i. Então

Variância de uma variável aleatória

A esperança de uma variável aleatória X é uma medida de posição. No entanto, é possível que duas variá-
veis bem diferentes tenham a mesma esperança, como é o caso das duas distribuições apresentadas na figura.
Distribuições com mesma esperança e diferentes dispersões

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

49
Como já visto no caso da Estatística Descritiva, é necessário mensurar outros aspectos da distribuição, entre
eles a dispersão dos dados. Esta será medida através da distância quadrática de cada valor à média da distri-
buição; mais precisamente, definimos a variância de uma variável aleatória X como
V ar (X) = E [X − E (X)]2
Definindo g(X) = [X − E(X)]2, temos, pelo resultado, que

Mas, se definimos h(X) = X2, então Logo, podemos escrever

que pode ser lida de maneira mais fácil como “a variância é a esperança do quadrado menos o quadrado da
esperança”. Lembre-se que tínhamos visto resultado análogo para a variância de um conjunto de dados. Vimos
também que a unidade de medida da variância é igual ao quadrado da unidade da variável.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

50
Propriedades da variância

Sendo uma medida de dispersão, é fácil ver as seguintes propriedades: seja X uma v.a. discreta com fdp
pX(x) e sejam a, b 0 constantes reais quaisquer.
1. Var (a) = 0 (“uma constante não tem dispersão”)
De fato:

Note que aqui usamos uma propriedade da esperança.

2. Var (X + a) = Var(X) (“somando uma constante, a dispersão - variância - não se altera”)
De fato:
Var (X + a) = E [X + a − E (X + a)]2 = E [X + a − E (X) − a]2 = E [X − E (X)]2 = Var (X)
Note que aqui usamos a propriedade 2 da esperança.
3. Var (bX) = b2 Var (X) (“multiplicando por uma constante não nula, a variância fica multiplicada pelo qua-
drado da constante”)
De fato:

Note que aqui usamos a propriedade 2 da esperança.

3. Var (bX) = b2 Var (X) (“multiplicando por uma constante não nula, a variância fica multiplicada pelo qua-
drado da constante”)
De fato:

Note que aqui usamos a propriedade 3 da esperança.

4. Var (a + bX) = b2 Var (X)
Essa propriedade é consequência direta das propriedades anteriores.

Desvio padrão
Como já dito, a unidade de medida da variância é o quadrado da unidade de medida da variável em estudo,
sendo assim, uma unidade sem significado físico. Para se ter uma medida de dispersão na mesma unidade dos
dados, define-se o desvio padrão como a raiz quadrada da variância.

Como consequência direta dessa definição e das propriedades da variância, seguem as seguintes proprieda-
des do desvio padrão, que deverão ser demonstradas pelo leitor. Como antes, seja X uma v.a. discreta com
fdp pX(x) e sejam a, b 0 constantes reais quaisquer.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

51
1. DP (a) = 0 (uma constante não tem dispersão)
2. DP (X + a) = DP (X)
3. DP (bX) = |b| DP (X)
Aqui vale notar que √b2 = |b|.
4. DP (a + bX) = |b| DP (X).

Exemplo
Um lojista mantém extensos registros das vendas diárias de um certo aparelho. O quadro a seguir dá a dis-
tribuição de probabilidades do número de aparelhos vendidos em uma semana. Se é de R$500,00 o lucro por
unidade vendida, qual o lucro esperado em uma semana? Qual é o desvio padrão do lucro?

Solução:
Seja X o número de aparelhos vendidos em uma semana e seja L o lucro semanal. Então, L = 500X.

Com relação ao lucro semanal, temos que

Consideremos o lançamento de dois dados equilibrados. Como já visto, o espaço amostral desse experi-
mento é formado pelos pares ordenados (i, j) onde i, j = 1, 2, 3, 4, 5, 6. Esse é um experimento onde o espaço
amostral não é formado por números. Suponhamos que nosso interesse esteja no máximo das faces dos dois
dados. Nesse caso, podemos associar um número a cada ponto do espaço amostral, conforme ilustrado na
figura 1.
Esse exemplo ilustra o conceito de variável aleatória.

Definição 1: Uma variável aleatória é uma função real (isto é, que assume valores em R) definida no espaço
amostral Ω de um experimento aleatório.
Por essa definição, podemos ver que, no lançamento de uma moeda, observar o resultado obtido, cara ou
coroa, não é uma variável aleatória, pois os resultados não são números. Mas se associarmos o número 0 à
ocorrência de cara e o número 1 à ocorrência de coroa, teremos uma variável aleatória.
Analogamente, em uma pesquisa domiciliar, o espaço amostral é formado pelos domicílios de uma deter-
minada localidade e simplesmente anotarmos os domicílios sorteados para uma amostra não constitui uma
variável aleatória. Mas, na prática, quando da realização de uma pesquisa domiciliar, estamos interessados em
alguma característica desse domicílio e aí poderemos ter várias variáveis aleatórias associadas a esse experi-
mento, como, por exemplo, a renda domiciliar mensal em reais,

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

52
Figura 1: Variável aleatória: máximo de 2 dados

o número de moradores, o grau de instrução do chefe de família medido pelo número de anos de estudo, etc.

Definição 2: Uma variável aleatória é discreta se sua imagem (ou conjunto de valores que ela pode tomar) é
um conjunto finito ou enumerável. Se a imagem é um conjunto não enumerável dizemos que a variável aleatória
é contínua.
Exemplos

1. Dentre os 5 alunos de um curso com coeficiente de rendimento (CR) superior 8,5, dois serão sorteados
para receber uma bolsa de estudos. Os CRs desses alunos são: 8,8; 9,2; 8,9; 9,5; 9,0.

(a) Designando por A, B, C, D e E os alunos, defina um espaço amostral para esse experimento.

(b) Seja X = CR médio dos alunos sorteados. Liste os possíveis valores de X.

(c) Liste o evento X ≥ 9, 0.

Respostas

(a) Note que aqui a ordem não importa; logo, #Ω = = 10. Mais especificamente,
Ω = {(A, B) , (A, C) , (A, D) , (A, E) , (B, C) , (B, D) , (B, E) , (C, D) , (C, E) , (D, E)}

(b) Usando uma tabela de duas entradas podemos representar os valores de X da seguinte forma:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

53
(c) {X ≥ 9} = {(A, B) , (A, D) , (B, C) , (B, D) , (B, E) , (C, D) , (D, E)} .

2. Um homem possui 4 chaves em seu bolso. Como está escuro, ele não consegue ver qual a chave correta
para abrir a porta de sua casa. Ele testa cada uma das chaves até encontrar a correta.

(a) Defina um espaço amostral para esse experimento.

(b) Defina a v.a. X = número de chaves experimentadas até conseguir abrir a porta (inclusive a chave corre-
ta). Quais são os valores de X?
Respostas

(a) Vamos designar por C a chave da porta e por E1, E2 e E3 as outras chaves. Se ele para de testar as
chaves depois que acha a chave correta, então o espaço amostral é:
Ω ={ E1C, E2C, E3C, E1E2C, E2E1C, E1E3C, E3E1C, E2E3C, E3E2C, E1E2E3C, E1E3E2C, E2E1E3C,
E2E3E1C, E3E1E2C, E3E2E1C}

(b) X = 1, 2, 3, 4

Função de distribuição de probabilidade

Os valores de uma v.a. discreta são definidos a partir do espaço amostral de um experimento aleatório.
Sendo assim, é natural perguntarmos “qual é a probabilidade do valor x”? No exemplo do máximo das 2 faces
de um dado da figura 1, por exemplo, o valor 6 da v.a. é imagem de 11 pontos do espaço amostral, enquanto
o valor 2 é imagem de apenas 3 pontos. Sendo assim, é de se esperar que o valor 6 seja mais provável que
o valor 2. Na verdade, temos a seguinte equivalência de eventos: se chamamos de X a v.a. “máximo dos 2
dados”, então

e, assim

Como os eventos no lado direito da expressão acima são mutuamente exclusivos e igualmente prováveis,
resulta que

De maneira análoga obtemos que

Definição 3: Seja X uma v.a. discreta. A função de distribuição de probabilidades de X é a função pX (x)
que associa, a cada valor possível x de X, sua respectiva probabilidade, calculada da seguinte forma: pX (x) é
a probabilidade do evento {X = x} consistindo de todos os resultados do espaço amostral que deram origem ao
valor x.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

54
Figura 2: Função de distribuição de probabilidade de uma v.a. discreta

Para não sobrecarregar o texto, omitiremos os colchetes oriundos da notação de evento/conjunto e escreve-
remos Pr (X = x) no lugar de Pr ({X = x}), que seria a forma correta. Uma outra convenção que seguiremos tam-
bém será a de indicar por letras maiúsculas as variáveis aleatórias e por letras minúsculas os números reais,
tais como os valores específicos de uma v.a. Além disso, abreviaremos por fdp o termo função de distribuição
de probabilidade.
Das propriedades (axiomas) da probabilidade resultam os seguintes fatos sobre a função de distribuição de
probabilidades de uma v.a. X:

Onde indica somatório ao longo de todos os possíveis valores de X. Note que essa propriedade é de-
corrente do axioma Pr (Ω) = 1, pois os eventos {X = x} são mutuamente exclusivos e formam uma partição do
espaço amostral.

Cálculo da função de distribuição de probabilidade

Considerando novamente a v.a. definida na figura 1, podemos resumir a fdp da variável em questão na se-
guinte tabela:

Considere uma urna com 10 bolas, das quais 6 são vermelhas e 4 brancas. Dessa urna retiram-se 3 bolas
sem reposição e conta-se o número de bolas brancas retiradas. Qual é a distribuição dessa variável aleatória?

Os possíveis valores de X são 0,1,2,3. Para calcular a probabilidade de cada um desses valores, devemos
notar inicialmente que o espaço amostral tem eventos elementares.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

55
O evento {X = 0} corresponde à união dos eventos (sequências) onde não aparece nenhuma bola branca ou,
equivalentemente, onde todas as bolas são vermelhas; ¡ o número de tais sequências é .
(Note que aqui estamos usando o princípio fundamental da multiplicação.) Logo,

Analogamente, o evento {X = 1} corresponde à união dos eventos onde aparece 1 bola branca e 2 vermelhas.
O número de tais sequências é e, portanto

Analogamente, obtemos que

e a fdp de X é

Estimação Pontual

Estimador pontual Θ^ : Função dos valores x1, x2, … , xn da amostra multidimensional X1,X2, … ,Xn que,
se tiver um dado conjunto de propriedades, dá um valor aproximado Θ^ para um parâmetro Θ da distribuição
da população. Exemplos:

- A média amostral é um estimador da média populacional

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

56
- A variância amostral é um estimador da variância da população

Propriedades Desejáveis dos Estimadores Pontuais

Estimador Não-enviesado (centrado/sem distorção): Enviesamento do estimador Θ^ = E(Θ^) - Θ Quando

o Enviesamento = 0 , o estimador diz-se não-enviesado.
- Média Amostral: E(X~) = E(X) = μX
A média amostral é um estimador sempre não-enviesado do valor esperado, qualquer que seja a distribui-
-

ção populacional.
- Desvio Quadrático Médio Amostral (DQM) = (N-1)/M . σX2 ≠ σX2
- O DQM é um estimador sempre enviesado, de enviesamento = - σX2 / N
- Variância Amostral: S2 = 1/(N-1) . ∑ n=1 → N (Xn - X~)2 = N/(N-1) . DQM = σX2
- A variância amostral é um estimador sempre não-enviesado da variância populacional, qualquer que seja
a distribuição populacional.

Estimador Eficiente

- Um estimador é tanto “melhor” quanto menor for a sua variância.

- O estimador Θ^1 é melhor do que o estimador Θ^2

Exemplo:

- Variância da média amostral = σX2

-
Variância da mediana amostral = σX2 * π/2
A média amostral é um melhor estimador, pois tem a menor variância (é mais eficiente)
- Eficiencia = E [ (Θ^ - Θ)2 ] = σΘ^2 + (EnviesamentoΘ^)2

Estimador Consistente

Um estimador diz-se consistente quando, para qualquer δ > 0 , limn→oo P[|Θ^ - Θ| < δ] = 1 ;isto é, quando
a dimensão da amostra tende para o infinito, o estimador consistente concentra se sobre o seu alvo tomando
o valor do parâmetro estimado.
Por outro lado, se uma das duas seguintes condições(condições suficientes) se verificar, o estimador é con-
sistente:

- limn→oo (μΘ^ - Θ) = 0 e limn→oo σΘ^2 = 0

- limn→oo E[(Θ^ - Θ)2] = 0

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

57
Método da Máxima Verosimilhança
- Aplicado para as distribuições Poisson e Normal
- Função de Maxima Verosimilhança L =
- Probabilidade(Y1 = y1, …, Yn = yn | Θ1, …, ΘR) = π(n=1 → N) P(Yn = yn | Θ1, …, ΘR) (caso discreto)
- fX1, …, Xn|Θ1, …, ΘR (x1, …, Xn) = π(n=1 → N)fXn|Θ1, …, ΘR (caso contínuo)

Estimativa MV de Θ : dL(Θ) / dΘ = 0
Vantagens dos estimadores VM
- São, em geral, consistentes
- As suas distribuições são, frequentemente, assimptoticamente normais
- Tendem a ser não-enviesados e eficientes, à medida que a dimensão das amostras crescem.

Pergunta: Admita que os tempos entre avarias de uma certa máquina seguem uma distribuição Exponencial
Negativa com parâmetro λ.
Com base na seguinte amostra aleatória constituída pelos seguintes tempos, expresso em horas, calcule a
estimativa de máxima verosimilhança do parâmetro λ.
{ 24.2 , 13.5 , 53.1 , 17.1 , 7.7 , 14.0 , 8.3 , 34.2 }

Pergunta: A variável aleatória X segue uma distribuição com função densidade de probabilidade dada por
f(x)=(x-α)/2 , quando α < x < α+2. A função assume o valor 0 para os restantes valores de x. α é um parâmetro
desconhecido.
Recorrendo ao método da máxima verosimilhança, estime o parâmetro α a partir da seguinte amostra alea-
tória, constituida por 10 observações:
{ 3.5 , 4.3 , 2.8 , 4.5 , 2.9 , 3.3 , 3.8 , 2.9 , 4.0 , 3.9 }

LEI DOS GRANDES NÚMEROS

A lei dos grandes números é uma das principais leis assintóticas da estatística, sua ideia é bastante intuitiva,
mas de grande importância. Antes de enunciarmos esta lei, vamos tentar analisar a ideia intuitiva dela.

Por exemplo, seja X uma variável aleatória que representa o lançamento de uma moeda honesta, no qual
e Se lançarmos essa moeda n vezes então temos que a média aritmética dos
valores observados tendem a 1/2, ou seja, tendem a A lei dos grandes números nos diz que a média
aritmética dos valores observados tendem a esperança da variável aleatória.
Um outro exemplo, é quando lançamos um dado equilibrado, com as faces numeradas de 1 a 6. A probabi-
lidade de obtermos o número 4 é de pois os eventos são equiprováveis. Vamos simular os
resultados no computador da seguinte forma.
Primeiramente lançamos os dados 100 vezes e anotamos quantas vezes a face 4 aparece nos resultados e
por fim calculamos a proporção de vezes que a face 4 aparece. Repetimos isto para 1000 e 10000 lançamen-
tos. Assim, obtemos os seguintes resultados:

Lançamentos Face do dado igual a 4 Proporção de face igual a 4

100 11 0,11
1000 159 0,159
10000 1660 0,166

Observe que quanto maior o número de lançamentos do dado, mais o resultado experimental se aproxima
da probabilidade esperada.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

58
Leis Forte e Lei Fraca dos números2
A principal diferença entre a lei fraca e a lei forte dos grandes números é que a primeira converge em proba-
bilidade e a segunda converge quase certamente. A convergência em probabilidade é uma convergência mais
fraca que a convergência quase certa, pois se houver convergência quase certa há convergência em probabi-
lidade. Vejamos isto através da seguinte proposição.

Proposição: Se uma sequência de variáveis aleatórias sobre um espaço de probabilidade conver-

ge quase certamente para uma variável aleatória então em probabilidade.

Lei fraca de Chebyshev

Sejam uma sequência enumerável de variáveis aleatórias independentes dois a dois. Se a sequência
tem variância finita e uniformemente limitada, ou seja, existe uma constante tal que .
Então a sequência satisfaz a Lei Fraca dos Grandes Números:

em que

Lei fraca de Khintchine

Sejam uma sequência enumerável de variáveis aleatórias independentes e identicamente distribuídas e

integráveis com média Então satisfazem a Lei Fraca do Grandes Números:

Lei fraca dos Grandes Números de Bernoulli

Seja uma sequência de ensaios de bernoulli independentes, com mesma probabilidade de sucesso. Então

em que

Exemplos

01. Seja uma sequência de variáveis aleatórias, mostre que se e , então .

Como temos que para cada , existe tal que para .

Assim, para todo temos que:

2 http://www.portalaction.com.br/probabilidades/72-lei-dos-grandes-numeros

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

59
pois

Logo,

Mas pela desigualdade de Chebyshev para todo .

Portanto para todo

mas como , quando , concluímos que .

02. Suponha que em uma fábrica borracha o número de borrachas produzidas por dia seja uma variável alea-
tória X com média . Estime a probabilidade de que a produção diária seja maior que 210.
Neste caso basta usarmos a desigualdade de Markov, e obtemos o seguinte resultado:

03. Se no exemplo acima a variância de X é igual a 20, qual a probabilidade de que a produção do dia esteja
entre 40 e 100 borrachas produzidas ?
Utilizando a desigualdade de Chebyshev, obtemos que:

ou seja,

Desta forma a probabilidade de que a produção do dia esteja entre 40 e 100 borrachas produzidas é de
aproximadamente 97,7%.

04. Seja uma sequência de eventos aleatórios com o mesmo espaço de probabilidades. Seja a função
indicadora de do conjunto , mostremos que se, e somente se, .

Primeiramente vamos supor que . Então dado , definimos

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

60
Observe que se , então pois
assume apenas os valores zero ou 1 e neste caso eo
resultado segue trivialmente.
Sendo assim, basta considerarmos apenas o caso em que
Assim, temos que

Logo obtemos que:

o que implica que , ou seja,

Agora vamos supor que , isto é, , então neste caso temos que:

Portanto

05. Uma variável com variância zero é um valor determinístico.

De fato, seja X uma variável aleatória com variância zero pela desigualdade de Chebyshev temos
que

Portanto, com probabilidade 1, isto é, é determinístico.

Lei Forte dos Grandes Números

Sejam uma sequência de variáveis aleatórias independentes e identicamente distribuídas. Se

, então com probabilidade 1, a sequência

não é limitada.

Teorema: Seja uma sequência de variáveis aleatórias independentes tais que ea .

Então para todo ,

Primeira Lei Forte de Kolmogorov3

Seja uma sequência de variáveis aleatórias independentes e integráveis, e suponha que:

3 http://www.portalaction.com.br/probabilidades/722-lei-forte-dos-grandes-numeros

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

61
(condição de Kolmogorov)
então

Exemplo
Valor esperado infinito implica em variância infinita.

De fato, seja uma variável aleatória tal que

Por definição, temos que

Mas, e

Portanto,
Em particular, variáveis aleatórias com valor esperado infinito não satisfazem a condição de Kolmogorov e
consequentemente não há garantias que cumpra a lei dos grandes números.

TEOREMA CENTRAL DO LIMITE

O teorema central do limite4 consiste em um importante teorema da teoria assintótica, no qual a ideia central
baseia-se em encontrar a distribuição da somas parciais normalizadas, o qual demonstramos que converge
para a distribuição normal padronizada.

Sejam uma sequência de variáveis aleatórias independentes e identicamente distribuídas, com

média e variância para , em que .
Definimos ,

então

Condição de Lindeberg

Seja sequência de variáveis aleatórias independentes com e existem e

são finitos e tomamos Então

4 http://www.portalaction.com.br/probabilidades/732-teorema-central-do-limite

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

62
Corolário: Sejam variáveis aleatórias independentes e identicamente distribuídas com distribuição
binomial com parâmetro .
Então

converge em distribuição para uma normal padronizada

Teorema: Seja uma sequência de variáveis aleatórias independentes e quadrado integráveis, para
algum e Definimos

Então

converge em distribuição para quando .

Proposição: Seja uma sequência de variáveis aleatórias independentes e identicamente distribuídas

com e , em que

Condição de Lyapunov

Seja sequência de variáveis aleatórias independentes com e existem e

são finitos e tomamos Então

Proposição: Seja uma sequência de variáveis aleatórias independentes e satisfaz as condições de

Lyapunov.

Então converge em distribuição

Proposição: Seja uma sequência de variáveis aleatórias independentes tal que para todo

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

63
em que é uma constante e quando Então

e satisfaz as condições do Teorema Central do Limite.

Exemplos

01. Seja e . Então temos que para todo

Desde que é contínua, esta convergência é uniforme. Assim,

Em particular, obtemos que

Portanto, para n suficientemente grande, tem distribuição aproximadamente normal com média e
variância
02. Um candidato a prefeito da cidade de São Carlos gostaria de ter uma ideia de quantos votos receberá nas
próximas eleições. Para isto, foi feito uma pesquisa com os cidadãos, em que representa a proporção de
votos do candidato com Quantas pessoas devem ser entrevistadas com 95% de confiança para que
o valor de tenha sido determinado com erro inferior a 5%, supondo que as escolhas de cada pessoa sejam
independentes.
Seja o número de candidatos, denotamos a variável aleatória de Bernoulli que assume va-
lor 1, com probabilidade p, se a i-ésima pessoa entrevistada declara a intenção de votar no candidato. Assu-
me o valor 0, com probabilidade caso contrário.
Assim e Consequentemente, e para todo

Logo, do enunciado queremos mínimo de modo que

em que
Mas, temos que

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

64
Pelo TCL, temos que para suficientemente grande

Logo, basta escolhermos tal que

Como temos que

Portanto, devemos entrevistar pelo menos 385 eleitores.

Inferência estatística. Estimação pontual: métodos de estimação, propriedades dos

estimadores, suficiência. Estimação intervalar: intervalos de confiança, intervalos de
credibilidade. Testes de hipóteses: hipóteses simples e compostas, níveis de significân-
cia e potência de um teste, teste t de Student, teste qui-quadrado

— Intervalo de confiança
Um intervalo de confiança (IC) é um intervalo estimado de um parâmetro de interesse de uma população. Em
vez de estimar o parâmetro por um único valor, é dado um intervalo de estimativas prováveis. O quanto estas
estimativas são prováveis será determinado pelo coeficiente de confiança (1 – α), para α ϵ (0,1).

Em outras palavras Intervalos de confiança são usados para indicar a confiabilidade de uma estimativa.
Para interpretar o intervalo de confiança da média, assumimos que os valores foram amostrados de forma
independente e aleatória de uma população com distribuição normal com média μ e variância σ². Dado que
estas suposições são válidas, temos 95% de “chance” de o intervalo conter o verdadeiro valor da média popu-
lacional. Se produzirmos diversos intervalos de confiança provenientes de diferentes amostras independentes
de mesmo tamanho, podemos esperar que aproximadamente 95% destes intervalos devem conter o verdadeiro
valor da média populacional.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

65
Em resumo temos:

Fonte: http://www.portalaction.com.br

— Testes de hipóteses
As hipóteses a serem testadas, retirar as amostras das populações a serem estudadas, calcular as estatís-
ticas delas e, por fim, determinar o grau de aceitação de hipóteses baseadas na teoria de decisão, ou seja, se
uma determinada hipótese será validada ou não.
Para decidir se uma hipótese é verdadeira ou falsa, ou seja, se ela deve ser aceita ou rejeitada, consideran-
do uma determinada amostra, precisamos seguir uma série de passos:
1) Definir a hipótese de igualdade (H0) e a hipótese alternativa (H1) para tentar rejeitar H0 (possíveis erros
associados à tomada de decisão).
2) Definir o nível de significância (α).
3) Definir a distribuição amostral a ser utilizada.
4) Definir os limites da região de rejeição e aceitação.
5) Calcular a estatística da distribuição escolhida a partir dos valores amostrais obtidos e tomar a decisão.

1) Formular as hipóteses (Ho e H1).

Primeiramente, vamos estabelecer as hipóteses nula e alternativa. Para exemplificar, você deve considerar
um teste de hipótese para uma média. Então, a hipótese de igualdade é chamada de hipótese de nulidade ou
Ho. Suponha que você queira testar a hipótese de que o tempo médio de ligações é igual a 50 segundos. Então,
esta hipótese será simbolizada da maneira apresentada a seguir:
Ho: μ = 50 (hipótese de nulidade)
Esta hipótese, na maioria dos casos, será de igualdade. Se você rejeitar esta hipótese, vai aceitar, neste
caso, outra hipótese, que chamamos de hipótese alternativa. Este tipo de hipótese é simbolizado por H1 ou Ha.

2) Definir o nível de significância.

O nível de significância de um teste é dado pela probabilidade de se cometer erro do tipo I (ocorre quando
você rejeita a hipótese Ho e esta hipótese é verdadeira). Com o valor desta probabilidade fixada, você pode
determinar o chamado valor crítico, que separa a chamada região de rejeição da hipótese Ho da região de
aceitação da hipótese Ho.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

66
3) Definir a distribuição amostral a ser utilizada.
A estatística a ser utilizada no teste, você definira em função da distribuição amostral a qual os dados se-
guem. Se você fizer um teste de hipótese para uma média ou diferença entre médias, utilize a distribuição de
Z ou t de Student. Outro exemplo é se você quiser comparar a variância de duas populações, então deverá
trabalhar com a distribuição F, ou seja, da razão de duas variâncias.

4) Definir os limites da região de rejeição.

Os limites entre as regiões de rejeição e aceitação da hipótese Ho, você definirá em função do tipo de hipó-
tese H1, do valor de (nível de significância) e da distribuição amostral utilizada. Considerando um teste bilateral,
você terá a região de aceitação (não-rejeição) com uma probabilidade de 1- α e uma região de rejeição com
probabilidade α ( α/2 + α/2).

Através da amostra obtida, você deve calcular a estimativa que servirá para aceitar ou rejeitar a hipótese
nula.

5) Tomar a decisão.
Para tomar a decisão, você deve calcular a estimativa do teste estatístico que será utilizado para rejeitar ou não
a hipótese Ho. A estrutura deste cálculo para a média de forma generalista é dada por:

Podemos exemplificar pela distribuição de Z, que será:

Se o valor da estatística estiver na região crítica (de rejeição), rejeitar Ho; caso contrário, aceitar H0. O es-
quema a seguir mostra bem a situação de decisão.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

67
Teste de hipótese para média populacional
Quando você retira uma amostra de uma população e calcula a média desta amostra, é possível verificar se
a afirmação sobre a média populacional é verdadeira. Para tanto, basta verificar se a estatística do teste estará
na região de aceitação ou de rejeição da hipótese Ho. Aqui você tem três situações distintas:
1ª) se o desvio-padrão da população é conhecido ou a amostra é considerada grande (n >30), a distribuição
amostral a ser utilizada será da Normal ou Z e a estatística-teste que você utilizará será:

Onde x: média amostral;

μ: média populacional;
σ: desvio padrão populacional e
n: tamanho da amostra.
2ª) Se você não conhecer o desvio-padrão populacional e a amostra for pequena, então, a distribuição
amostral a ser utilizada será a t de Student, e a estatística teste será:

Onde
x: média amostral;
μ: média populacional;
s: desvio-padrão amostral e
n: tamanho da amostra.
Se a hipótese é nula e as alternativas de um teste de hipóteses são:

Onde μo é uma constante conhecida, o teste é chamado de teste bilateral.

Em muitos problemas temos apenas o interesse em testar as hipóteses do tipo:

Este teste é chamado de teste unilateral esquerdo. E quando temos:

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

68
Este teste é chamado de teste unilateral direito.

Exemplo: Uma região do país é conhecida por ter uma população obesa. A distribuição de probabilidade do
peso dos homens dessa região entre 20 e 30 anos é normal com média de 90 kg e desvio padrão de 10 kg. Um
endocrinologista propõe um tratamento para combater a obesidade que consiste de exercícios físicos, dietas
e ingestão de um medicamento. Ele afirma que com seu tratamento o peso médio da população da faixa em
estudo diminuirá num período de três meses.
Testando as hipóteses temos:

Onde μ é a média dos pesos dos homens em estudo após o tratamento.

Teste de hipóteses para uma proporção populacional

O procedimento é basicamente igual ao procedimento para o teste para uma média populacional. Considere
o problema de testar a hipótese que a proporção de sucessos de um ensaio de Bernoulli é igual a valor especi-
fico, p0. Isto é, testar as seguintes hipóteses:

A estatística de teste:

Análise de regressão linear. Critérios de mínimos quadrados e de máxima verossimi-

lhança. Modelos de regressão linear. Inferência sobre os parâmetros do modelo. Análise
de variância. Análise de resíduos

— Regressão
Uma linha de regressão também chamada de linha de melhor ajuste, é a linha para a qual a soma dos qua-
drados dos resíduos é um mínimo. FARBER (2009).

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

69
Equação da Regressão
A equação de uma reta de regressão para uma variável independente x e uma variável dependente y é:
̂y=mx+ b

Regressão linear
A análise de regressão5 consiste na realização de uma análise estatística com o objetivo de verificar a exis-
tência de uma relação funcional entre uma variável dependente com uma ou mais variáveis independentes. Em
outras palavras consiste na obtenção de uma equação que tenta explicar a variação da variável dependente
pela variação do(s) nível(is) da(s) variável(is) independente(s).
Para tentar estabelecer uma equação que representa o fenômeno em estudo pode-se fazer um gráfico, cha-
mado de diagrama de dispersão, para verificar como se comportam os valores da variável dependente (Y) em
função da variação da variável independente (X).
O comportamento de Y em relação a X pode se apresentar de diversas maneiras: linear, quadrático, cúbico,
exponencial, logarítmico, etc.... Para se estabelecer o modelo para explicar o fenômeno, deve-se verificar qual
tipo de curva e equação de um modelo matemático que mais se aproxime dos pontos representados no diagra-
ma de dispersão.
Contudo, pode-se verificar que os pontos do diagrama de dispersão, não vão se ajustar perfeitamente à
curva do modelo matemático proposto. Haverá na maior parte dos pontos, uma distância entre os pontos do
diagrama e a curva do modelo matemático. Isto acontece, devido ao fato do fenômeno que está em estudo,
não ser um fenômeno matemático e sim um fenômeno que está sujeito a influências que acontecem ao acaso.
Assim, o objetivo da regressão é obter um modelo matemático que melhor se ajuste aos valores observados de
Y em função da variação dos níveis da variável X.
No entanto o modelo escolhido deve ser coerente com o que acontece na prática. Para isto, deve-se levar
em conta as seguintes considerações no momento de se escolher o modelo:
– o modelo selecionado deve ser condizente tanto no grau como no aspecto da curva, para representar em
termos práticos, o fenômeno em estudo;
– o modelo deve conter apenas as variáveis que são relevantes para explicar o fenômeno;
Como foi dito anteriormente, os pontos do diagrama de dispersão ficam um pouco distantes da curva do mo-
delo matemático escolhido. Um dos métodos que se pode utilizar para obter a relação funcional, se baseia na
obtenção de uma equação estimada de tal forma que as distâncias entre os pontos do diagrama e os pontos da
curva do modelo matemático, no todo, sejam as menores possíveis. Este método é denominado de Método dos
Mínimos Quadrados (MMQ). Em resumo por este método a soma de quadrados das distâncias entre os pontos
do diagrama e os respectivos pontos na curva da equação estimada é minimizada, obtendo-se, desta forma,
uma relação funcional entre X e Y, para o modelo escolhido, com um mínimo de erro possível.
Ao se construí um diagrama de dispersão, não sabemos o comportamento da reta em relação aos pontos
grafados. Para tanto, devemos calcular o ajustamento da reta aos pontos. Alguns exemplos de diagramas de
dispersão com o ajustamento da reta aos pontos:

5 Prof. Luiz Alexandre Peternelli – INF 162

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

70
Ajustamento da reta aos pontos grafados
Para ajustar a reta aos pontos grafados em um diagrama de dispersão, os estatísticos usam as seguin-
tes equações:

— Modelo Linear de 1º Grau (Regressão Linear Simples)

O modelo estatístico para esta situação seria:

em que:

Para se obter a equação estimada, vamos utilizar o MMQ, visando a minimização dos erros. Assim, tem-se
que:

elevando ambos os membros da equação ao quadrado,

aplicando o somatório,

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

71
Por meio da obtenção de estimadores de β0 e β1, que minimizem o valor obtido na expressão anterior, é
possível alcançar a minimização da soma de quadrados dos erros. Para se encontrar o mínimo para uma equa-
ção, deve-se derivá-la em relação à variável de interesse e igualá-la a zero. Derivando então a expressão em
relação a β0 e β1, e igualando-as a zero, poderemos obter duas equações que, juntas, vão compor o chamado
sistemas de equações normais. A solução desse sistema fornecerá:

Uma vez obtidas estas estimativas, podemos escrever a equação estimada:

Técnicas de amostragem. Amostragem aleatória simples, estratificada, sistemática e

por conglomerados. Tamanho amostral

— Técnicas de amostragem
É uma técnica especial para recolher amostras, que garante, tanto quanto possível, o acaso na escolha. Ela
pode ser:

Amostragem Probabilística (aleatória): A probabilidade de um elemento da população ser escolhido é

conhecida. Cada elemento da população passa a ter a mesma chance de ser escolhido.

Amostragem casual ou aleatória simples: este tipo de amostragem se assemelha ao sorteio lotérico. Ela
pode ser realizada numerando-se a população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo
aleatório qualquer, k números dessa sequência, os quais serão pertentes à amostra.
Exemplo: 15% dos alunos de uma população de notas entre 8 e 10, serão sorteados para receber uma bolsa
de estudos de inglês.

Vantagens: Desvantagens:
– Facilidade de cálculo estatístico; – Requer listagem da população;
– Probabilidade elevada de compatibilidade – Trabalhosa em populações elevadas;
dos dados da amostra e da população
– Custos elevados se a dispersão da amostra for
elevada.

Amostragem sistemática: Assemelha-se à amostragem aleatória simples, porque inicialmente enumeram-se

as unidades da população. Mas difere da aleatória porque a seleção da amostra é feita por um processo perió-
dico pré-ordenado.

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

72
Amostragem proporcional estratificada: muitas vezes a população se divide em subpopulações – estratos,
então classificamos a população em, ao menos dois estratos, e extraímos uma amostra de cada um. Podemos
determinar características como sexo, cor da pele, faixa etária, entre outros.

Vantagens:
Desvantagens:
– Pressupõe um erro de amostragem menor;
– Necessita de maior informação
– Assegura uma boa representatividade das sobre a população;
variáveis estratificadas;
– Cálculo estatístico mais
– Podem empregar-se metodologias complexo.
diferentes para cada estrato;
– Fácil organização do trabalho de campo.

Amostragem por conglomerado: é uma amostra aleatória de agrupamentos naturais de indivíduos (conglo-
merados) na população.

Vantagens: Desvantagens:
– Não existem listagem de toda a população; – Maior erro de amostragem;
– Concentra os trabalhos de campo num número limi- – Cálculo estatístico mais complexo na
tado de elementos da população. estimação do erro de amostragem.

Amostragem Não-probabilística (não aleatória): Não se conhece a probabilidade de um elemento ser

escolhido para participar da amostra.

Amostragem por cotas: consiste em uma amostragem por julgamento que ocorre em suas etapas. Em um
primeiro momento, são criadas categorias de controle dos elementos da população e, a seguir, selecionam-se
os elementos da amostra com base em um julgamento.
Amostragem por julgamento: Essa amostragem é ideal quando o tamanho da população é pequeno e suas
características, bem conhecidas, pois baseia-se no julgamento pessoal.

Amostragem por conveniência: é uma amostra composta de indivíduos que atendem os critérios de entrada
e que são de fácil acesso do investigador. Para o critério de seleção arrolamos uma amostra consecutiva.

Vantagens: Desvantagens:
– Mais econômica; – Maior erro de amostragem que em amostras aleatórias;
– Fácil administração; – Não existem metodologias válidas para o cálculo do
erro de amostragem;
– Não necessita de listagem da
população. – Limitação representativa;
– Maior dificuldade de controle de trabalho de campo

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

73
Exercícios

1.(CEBRASPE (CESPE) - Analista Jurídico (PGDF)/Estatística/2021)

Certa empresa desejava conhecer as opiniões de seus 20.000 funcionários acerca da confiança que eles
têm no canal interno de denúncias. Para tanto, elaborou-se um questionário eletrônico que foi remetido, por
email, para todos os endereços eletrônicos cadastrados, tendo sido desenvolvidos mecanismos para evitar que
uma pessoa respondesse em lugar de outra, ou que uma mesma pessoa respondesse mais de uma vez. O
questionário foi respondido por 400 pessoas, das quais 68% disseram confiar no processo de apuração de de-
núncias e 32% disseram ter reservas quanto ao processo. Verificou-se ainda que cerca de 500 mensagens re-
tornaram por falha no cadastro dos endereços eletrônicos (erros de digitação), e que algumas respostas foram
atribuídas a pessoas que não são mais funcionários; ainda, os endereços eletrônicos de alguns funcionários
recém contratados não constavam do cadastro.
Com relação a essa situação hipotética, julgue o item a seguir.
As informações apresentadas permitem afirmar que a população- alvo da pesquisa difere da população
referenciada.
( ) CERTO
( ) ERRADO

2.(CEBRASPE (CESPE) - Oficial Técnico de Inteligência/Área 4/2018)

Em fevereiro de 2018, o Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP) co-
meçou a segunda etapa do Censo Escolar 2017, o módulo “Situação do Aluno”. Nessa etapa, serão coletadas
informações sobre rendimento e movimento escolar dos alunos ao final do ano letivo de 2017. Para isso, será
importante que as escolas utilizem seus registros administrativos e acadêmicos, como ficha de matrícula, diário
de classe, histórico escolar.
Internet: <www.inep.gov.br/notícias> (com adaptações).
A partir do texto antecedente, julgue o item que se segue, relativo a estatísticas educacionais.
A população considerada na referida fase do estudo realizado pelo INEP é constituída pelos estabelecimen-
tos escolares.
( ) CERTO
( ) ERRADO

3.(CEBRASPE (CESPE) - Vestibular (UnB)/Regular/2014)

As consequências, para o ser humano, da falta de gravidade são perda óssea, de coordenação muscular
e de massa muscular. Por isso, é importante que os astronautas se exercitem quando estiverem nas estações
espaciais. Nesse sentido, três aparelhos para exercícios físicos foram adaptados para uso em ambiente de
microgravidade: uma esteira, uma bicicleta ergométrica e um aparelho para levantamento de pesos. Esses
aparelhos foram utilizados por três astronautas — Pedro, Maria e João —, que se exercitavam todos os dias,
no mesmo horário, por uma hora.
O aparelho que cada um dos astronautas utilizava em determinado dia era diferente dos aparelhos utiliza-
dos nos dois dias anteriores.
Essa rotina de exercícios foi repetida rigorosamente durante os primeiros 30 dias de permanência dos
astronautas na estação espacial. Um fragmento do registro das atividades físicas dos três astronautas é apre-
sentado na tabela a seguir.
Fragmento do registro das atividades físicas diárias

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

74
dos astronautas Pedro, Maria e João

tipos de exercício 7.º dia 18.º dia 26.º dia

levantamento de pesos Pedro Maria ou Pedro

esteira
bicicleta Maria ou João

Com base nas informações do texto e da tabela acima, julgue o item seguinte.
A probabilidade de Maria ter-se exercitado na bicicleta no 29.º dia é inferior a 0,3.
( ) CERTO
( ) ERRADO

4.(CEBRASPE (CESPE) - Vestibular (UnB)/Regular/2014)

tipos de exercício 7.º dia 18.º dia 26.º dia

levantamento de pesos Pedro Maria ou Pedro
esteira
bicicleta Maria ou João

Com base nas informações do texto e da tabela acima, julgue o item seguinte.
A probabilidade de Pedro ou João terem-se exercitado na esteira no 21.º dia é superior a 0,7.
( ) CERTO
( ) ERRADO

5.(CEBRASPE (CESPE) - Especialista em Regulação de Serviços Públicos de Telecomunicações/Métodos

Quantitativos/2014)
No que se refere à teoria de probabilidades, julgue o seguinte item.
Se X for uma variável aleatória contínua e se Y for uma variável aleatória discreta, é correto afirmar que P(X
= k) > P(Y = k).
( ) CERTO

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

75
( ) ERRADO

6.(CEBRASPE (CESPE) - Analista Judiciário (TRE ES)/Apoio Especializado/Estatística/2011)

Julgue o item a seguir, relativo ao cálculo de probabilidades.
Se X for uma variável aleatória tal que P(X > k) > P(X > k), em que k seja um valor real, então X será variável
aleatória discreta ou mista com parte discreta em k.
( ) CERTO
( ) ERRADO

7.(CEBRASPE (CESPE) - Especialista em Regulação de Serviços Públicos de Telecomunicações/Métodos

Quantitativos/2014)
Uma lista com 10.875 denúncias foi enviada a um analista da ANATEL para posterior conferência e sabendo
que nem todas as denúncias são procedentes, o analista recorreu à técnica de amostragem com o objetivo de
estimar a quantidade de denúncias realmente pertinentes, tendo adotado os seguintes procedimentos:
para cada denúncia, foi gerado um número com distribuição uniforme entre 0 e 1;
a lista de denúncias foi classificada em ordem crescente segundo o número aleatório previamente gerado;
todas as denúncias com número aleatório gerado inferior a 0,01 foram investigadas.
Com base nessa situação hipotética, julgue o item seguinte.
O delineamento feito pelo analista fornece a mesma probabilidade de seleção para todos os elementos.
( ) CERTO
( ) ERRADO

8.(CEBRASPE (CESPE) - Auditor de Controle Externo (TCE-PA)/Administrativa/Estatística/2016)

Se as variáveis aleatórias X e Y seguem distribuições de Bernoulli, tais que P[X = 1] = P[Y = 0] = 0,9, então
as variâncias de X e Y são iguais.
( ) CERTO
( ) ERRADO

9.(CEBRASPE (CESPE) - Analista de Previdência Complementar (FUNPRESP-EXE)/Comercial/2022)

Em uma empresa há 100 produtos em estoque, todos de igual aparência, mas com qualidades distintas, que
só são evidenciadas com testes específicos: 40 são de alta qualidade, 35 são de média qualidade e 25 são de
baixa qualidade.
Considerando essas informações e o procedimento de análise de uma amostra com 15 produtos, com re-
posição, julgue o item a seguir.
Espera-se que na amostra haja, em média, 4 produtos de baixa qualidade.
( ) CERTO
( ) ERRADO

Apostila gerada especialmente para: Patrícia Lins de Paula 017.410.195-32

76
10.(CEBRASPE (CESPE) - Especialista em Gestão de Telecomunicações (TELEBRAS)/Auditoria/2022)
Com relação à utilização da amostragem estatística na atividade de auditoria interna, julgue o item subse-
quente.
A amostragem sistemática e a amostragem por cotas são exemplos de métodos de amostragem probabi-
lística.
( ) CERTO
( ) ERRADO

Gabarito

1 CERTO
2 ERRADO
3 CERTO
4 CERTO
5 ERRADO
6 CERTO
7 CERTO
8 CERTO
9 ERRADO
10 ERRADO