0% acharam este documento útil (0 voto)
39 visualizações42 páginas

Testes de Hipóteses e Correlação Linear

Enviado por

Wesley Argolo
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
39 visualizações42 páginas

Testes de Hipóteses e Correlação Linear

Enviado por

Wesley Argolo
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 42

Universidade Federal do Recôncavo da Bahia

Centro de Ciências Exatas e Tecnológicas


GCET060 – Métodos Estatísticos

INTRODUÇÃO A INFERÊNCIA ESTATÍSTICA


Parte 2

Profª Sandra Pinheiro


3. Noções de Testes de Hipóteses

Outro tipo de problema da Inferência Estatística é o de testar se uma conjectura sobre


determinada característica de uma ou mais populações é, ou não, apoiada pela evidência obtida
de dados amostrais.

Uma hipótese estatística é uma afirmação sobre uma população, frequentemente sobre algum
parâmetro de uma população.

Conjectura → hipótese estatística


Regra de decisão → teste de hipóteses
3.1. Hipótese nula e hipótese alternativa

Em geral devemos decidir entre duas hipóteses. Denominaremos essas hipóteses de


H0 → hipótese nula (hipótese que será testada)
H1 → hipótese alternativa (hipótese que será aceita caso a nula seja rejeitada)

A decisão de rejeitar H0 é equivalente à opinião “H0 é falsa”. A decisão de aceitar H0 não é


equivalente à opinião “H0 é verdadeira”. Neste caso a opinião adequada é a de que os dados não
contêm evidência suficientemente forte contra H0.
3.2. Erro tipo I e Erro tipo II

Qualquer que seja a decisão tomada em um teste de hipóteses, está sujeito a cometer erros,
devido à presença da incerteza.

Conclusão Situação da população


do teste H0 verdadeira H0 falsa
Não rejeitar H0 Correto Erro tipo II
Rejeitar H0 Erro tipo I Correto

Designaremos α= P(Erro tipo I) e = P(Erro tipo II)

É fundamental que, em cada caso, se saiba qual são os erros possíveis e que se decida a priori
qual é o mais sério. Não é possível controlar ambos os erros ao mesmo tempo. Quando
diminuímos muita a probabilidade de erro tipo I, aumentamos a probabilidade do erro tipo II e
vice-versa.
3.3. Nível de significância

O valor de α é fixado pelo pesquisador. Esta probabilidade recebe o nome de nível de


significância do teste. Usualmente, esses valores são fixados em 5%, 1% ou 0,1%.
Como a probabilidade do erro tipo I () é fixada, este deve ser o tipo de erro mais grave, assim
podemos decidir qual será a hipótese nula.

Procedimento para se efetuar um teste de hipótese

1º - Enunciar as hipóteses;
2º - Fixar o limite de erro  e identificar a variável do teste;
3º - Determinar a região crítica em função da variável tabelada;
4º - Calcular o valor da variável do teste, obtido na amostra;
5º - Aceitar ou rejeitar a hipótese nula de acordo com a estimativa obtida no item 4º, em
comparação com a região crítica estabelecida no 3º passo.
3.4. Alguns tipos de testes

I) Testes de Hipóteses para Média Populacional (m)

A média de uma população é uma de suas características mais importantes e freqüentemente temos
que tomar decisões a seu respeito. Vamos denotar um valor fixo qualquer por m0. A estatística de
teste é:
Consideremos as diversas hipóteses que podem ocorrer num teste de hipóteses para médias:

Hipóteses unilaterais
) m  m (ou m = m) versus H1) m  m
) m  m (ou m = m ) versus H1) m  m

Hipótese Bilateral

) m = m versus H1) m  m


• População Normal,  2 conhecido

Como vimos em Intervalo de Confiança quando a variância ou desvio-padrão populacional () é


conhecido utilizaremos a distribuição normal para encontrar a região crítica do teste ou calcular o p-
valor. A estatística de teste é:
Exemplo: O volume médio de resíduos sólidos orgânicos depositados em minicomposteira de PVC
cilíndrica é de 33,5 kg. Uma amostra de 30 minicomposteiras apresentou volume médio de resíduos
sólidos orgânicos de 35,2 kg com desvio-padrão de 1,5 kg. Teste ao nível de 2% de significância a
hipótese que o volume de resíduos que a minicomposteira comporta é superior.

) m = 33,5 versus H1) m  33,5

Ztab = 2,05

Rejeitamos H0 ao nível de 2% de significância.


• População Normal,  2 desconhecido

Neste caso, como vimos em Intervalo de Confiança precisamos usar o desvio-padrão amostral s para
estimar , e utilizaremos a distribuição de Student para encontrar a região crítica do teste ou calcular o
p-valor. A estatística de teste é:

Exemplo: A capacidade média de gerar energia elétrica das principais hidrelétricas do Brasil é de
2720 MW. Uma amostra de 12 hidrelétricas apresentou capacidade média de gerar energia elétrica de
2150 MW com desvio-padrão de 850 MW. Teste a hipótese de que a capacidade média é diferente, ao
nível de 5% de significância.

) m = 272 versus H1) m ≠ 272

Ttab = 2,201

Rejeitamos H0 ao nível de 5% e concluímos que a capacidade média das usinas continua a mesma.
II) Teste de hipóteses para proporções

Usaremos este tipo de teste quando temos uma população e uma hipótese sobre a proporção de
indivíduos portadores de certa característica. Para grandes amostras, se p é a proporção
populacional e p0 um valor fixo, a estatística de teste é:

Z= Onde q0 = 1- p0.

Vamos considerar os seguintes testes:

Hipóteses unilaterais: Hipótese bilateral:


H0) p  p0 ( p =p0) versus H1) p > p0.
H0) p = p0 versus H1) p  p0.
H0) p  p0 (p =p0) versus H1) p < p0.
Exemplo: A proporção de nascidos vivos que sobrevivem até 60 anos é de 0,6 em uma determinada
região. Em 1000 nascimentos amostrados aleatoriamente, verificou-se que 530 sobreviveram até 60
anos. Teste esta hipótese ao nível de 5% de significância.

H0) p = 0,60 vs H1) p  0,60

p̂ =
530
= 0,53 Como = 5%, z/2 = -1,96 e - z/2 = -1,96
1000

Rejeitamos H0 ao nível de 5% e concluímos que há evidências de que a proporção de nascidos vivos


que sobrevivem até 60 anos é diferente de 0,60.
III) Testes para comparação de duas médias

• Comparação de médias populacionais (com variâncias conhecidas)

Hipóteses:

Ho : mo= m1

H1 : mo  m1 H1 : mo < m1 H1 : mo > m1

Quando as variâncias populacionais são conhecidas usamos a distribuição normal. A estatística de


teste é dada por:
Exemplo: Um estudo comparativo do tempo de vida médio de indivíduos após ter sido detectado o
vírus Y no organismo foi realizado entre homens e mulheres, para os quais temos as seguintes
distribuições, N (3,2 ; 0,64) e N (3,7 ; 0,81). Desejamos saber se o tempo de vida médio de indivíduos
com este tipo de doença é o mesmo entre homens e mulheres. Para isto, estudou-se uma amostra
de 50 homens e 50 mulheres, obtendo-se um tempo médio 3,0 e 3,5 anos, respectivamente.  = 5%.

Ho : mH= mM H1 : mH  mM

Z tab = 1,96

Rejeitamos Ho ao nível de 5% de significância, e concluímos que o tempo médio de vida não é o


mesmo.
• Teste para comparação de duas médias populacionais (com variâncias
desconhecidas)

Quando as variâncias populacionais são desconhecidas temos que estimá-las. A estatística de


teste é dada por:

Onde Sc é o desvio padrão conjunto ou conjugado, com variância:


Exemplo: Uma amostra de 5 usinas hidrelétricas da região A apresentou potência média
de 4800 MW com desvio-padrão de 2150 MW. Outra amostra de 6 usinas da região B
apresentou potência média de 3600 MW com desvio-padrão de 1600 MW. Teste, ao nível
de 1% de significância se existe diferença entre a potência das usinas das duas regiões.

Ho : mA= mB H1 : mA  mB

= 1,01 Ttab = 3,25

Não rejeitamos H0 ao nível de 1% de significância e concluímos que não há diferença na


potência média das usinas nas duas regiões.
4. Análise de Correlação Linear Simples

O coeficiente de correlação (r) mede a quantidade de dispersão em torno da equação linear


ajustada através do método dos mínimos quadrados, ou o grau de relação das variáveis na
amostra.

Em geral, a letra r é usada para representar este coeficiente. Valores de r variam de –1.0 a +1.0.
Um r próximo a +1 corresponde a um diagrama de dispersão em que os pontos caem em torno de
linha reta com inclinação positiva, e um r próximo a –1 corresponde a um diagrama em que os
pontos caem em torno de uma linha reta com inclinação negativa. Um r próximo a 0 corresponde a
um conjunto de pontos que não mostram nenhuma tendência, nem crescente, nem decrescente.
O coeficiente de correlação, também chamado de Coeficiente de Correlação de Pearson, é
calculado por:

onde xi e yi são os valores observados de X e Y, respectivamente; i=1,2,...,n e n é o número de


observações para cada variável. são as médias de X e Y respectivamente.
Interpretação dos valores

Uma das formas de interpretar o coeficiente de correlação é dada por:


• r = -1 perfeita correlação linear negativa entre X e Y.
• -1 < r < -0,50 forte correlação linear negativa entre X e Y.
• -0,50 <= r < -0,30 moderada correlação linear negativa entre X e Y.
• -0,30 <= r < 0 fraca correlação linear negativa entre X e Y.
• r = 0 ausência de relação linear entre as variáveis X e Y.
• 0 < r <= 0,30 fraca correlação linear positiva entre X e Y.
• 0,30 < r <= 0,50 moderada correlação linear positiva entre X e Y.
• 0,50 < r < 1 forte correlação linear positiva entre X e Y.
• r = 1 perfeita correlação linear positiva entre X e Y.
Exemplo: Os somatórios abaixo são referentes as 35 medidas da tensão na rede elétrica (Volts) e
variação no corte das Gavetas(mm) de legumes do refrigerador produzido pela indústria. Calcular o
coeficiente de correlação linear para os dados.

Dados para o Cálculo do Coeficiente de Correlação para o exemplo 1

i=1,...35 x y  x2  y2  xy
Total 7657,6 595,3 1675792 10178,11 130103,4

= -0,9764
5. Ajustamento estatístico

O objetivo do ajustamento estatístico é ajustar uma função matemática às observações de algum


fenômeno. Ajustar modelos matemáticos a fenômenos reais é uma das etapas para o estudo de
séries temporais e de regressão linear. Entretanto, devemos ter mente que ao tentarmos explicar
a realidade através de uma função matemática estamos idealizando um fenômeno, portanto para
analisá-lo é necessário que tenhamos claras as limitações do modelo e se este é o mais
adequado para explicar o que se quer conhecer.

Seja o modelo matemático que queremos encontrar para explicar a relação funcional
entre as duas variáveis Y e X.
I) O Método dos Mínimos Quadrados

Existem várias maneiras de encontrarmos a função matemática que exprime a relação funcional entre
duas variáveis. Aqui veremos apenas uma noção sobre o método chamado de mínimos quadrados.
Este método consiste em minimizar a soma dos quadrados dos desvios (ou diferenças) entre o valor
observado da variável Y e seu valor estimado pela função matemática.

Vejamos graficamente o que o método significa. Seja , por exemplo, uma função linear
Y = a + b.X e seja uma observação i qualquer da variável Y:
Yi = valor observado dessa variável; e
= valor estimado dessa variável.
Variável Y
Y^= a + b.x

Y3
Y 3 - Y ^3 =

= desv io
Y^3

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

Variável X

Podemos escrever o desvio, para uma particular observação i, como: Desvio i =

e a função linear para a mesma observação i como:


Então, a soma mínima dos desvios ao quadrado para os valores observados e os
valores estimados pela função da variável Y como a seguir, sendo S essa soma:
II. Ajustamento de Alguns Modelos pelo Método dos Mínimos Quadrados

a) A função linear

Dados n pares de valores de duas variáveis, Xi, Yi (i = 1,2, ..., n), se admitirmos que Y é função
linear de X, podemos estabelecer uma regressão linear simples, cujo modelo estatístico é:

Yi =  + Xi + ei

onde:
 : é o coeficiente linear da reta, também conhecido como termo constante da equação de
regressão;
 : é o coeficiente angular da reta, também denominado coeficiente de regressão.
Pressupostos do modelo de regressão linear simples:

I) A relação entre X e Y é linear


II) Os valores de X são fixos, isto é, X não é uma variável aleatória
III) A média do erro é nula, isto é, E(ei ) = 0
IV) A variância do erro é sempre 2
V) O erro de uma observação é não correlacionado com o erro em outra observação,
isto é,
E(ei, ej) = 0,  i  j
VI) Os erros têm distribuição normal , ei ~N (0, 2).
Se é uma função linear Y = a + b.X, a soma S dada anteriormente pode ser expressa,
substituindo o valor estimado da observação Yi pela sua expressão linear:

No último membro da expressão, as observações relativas às variáveis X e Y são conhecidas. Para


encontrarmos essa soma precisamos determinar os parâmetros a e b da função linear sob a
hipótese de soma mínima. Para que a soma S seja mínima duas condições têm que ser satisfeitas:

A derivada primeira de S ser igual a zero - mas como S depende de a e b então devemos derivá-la
em relação a esses dois parâmetros e impor que essas derivadas sejam iguais a zero, isto é,

e
Temos:

Com as derivadas acima igualadas a zero chegamos a um sistema de duas equações com duas
incógnitas, sendo, portanto, o sistema possível e determinado. Temos:
ii) A derivada segunda de S ser maior do que zero, para os dois parâmetros da função linear.
Temos, então:

Com estes resultados vimos que igualando as derivadas primeiras a zero encontraremos os
valores dos parâmetros a e b que minimizam a soma S. Arrumando as equações (I) e (II)
chegamos ao sistema de equações conhecido como as Equações Normais para a determinação
dos parâmetros da função linear pelo método dos mínimos quadrados:
Para encontrarmos o valor do parâmetro a, dividimos a equação (III) por n e sua expressão
matemática é dada por

onde representam, respectivamente, as médias aritméticas de X e Y.


Substituindo (V) em (IV), encontramos a expressão para o parâmetro b:
O denominador da expressão acima corresponde à soma do quadrado dos desvios para a variável X,
isto é, que chamaremos de SXX, e o numerador à soma do produto dos desvios de X e Y,
ou seja, . Assim b pode ser expresso por .

Resumindo, para determinarmos a função linear que minimiza as diferenças entre os valores
observados de Y e seus valores estimados por essa função:

• A função linear: Yˆ = a + b. X

• O parâmetro a: a = Y − b. X
S XY
• O parâmetro b: b =
S XX
Observações:

• A reta de mínimos quadrados passa pelo ponto .

• Se o coeficiente angular da reta b = 0 indica que Y não depende de X, ou seja, não existe uma
relação linear entre as duas variáveis.

• Se mudarmos a origem da variável X para a sua média o sistema de equações reduz-se,


tornando mais simples os cálculos (isto é útil quando não for possível elaborar o ajustamento
eletronicamente). Fazendo

a última expressão indica que a soma dos desvios da variável X em relação a sua média
aritmética é igual a zero e a expressão para o cálculo dos parâmetros da função linear ficam
reduzidos a

e
Exemplo: A tabela a seguir discrimina a produção agrícola anual e a correspondente área
plantada para os estabelecimentos agrícolas do município W que produzem feijão. Calcular os
parâmetros da função linear que expressa a relação funcional entre as duas variáveis
observadas.

Produção
(em mil toneladas) 59 65 76 74 68 98 85
Área plantada
(em hectares) 64 82 85 62 50 109 78

A produção Y depende da área plantada X, ou seja, X é a variável independente e Y a variável


dependente
Y = f (X )  Yˆ = a + b. X
Observação Produção Área XY X2

Y X

1 59 64 3776 4096
2 65 82 5330 6724
3 76 85 6460 7225
4 74 62 4588 3844
5 68 50 3400 2500
6 98 109 10682 11881
7 85 78 6630 6084
Total 525 530 40866 42354
O modelo linear que exprime a relação entre a produção de feijão e a área plantada no
município W é dada por
100 Legenda
Y

Produção (em t)
Produção
Y^ observada
90
Produção
estimada
80

70

60

50 60 70 80 90 100 110
Área plantada (em ha)
Coeficiente de determinação ou explicação (R²)

O coeficiente de determinação ou explicação, é uma medida estatística que serve para


avaliar o grau de ajuste do modelo linear aos valores observados da variável. Ele
expressa a quantidade da variância dos dados que é explicada pelo modelo linear.

O R² pode variar entre 0 e 1, mas é frequentemente apresentado em termos percentuais


(R² x 100). Quanto mais próximo de 1 (ou de 100%) melhor a qualidade do ajuste linear.

Por exemplo, um R² = 0,785 significa que o modelo linear explica 78,5% da variância da
variável dependente (Y) a partir da variável independente (X) incluída no modelo linear.

2
(𝑆𝑥𝑦 )
𝑅2 = 𝑆𝑥𝑦 = σ 𝑥𝑖 𝑦𝑖 − 𝑛𝑋ത 𝑌ത 𝑆𝑥𝑥 = ෍ 𝑥𝑖2 − 𝑛𝑋ത 2 𝑆𝑦𝑦 = ෍ 𝑦𝑖2 − 𝑛𝑌ത 2
𝑆𝑥𝑥 𝑆𝑦𝑦
b) Função geométrica ou potência

Seja Y = f(X) uma função geométrica ou potência da forma . Conhecendo os valores dos
parâmetros a e b a função está perfeitamente definida. Para encontrarmos os parâmetros pelo
método dos mínimos quadrados basta fazermos uma transformação logarítmica nas observações,
com a seguir:

Fazendo log Y = y; log a = A e log X = x, podemos escrever a função geométrica da seguinte


forma
y = A + b.x,

ou seja, na forma da função linear. Os valores dos parâmetros A e b são determinados pelas
equações normais da função linear e, a seguir, para encontrarmos o valor do parâmetro a da
função geométrica basta calcularmos o antilogarítmo de A.
Exemplos gráficos de uma função geométrica

Função geométrica Função geométrica

Parâmetro b > 1 Parâmetro 0 < b < 1

Y = f(X)
Y = f(X)

0 0
Variável X Variável X
Exemplo: Com os dados da tabela abaixo determinar a equação de regressão .

MESES VENDAS GASTOS COM


PROPAGANDA
J 20 2
F 28 4
M 35 6
x =  ln X = 22,03588 , y =  ln Y = 38,23061 , xy = 86,7919
A 48 8 x2 = 53,39394 , y2 = 147,56372
M 54 10 b = 0,5268
J 58 12 ln a = 2,66221
J 60 14 exp (ln a) = 14,3279
A 61 16 
Y = 14,32279 X 0,5268
S 60 18
O 62 20
Total 486 110
c) Função exponencial

Seja é uma função exponencial da forma . A função está perfeitamente definida quando são
conhecidos os parâmetros a e b. Para encontrarmos os parâmetros pelo método dos mínimos
quadrados podemos, também, fazermos uma transformação logarítmica nas observações, com a
seguir:

Fazendo log Y = y; log a = A e log b = B, podemos escrever a função exponencial na forma linear

y = A + B.X.

Para acharmos os valores dos parâmetros a e b da função exponencial basta calcularmos seus
antilogarítmos.
Exemplos gráficos de funções exponenciais

Função exponencial Função exponencial


Parâmetro b >1 Parâmetro 0 < b < 1
Y = f(X)

Y = f(X)
0.00
0

0 0
Variável X Varável X
Exemplo: A tabela a seguir reflete a evolução do índice de preços no Brasil, no período de 1958 a
1967. Ajustar uma função potência aos dados.

ANOS I.G.P.
1958 229
1959 316
Y = 
X

1960 407
y = ln Y = 31,09427
1961 559
1962 848 X 2 = 385 , Xy = 186,21663 , y 2 = 99,52273
ln b = 0,18422 , ln a = 2,09622
1963 1473
a = exp (ln a) = 8,1354 , b = exp (ln b) = 1,2023
1964 2811 
Y = 8,1354 (1,2023) X
1965 4416
1966 6125
1967 7946
REFERÊNCIAS BIBLIOGRÁFICAS

• TRIOLA, Mario F., Introdução à estatística

• MORETTIN, Pedro Alberto; BUSSAB, Wilton de Oliveira. Estatística básica. 9ª. ed.

São Paulo: Saraiva Uni, 2017. 568 p. ISBN-10: 8547220224

• STEPHAN, L. e BERENSON, K., Estatística-teoria e aplicações

• PEREIRA, W e TANAKA, O. K., Elementos de estatística

• Material didático (UFBA) da disciplina MAT 027

• Material didático (UFBA) da disciplina MAT 193

Você também pode gostar