Testes de Hipóteses e Correlação Linear
Testes de Hipóteses e Correlação Linear
Uma hipótese estatística é uma afirmação sobre uma população, frequentemente sobre algum
parâmetro de uma população.
Qualquer que seja a decisão tomada em um teste de hipóteses, está sujeito a cometer erros,
devido à presença da incerteza.
É fundamental que, em cada caso, se saiba qual são os erros possíveis e que se decida a priori
qual é o mais sério. Não é possível controlar ambos os erros ao mesmo tempo. Quando
diminuímos muita a probabilidade de erro tipo I, aumentamos a probabilidade do erro tipo II e
vice-versa.
3.3. Nível de significância
1º - Enunciar as hipóteses;
2º - Fixar o limite de erro e identificar a variável do teste;
3º - Determinar a região crítica em função da variável tabelada;
4º - Calcular o valor da variável do teste, obtido na amostra;
5º - Aceitar ou rejeitar a hipótese nula de acordo com a estimativa obtida no item 4º, em
comparação com a região crítica estabelecida no 3º passo.
3.4. Alguns tipos de testes
A média de uma população é uma de suas características mais importantes e freqüentemente temos
que tomar decisões a seu respeito. Vamos denotar um valor fixo qualquer por m0. A estatística de
teste é:
Consideremos as diversas hipóteses que podem ocorrer num teste de hipóteses para médias:
Hipóteses unilaterais
) m m (ou m = m) versus H1) m m
) m m (ou m = m ) versus H1) m m
Hipótese Bilateral
Ztab = 2,05
Neste caso, como vimos em Intervalo de Confiança precisamos usar o desvio-padrão amostral s para
estimar , e utilizaremos a distribuição de Student para encontrar a região crítica do teste ou calcular o
p-valor. A estatística de teste é:
Exemplo: A capacidade média de gerar energia elétrica das principais hidrelétricas do Brasil é de
2720 MW. Uma amostra de 12 hidrelétricas apresentou capacidade média de gerar energia elétrica de
2150 MW com desvio-padrão de 850 MW. Teste a hipótese de que a capacidade média é diferente, ao
nível de 5% de significância.
Ttab = 2,201
Rejeitamos H0 ao nível de 5% e concluímos que a capacidade média das usinas continua a mesma.
II) Teste de hipóteses para proporções
Usaremos este tipo de teste quando temos uma população e uma hipótese sobre a proporção de
indivíduos portadores de certa característica. Para grandes amostras, se p é a proporção
populacional e p0 um valor fixo, a estatística de teste é:
Z= Onde q0 = 1- p0.
p̂ =
530
= 0,53 Como = 5%, z/2 = -1,96 e - z/2 = -1,96
1000
Hipóteses:
Ho : mo= m1
H1 : mo m1 H1 : mo < m1 H1 : mo > m1
Ho : mH= mM H1 : mH mM
Z tab = 1,96
Ho : mA= mB H1 : mA mB
Em geral, a letra r é usada para representar este coeficiente. Valores de r variam de –1.0 a +1.0.
Um r próximo a +1 corresponde a um diagrama de dispersão em que os pontos caem em torno de
linha reta com inclinação positiva, e um r próximo a –1 corresponde a um diagrama em que os
pontos caem em torno de uma linha reta com inclinação negativa. Um r próximo a 0 corresponde a
um conjunto de pontos que não mostram nenhuma tendência, nem crescente, nem decrescente.
O coeficiente de correlação, também chamado de Coeficiente de Correlação de Pearson, é
calculado por:
i=1,...35 x y x2 y2 xy
Total 7657,6 595,3 1675792 10178,11 130103,4
= -0,9764
5. Ajustamento estatístico
Seja o modelo matemático que queremos encontrar para explicar a relação funcional
entre as duas variáveis Y e X.
I) O Método dos Mínimos Quadrados
Existem várias maneiras de encontrarmos a função matemática que exprime a relação funcional entre
duas variáveis. Aqui veremos apenas uma noção sobre o método chamado de mínimos quadrados.
Este método consiste em minimizar a soma dos quadrados dos desvios (ou diferenças) entre o valor
observado da variável Y e seu valor estimado pela função matemática.
Vejamos graficamente o que o método significa. Seja , por exemplo, uma função linear
Y = a + b.X e seja uma observação i qualquer da variável Y:
Yi = valor observado dessa variável; e
= valor estimado dessa variável.
Variável Y
Y^= a + b.x
Y3
Y 3 - Y ^3 =
= desv io
Y^3
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
Variável X
a) A função linear
Dados n pares de valores de duas variáveis, Xi, Yi (i = 1,2, ..., n), se admitirmos que Y é função
linear de X, podemos estabelecer uma regressão linear simples, cujo modelo estatístico é:
Yi = + Xi + ei
onde:
: é o coeficiente linear da reta, também conhecido como termo constante da equação de
regressão;
: é o coeficiente angular da reta, também denominado coeficiente de regressão.
Pressupostos do modelo de regressão linear simples:
A derivada primeira de S ser igual a zero - mas como S depende de a e b então devemos derivá-la
em relação a esses dois parâmetros e impor que essas derivadas sejam iguais a zero, isto é,
e
Temos:
Com as derivadas acima igualadas a zero chegamos a um sistema de duas equações com duas
incógnitas, sendo, portanto, o sistema possível e determinado. Temos:
ii) A derivada segunda de S ser maior do que zero, para os dois parâmetros da função linear.
Temos, então:
Com estes resultados vimos que igualando as derivadas primeiras a zero encontraremos os
valores dos parâmetros a e b que minimizam a soma S. Arrumando as equações (I) e (II)
chegamos ao sistema de equações conhecido como as Equações Normais para a determinação
dos parâmetros da função linear pelo método dos mínimos quadrados:
Para encontrarmos o valor do parâmetro a, dividimos a equação (III) por n e sua expressão
matemática é dada por
Resumindo, para determinarmos a função linear que minimiza as diferenças entre os valores
observados de Y e seus valores estimados por essa função:
• A função linear: Yˆ = a + b. X
• O parâmetro a: a = Y − b. X
S XY
• O parâmetro b: b =
S XX
Observações:
• Se o coeficiente angular da reta b = 0 indica que Y não depende de X, ou seja, não existe uma
relação linear entre as duas variáveis.
a última expressão indica que a soma dos desvios da variável X em relação a sua média
aritmética é igual a zero e a expressão para o cálculo dos parâmetros da função linear ficam
reduzidos a
e
Exemplo: A tabela a seguir discrimina a produção agrícola anual e a correspondente área
plantada para os estabelecimentos agrícolas do município W que produzem feijão. Calcular os
parâmetros da função linear que expressa a relação funcional entre as duas variáveis
observadas.
Produção
(em mil toneladas) 59 65 76 74 68 98 85
Área plantada
(em hectares) 64 82 85 62 50 109 78
Y X
1 59 64 3776 4096
2 65 82 5330 6724
3 76 85 6460 7225
4 74 62 4588 3844
5 68 50 3400 2500
6 98 109 10682 11881
7 85 78 6630 6084
Total 525 530 40866 42354
O modelo linear que exprime a relação entre a produção de feijão e a área plantada no
município W é dada por
100 Legenda
Y
Produção (em t)
Produção
Y^ observada
90
Produção
estimada
80
70
60
50 60 70 80 90 100 110
Área plantada (em ha)
Coeficiente de determinação ou explicação (R²)
Por exemplo, um R² = 0,785 significa que o modelo linear explica 78,5% da variância da
variável dependente (Y) a partir da variável independente (X) incluída no modelo linear.
2
(𝑆𝑥𝑦 )
𝑅2 = 𝑆𝑥𝑦 = σ 𝑥𝑖 𝑦𝑖 − 𝑛𝑋ത 𝑌ത 𝑆𝑥𝑥 = 𝑥𝑖2 − 𝑛𝑋ത 2 𝑆𝑦𝑦 = 𝑦𝑖2 − 𝑛𝑌ത 2
𝑆𝑥𝑥 𝑆𝑦𝑦
b) Função geométrica ou potência
Seja Y = f(X) uma função geométrica ou potência da forma . Conhecendo os valores dos
parâmetros a e b a função está perfeitamente definida. Para encontrarmos os parâmetros pelo
método dos mínimos quadrados basta fazermos uma transformação logarítmica nas observações,
com a seguir:
ou seja, na forma da função linear. Os valores dos parâmetros A e b são determinados pelas
equações normais da função linear e, a seguir, para encontrarmos o valor do parâmetro a da
função geométrica basta calcularmos o antilogarítmo de A.
Exemplos gráficos de uma função geométrica
Y = f(X)
Y = f(X)
0 0
Variável X Variável X
Exemplo: Com os dados da tabela abaixo determinar a equação de regressão .
Seja é uma função exponencial da forma . A função está perfeitamente definida quando são
conhecidos os parâmetros a e b. Para encontrarmos os parâmetros pelo método dos mínimos
quadrados podemos, também, fazermos uma transformação logarítmica nas observações, com a
seguir:
Fazendo log Y = y; log a = A e log b = B, podemos escrever a função exponencial na forma linear
y = A + B.X.
Para acharmos os valores dos parâmetros a e b da função exponencial basta calcularmos seus
antilogarítmos.
Exemplos gráficos de funções exponenciais
Y = f(X)
0.00
0
0 0
Variável X Varável X
Exemplo: A tabela a seguir reflete a evolução do índice de preços no Brasil, no período de 1958 a
1967. Ajustar uma função potência aos dados.
ANOS I.G.P.
1958 229
1959 316
Y =
X
1960 407
y = ln Y = 31,09427
1961 559
1962 848 X 2 = 385 , Xy = 186,21663 , y 2 = 99,52273
ln b = 0,18422 , ln a = 2,09622
1963 1473
a = exp (ln a) = 8,1354 , b = exp (ln b) = 1,2023
1964 2811
Y = 8,1354 (1,2023) X
1965 4416
1966 6125
1967 7946
REFERÊNCIAS BIBLIOGRÁFICAS
• MORETTIN, Pedro Alberto; BUSSAB, Wilton de Oliveira. Estatística básica. 9ª. ed.