ANLISE DE VARINCIA
ANOVA
Prof. Adriano Mendona Souza, Dr.
Departamento de Estatstica
- PPGEMQ / PPGEP - UFSM
UM EXEMPLO DE APLICAO
Digamos que temos 6 mtodos de ensino aplicados a 30
crianas cada e gostaramos de fazer uma comparao
entre os mtodos.
Fazendo-se a comparao 2 a 2 por meio do teste Z ou
do teste t exigiria a execuo de 15 testes, pois por meio
6
6!
de combinao temos
15 testes, ou ento
2 2! 4!
optar pela anlise de varincia, onde as hipteses testadas
seriam:
2
H0: As mdias so iguais (1 = 2 = ... = i)
H1: Existe pelo menos uma das mdias diferentes.
Na tabela a seguir apresenta-se os mtodos de ensino
A, B, C, D, E e F. Apresenta-se tambm, a mdia, o
desvio padro, o n de crianas em cada mtodo e o
respectivo grau de liberdade gl = = N 1.
S2
N
gl
A
75
173,2
30
29
B
72
168,7
30
29
C
76
170,1
30
29
D
79
169,8
30
29
E
82
172
30
29
F
72
167,6
30
29
Uma anlise de varincia permite que vrios grupos sejam
comparados a um s tempo, utilizando variveis contnuas.
O teste paramtrico (a varivel de interesse deve ter
distribuio normal) e os grupos devem ser independentes.
4
Considerando uma varivel de interesse com mdia
e varincia 2 temos dois estimadores de 2:
SE2 = disperso entre os grupos, que em ingls
representado por SB2 (between).
SD2 = disperso dentro dos grupos, que em ingls
representado por SW2 (within).
O teste aplicado utilizando a estatstica calculada F
2
SB
SW2
que o teste que compara varincias.
5
A varincia das mdias amostrais calculada por
S x2
2
i
k -1
onde:
k representa os grupos e = k 1 o grau de liberdade.
Como o N igual para os 6 grupos, podemos proceder:
6
Determinando SE2:
= 75 + 72 + 76 + 79 + 82 + 72 = 456
x = (456)2
2
xi2 = 752 + 722 + 762 + 792 + 822 + 722 = 34734
Com k = 6
S x2
456
34.734 -
15,6
Pela distribuio amostral das mdias temos :
S x2
S 2 S x2 .N
N
S2 = (15,6) . (30) = 468
7
Mas S2 = SE2, onde S2 = N . S x2
SE2 = N
x - k
2
i
k -1
SE2 = 468
k 1 = 5 gl
Determinando SD2:
2
2
2
N
1
S
N
1
S
...
N
1
S
1
1
2
2
k
k
S D2
N 1 - 1 N 2 - 1 N 3 - 1 ... N k - 1
S D2
30 - 1173,2 30 - 1168,7 ... 30 - 1167,6
180 - 6
S D2 170,2 com 174 graus de liberdade.
Aplicando-se o teste, temos:
1 5 graus de liberdade do numerador
S E2
468
2,75
F 2
S D 170,2
2 174 graus de liberdade do denominador
2
S E sempre
2
S
fica no numerador e
D
no denominador.
Utilizando-se a estatstica tabelada F a 5% tem-se que
F(5,174); 5% = 2,21, onde Fcalc > Ftab, onde a Hiptese H0
rejeitada, isto ,
existe pelo menos 1 mdia diferente das demais.
9
EXPERIMENTOS
INTEIRAMENTE AO ACASO
(AMOSTRAS DE MESMO TAMANHO)
A idia da ANOVA comparar a variao
devida aos tratamentos com a variao devida
ao acaso ou resduo.
As hipteses bsicas aplicao da ANOVA so de que:
- as K populaes tenham a mesma varincia 2 condio de homocedasticidade;
- a varivel de interesse seja normalmente distribuda em
todas as populaes.
11
Experimento inteiramente ao acaso
Total
No de repeties
Mdia
1
y11
y12
y13
.
.
.
y1r
T1
r
2
y21
y22
y23
.
.
.
y2r
T2
r
Tratamento
3
y31
y32
y33
.
.
.
y3r
T3
r
y1
y2
y3
Total
...
...
...
...
...
k
yk1
yk2
yk3
.
.
.
ykr
Tk
r
T = y
n = kr
yk
12
Clculos para realizarmos uma ANOVA:
Determinar os graus de liberdade
tratamentos = k - 1;
total = kr - 1; resduo = k(r-1)
FC
SQ
SQ
Tot
Trat
y2 C
T
r
QM
QM
Res
Trat
SQ Res
k(r 1)
SQ Trat
k 1
SQRe s SQTot SQTrat
QM
QM
Trat
Res
13
Quadro da ANOVA de um experimento
inteiramente ao acaso
Causas de
variao
Tratamentos
SQ
GL
QM
SQTrat
k-1
QMTrat.
Resduo
SQRes.
k(r - 1)
QMRes.
QMTrat.
F
QMRes.
Total
SQTot.
kr - 1
Note que os quadrados mdios so obtidos dividindo as
somas de quadrados pelos respectivos graus de
liberdade.
14
Para testar as hipteses utilizada a estatstica F de
Snedecor, com (k 1) graus de liberdade no
numerador e k.(r 1) graus de liberdade no
denominador.
Se Fc > F,
1, 2
rejeita-se H0 e conclui-se que
existe pelo menos uma mdia que difere de outra.
15
Se Fcalc > Ftab, rejeitar H0.
Neste caso dizemos que existem diferenas
Estatisticamente significativas entre as mdias.
Se Fcalc < Ftab, no rejeitar H0.
Quando isso ocorre, dizemos que no existem
evidncias estatsticas de que as mdias sejam
diferentes.
16
O p-valor
Um
procedimento
de
teste
equivalente
usa
probabilidade de significncia (p-valor), a qual
calculada pela maioria dos programas estatsticos.
O p-valor representa a probabilidade de ser obtida uma
observao da distribuio F com k 1 e k(r 1) graus
de liberdade maior ou igual ao valor observado pela
Fcalc.
Note que se o p-valor for menor que , rejeitamos H0.
17
Se p-valor < , rejeita-se H0.
Em outras palavras, o p-valor a probabilidade, sob
H0, de ocorrncia do valor particular observado para a
estatstica de teste ou de valores mais extremos.
A probabilidade de significncia de um teste mede a
fora da evidncia contra H0 em uma escala numrica.
Um p-valor pequeno indica uma forte justificativa
(evidncia) para a rejeio de H0.
18
Exemplo 3.1
Suponhamos
que
um
pesquisador
conduziu
um
experimento inteiramente ao acaso em um conjunto de
dados que se pressupe que sejam normalmente
distribudos e que possuam homocedasticidade. O
interesse do pesquisador avaliar se existe uma diferena
significativa entre os tratamentos T1, T2 e T3. Como voc
ajudaria este pesquisador por meio da ANOVA
utilizando um nvel de significncia de 5%?
19
T1
T2
T3
11
16
10
21
12
17
Total
Soma
12
33
54
99
Mdias
11
18
11
20
Exemplo 3.2
Um fornecedor alimenta a linha de produo de uma
determinada indstria com peas em que a sua
espessura medida em milmetros e produzidas
pelas mquinas MA, MB e MC, verifique se existe
diferena significativa na espessura mdia destes
itens ao nvel de 5%.
21
MA
MB
3,2
4,9
3,0
4,1
4,5
2,9
3,5
4,5
3,7
3,0
4,0
3,5
3,1
4,2
4,2
Total
Soma
16,9
22,1
17,3
56,3
Mdias
3,38
4,42
3,46
3,75
n=5
MC
22
Exemplo 3.3
A Hiperfrtil desenvolveu 3 tipos de fertilizantes
especficos para a cultura do milho. Para test-los,
aplicou-os s mesmas reas em pequenos stios do
interior paulista, obtendo-se a produo mostrada na
tabela a seguir.
Com esses dados podemos dizer que h significativas
diferenas entre os fertilizantes utilizados? Teste essa
hiptese ao nvel de 5%.
23
Produo em sacas de 60kg
Fertilizantes
2
3
Total
Regio
Bragana
30
32
26
Vargem
35
31
29
Itu
25
42
26
Total
90
105
81
276
Mdias
30
35
27
30,66
24
Exerccio 3.1
A tabela a seguir apresenta os dados de produo de
milho, em toneladas por hectare, de quatro
variedades. Faa a anlise de varincia para verificar
se a produo mdia das variedades de milho igual
ao nvel de 5%.
25
Variedades
A
4,00
4,00
5,52
4,48
4,72
4,72
4,16
5,28
5,44
4,40
4,72
5,76
26
Exerccio 3.2
Trs grupos de ratos foram treinados para realizar
exerccio fsico anaerbio atravs de uma prancha
inclinada com um trilho, sobre o qual corria um carrinho
com pesos diferentes que o animal empurrava. Aps
vrios meses de treinamento, um dos grupos foi
submetido exausto de motores a gasolina pelo mesmo
tempo, e um terceiro grupo foi mantido como controle,
sem as atmosferas poludas. A tabela abaixo mostra o
resultado do desempenho fsico dos trs grupos.
Sabendo-se que esta varivel (desempenho fsico) distribuise normalmente, determine se h diferena entre os
grupos.
27
Rato
Controle
Rato
lcool
Rato
Gasolina
1
2
3
4
5
6
7
8
9
10
11
12
2.4
3.1
1.9
3.0
3.0
2.2
2.2
2.3
2.5
2.5
1.9
2.8
1A
2A
3A
4A
5A
6A
7A
8A
9A
10A
11A
12A
2.3
2.5
1.8
2.4
2.6
2.9
2.0
2.7
2.8
2.2
2.1
2.5
1G
2G
3G
4G
5G
6G
7G
8G
9G
10G
11G
12G
2.5
3.1
1.9
3.0
3.0
2.2
2.2
2.2
2.5
2.5
2.0
2.9
EXPERIMENTOS
INTEIRAMENTE AO ACASO
(COM NMEROS DIFERENTES DE
REPETIES)
A anlise estatstica de um experimento inteiramente ao
acaso com nmero diferentes de repeties no
apresenta maior dificuldade. Todos os clculos so
feitos da maneira j apresentada antes, com exceo
da soma de quadrados de tratamentos. A soma de
quadrados de tratamentos dada pela frmula:
T12 T22
Tk2
SQTr
...
C
r1
r2
rk
30
Exemplo 3.4
Testes psicolgicos para determinar o grau de satisfao
profissional foram aplicados a 35 pacientes, agrupados
por faixa etria. Os resultados so os seguintes:
31
18-20
8
11
9
13
10
21-24
20
12
21
12
25-34
20
18
21
29
23
15
27
16
20
35-44
18
20
21
17
20
16
22
45-54
13
13
18
9
14
8
55-70
12
16
13
13
Sabendo-se que a distribuio desta varivel normal,
determine se houve diferena significante
entre as diversas faixas etrias, usando nvel de significncia 1%.
32
Exemplo 3.5
Admitindo-se que as notas em Estatstica, para cada
turma, distribuem-se normalmente com mesma
varincia, quer-se saber se as mdias obtidas nas
provas de aproveitamento em cada uma das turmas
so iguais, com = 5%. Para tal, sortearam-se ao
acaso alunos em cada uma das turmas e verificaramse as suas notas, obtendo-se os seguintes resultados:
33
n
x
x2
ADM Diu.
ADM Not.
ECO Not.
ECO Diu.
2,5
6,5
3,5
4,0
5,5
5,5
4,5
4,0
10,0
5,5
2,2
4,0
3,5
1,0
0,5
0,5
8,0
3,0
0,5
3,0
7,0
6,5
5,5
0,5
6,5
8,5
9,5
2,0
1,0
5,0
2,0
4,5
9,0
5,5
3,0
4,5
7,0
3,5
9,0
8,0
1,0
5,5
8,5
13
61,5
4,73
338,25
13
51
3,92
320
3,5
5,0
2,0
7,0
5,0
4,0
4,5
2,0
8,5
4,0
1,5
2,5
9,5
3,0
8,0
6,5
1,5
17
78
4,58
460
17
88,5
5,20
594,75
COMPARAO DE MDIAS
O objetivo principal da ANOVA apontar se
um grupo estatisticamente diferente do outro ou
no. Logo, se a hiptese nula rejeitada a um
determinado nvel de significncia, sabemos ento
que existe pelo menos uma das mdias de um
tratamento que diferente das demais.
Estatisticamente para determinarmos qual ou quais
tratamentos
no
so
estatisticamente
iguais,
utilizamos uma diferena mnima significativa
(dms) que utilizada para comparar as mdias dos
tratamentos.
36
Nada impede que se a hiptese H0 seja aceita, isto ,
que as mdias dos tratamentos sejam consideradas
iguais que uma investigao seja conduzida.
Se H0 for aceita (mdias iguais) o mtodo de
comparao de mdias dito no-protegido;
Se H0 for rejeitada, uma investigao ser conduzida,
ento o mtodo dito protegido.
37
-AMOSTRAS
DE MESMO TAMANHO
Os testes utilizados para se encontrar a dms so os
seguintes:
o teste t,
o teste de Tukey,
o teste de Dunnett
e o teste de Duncan.
38
O teste t
2 . QMR
Encontrar a dms t , .
r
Sempre que o
valor absoluto da
onde:
t, valor de estatstica t tabelada com
graus de liberdade do resduo
nvel de significncia
QMR quadrado mdio dos resduos
r nmero de repeties de
cada tratamento
diferena entre duas
mdias igual ou maior
do que o valor da dms,
diz-se que as mdias so
estatisticamente
diferentes.
39
Exemplo 4.1
Consideremos o Exemplo 1 do item 3, onde se
verificou por meio da ANOVA que existe pelo
menos 1 dos tratamos T1, T2 e T3 que apresentam
uma mdia estatisticamente diferente ao nvel de 5%.
Logo nos perguntamos qual ou quais tratamentos so
diferentes.
40
O teste de Tukey
Encontrar a dms q , ( , k)
QMR
r
Onde:
q o valor tabelado, levando-se em considerao os graus de
liberdade do resduo () e o nmero de tratamentos (k) e o
nvel de significncia ().
QMR quadrado mdio dos resduos
r nmero de repeties de cada tratamento
41
Exemplo 4.2
Considere-se o Exemplo 3.2 do item anterior onde a
espessura de produo em milmetros das mquinas
MA, MB e MC so testados ao nvel de 5%.
42
O teste de Dunnett
Este teste deve ser aplicado toda vez que se
pretende comparar as mdias dos tratamentos
apenas com a mdia controle.
Encontra - se a dms d (, T)
2QMR
r
onde:
d valor tabelado ao nvel de significncia estabelecido (); grau
de liberdade do resduo () e o nmero de grupos tratados (T).
QMR quadrado mdio dos resduos
r nmero de repeties de cada tratamento
43
Exemplo 4.3
Suponhamos que no Exemplo 3.2 anterior a mquina
MA seja considerada como controle e apliquemos
ento o teste de Dunnett.
44
AMOSTRAS DE TAMANHOS
DIFERENTES
O mtodo para o clculo da diferena mnima
significativa (dms) semelhante ao exposto
anteriormente, apenas com o diferencial de que o
nmero de repeties em cada tratamento deve ser
levado em considerao e que a dms deve ser
calculada a cada diferena que se queira investigar.
Logo apresentamos uma tabela resumo de formulao.
Teste t
Teste de Tukey
Teste de
Dunnett
dms t ,
1 1
. QMR
r
r
j
i
dms q , ( , k)
1 1 QMR
.
2
r
r
i
j
1 1 QMR
dms d , ( , T) .
rt rc 2
46
Onde ri e rj so o nmero de repeties de cada
tratamento. Aqui tambm o teste de Dunnett
usado para comparar o grupo tratado com o
grupo controle e rt e rc representam o nmero de
repeties de cada grupo respectivamente.
47
Exemplo 4.4
Para ilustrao do procedimento, utilizamos o
experimento que conta o nmero de ovos por
poedeira, 35 dias aps o incio do experimento,
conforme a tabela a seguir:
48
N de ovos por poedeira, 35 dias aps
o incio do experimento.
Tratamento
A
25
24
25
20
21
31
18
17
29
32
19
23
22
16
49
ANOVA
Causas de
Variao
SQ
gl
QM
Tratamento
200
66,67
5,13
Resduo
130
10
Total
330
13
13,00
Ao nvel de 5% os tratamentos no so iguais.
Digamos que estamos interessados em calcular a dms
entre as mdias usando o teste de Tukey entre A e C, para
exemplificar.
50
1 1 QMR
dms q , ( , k) .
r r 2
j
i
1 1 13
q 5% (10,4) .
rA rC 2
1 1
4,33 . 6,5
3 4
= 8,43
51
Resumidamente teremos:
Comparao
N de
repeties
dms
Turkey
Valor absoluto da
diferena
AB
3; 3
9,01
|25 29| = 4
AC
3; 4
8,43
|25 21| = 4
AD
3; 4
8,43
|25 19| = 6
BC
3; 4
8,43
|29 21| = 8
BD
3; 4
8,43
|29 19| = 10*
CD
4; 4
7,81
|21 19| = 2
52
Logo pode-se concluir que a mdia de B
significativamente maior que a D, logo este tratamento
apresenta um resultado superior.
53
OBSERVAES
Recomenda-se que quando se pretende comparar
grupos tratados com o grupo controle, deve-se designar
mais unidades ao grupo controle, de modo que a
seguinte expresso seja satisfeita:
rc
rt
k -1
rc r t .
k -1
onde:
rc repeties do grupo controle
rt repeties do grupo tratado
k nmero de tratamentos
54
Embora o nmero de repeties no traga grande
dificuldade para a anlise de experimentos, convm
lembrar, que o nmero igual de repeties tem alguma
vantagem: a anlise de varincia mais fcil e os testes
de comparao de mdias so exatos.
55
EXPERIMENTOS EM BLOCOS AO ACASO
O experimento da anlise de varincia pode se
tornar mais sensvel se houver a possibilidade de
identificar e isolar as causas que influenciam o
experimento. Essas causas estranhas, quando no
identificadas, contribuem para aumentar o valor de
S2A e mascarar a concluso final
Assim, sempre que possvel essas causas de variao
devem ser isoladas atravs de um planejamento, onde
as observaes de cada amostra so divididas em subamostras e denominadas blocos. Isso equivale a fazer,
em lugar de uma classificao simples, uma
classificao dupla e cruzada das observaes,
segundo os tratamentos e segundo os blocos.
57
A soma total dos quadrados (STQ) , agora, dividida
em trs componentes: tratamento, bloco e erro,
testando-se simultaneamente dois valores de F, um
correspondente aos tratamentos e outro aos blocos.
Se este ltimo valor F resultar significativo, ser
indicativo de que estivemos acertados em isolar a
causa de variao; em caso contrrio, a concluso
seria a mesma se tivssemos aplicado o modelo de
classificao simples.
58
OPERACIONALIZANDO EXPERIMENTOS
EM BLOCOS AO ACASO
Para entender como se faz a anlise de varincia de um
experimento em blocos ao acaso, primeiro observe a
tabela a seguir. Nessa tabela esto indicados os dados de
um experimento em blocos ao acaso com k tratamentos
e r blocos. O total de cada tratamento dado pela soma
das r unidades submetidas a esse tratamento; o total de
bloco dado pela soma das k unidades do bloco.
59
Um experimento em blocos ao acaso
Bloco
Tratamento
1
y11
y21
y31
yk1
B1
y12
y22
y32
yk2
B2
y13
y23
y33
yk3
B3
y1r
y2r
y3r
ykr
Br
Total
T1
T2
T3
...
Tk
T = B = y
N de
repeties
...
n = kr
...
yk
Mdia
y1
y2
y3
...
Total
60
Clculos para ANOVA de um experimento em
blocos ao acaso:
os graus de liberdade:
tratamentos: k 1
blocos:
r1
total: kr 1
resduo: (kr 1) (k 1) (r 1) = (k 1) (r 1)
FC C
kr
61
Clculos intermedirios para a ANOVA
SQTot = y2 C
2
SQ Trat
T
-C
r
2
SQ Bloco
B
-C
SQRes = SQTot SQTrat SQBloco
62
Quadro de anlise de varincia de um
experimento em blocos ao acaso
Causas de
Variao
SQ
gl
QM
Tratamentos
SQTrat
k1
QMTrat
QM Trat
F
QM Res
Blocos
SQBloco
r1
QMBloco
QM Bloco
F
QM Res
Resduos
SQRes
(k 1) (r 1)
QMRes
Total
SQTot
kr 1
63
Exemplo 5.1
Vamos considerar a tabela a seguir, que condensa os
tempos, em minutos, que quatro tipos de barcos com
cascos diferentes levaram para percorrer determinado
circuito, em trs dias diferentes: dia calmo, com
ondas moderadas e um dia com ondas fortes e muito
vento. Verifique se existe uma relao entre o tipo de
casco com a caracterstica das ondas.
64
Blocos
Casco
T
R
A
T
A
M
E
N
T
O
S
Dia 1
Dia 2
Dia 3
45
46
51
142
20164
42
44
50
136
18496
36
41
48
125
15625
49
47
54
450
22500
172
178
203
553
76785
29584
31684
41209
102477
Tj
T j2
65
Exerccio 5.1
Tratamento
Bloco
45
48
60
II
90
69
78
III
79
57
77
IV
82
70
97
Considerando um experimento em blocos ao acaso, faa a anlise
de varincia destes dados tabelados:
66
Exerccio 5.2
So dados os pesos de trs ratos aos 30, 34, 38, 42 e
46 dias de idade. Faa a anlise de varincia e
interprete o resultado. Considere que cada animal
um bloco e que as idades so os tratamentos.
67
Peso em gramas de trs ratos
segundo a idade em dias
Idade
Rato
30
34
38
42
46
83
86
103
116
132
63
69
79
81
98
55
61
79
79
91
68
EXPERIMENTOS EM BLOCOS AO ACASO
COM REPETIO
A metodologia na aplicao deste modelo a
mesma da anterior.
Experimento em blocos ao acaso
com repeties
70
Bloco
Tratamento
Total
y111
y211
yk11
y112
y212
yk12
y11m
y21m
yk1m
y121
y221
yk21
y122
y222
yk22
y12m
y22m
yk2m
y1r1
y2r1
ykr1
y1r2
y2r2
ykr2
y1rm
y2rm
ykrm
Total
T1
T2
...
Tk
T = B = y
Nm. de
repeties
rm
rm
...
rm
n = krm
Mdia
y1
y2
...
yk
...
B1
B2
Br
Para fazer a anlise de varincia, preciso
calcular:
os graus de liberdade
total:
n1
tratamentos: k 1
blocos:
r1
resduo:
(n 1) (k 1) (r 1) = n k r + 1
72
y
n
SQTot = y2 C
SQ Bloco
QM
Trat
SQ Trat
-C
rm
QM Bloco
B
-C
km
SQ Trat
k -1
SQ Bloco
r -1
SQRes = SQTot SQTrat SQBloco
73
QM Res
SQ Res
n - k - r 1
o valor de F para tratamentos
QM Trat
F
QM Res
74
o valor de F para blocos
QM Bloco
F
QM Res
75
Quadro de ANOVA
Causas de
Variao
SQ
gl
QM
Tratamento
SQTrat.
k1
SQ Trat.
k -1
QM Trat.
QM Res.
Blocos
SQBloco
r1
SQ Bloco
r -1
QM Bloco
QM Res.
Resduo
SQRes.
Total
nkr+1
SQ Res.
n - k - r 1
n1
76
Exemplo 6.1
Notas dos alunos do teste segundo o tratamento
(fonte de informao) e o bloco (faixa de idade)
Bloco
I
II
Total
A
65
69
73
Tratamento
B
C
56
58
49
65
54
57
D
38
30
34
72
79
80
438
73
77
69
378
71
65
62
300
76
69
71
396
Total
648
864
1512
77