“poderão estas observações terem acontecido
devido ao acaso?”
Introdução à Análise de Dados
Biomédicos usando o R
Martins Abudo Mupueleque
MSc. Medical Informatics
Carttoon adaptado de: Gonick et al. The cartoon Guide to statistics. 1993 HarperPerennial.
Testes de Hipótese
• Com os intervalos de confiança nós podemos inferir sobre um
parâmetro na população com base numa estimativa desse parâmetro.
• Os testes de hipótese são baseados noutra abordagem diferente (mas
relacionada).
• A ideia agora é medir o quanto os resultados observados na amostra
são compativeis com uma hipótese sobre a população.
Testes de Hipótese
Definimos a Hipótese
H0 = hipótese nula – ausência de efeito na população
Obtemos a estatística do teste com os dados de uma amostra
Obtemos o valor de p – probabilidade de obter o resultado que
obtivemos ou mais extremo, sendo H0 verdadeira.
Definimos o nível se significância () – usualmente 0.05
Interpretamos o valor de p –
se p< temos evidência suficiente para rejeitar H0
se p ≥ não temos evidência suficiente para rejeitar H0
Erros nos Testes de Hipótese
H0 verdadeira H0 falsa
Aceitar H0 Sem Erro Erro Tipo II ()
Rejeitar H0 Erro Tipo I () Sem Erro
Poder do teste = 1- = Probabilidade de rejeitar H0 quando ela é falsa
Erros nos Testes de Hipótese
Vamos pensar nos teste de hipótese como se
tivéssemos a fazer … torradas por baixo de um detector de
incêndios. H : não há fogo
0
ERRO DE TIPO I: alarme sem fogo (rejeitar H0 quando H0 verdadeira)
ERRO DE TIPO II: fogo sem alarme (aceitar H0 quando H0 falsa)
Como acabar com o erro tipo I? desligar o alarme
nesse caso o que acontecia ao erro tipo II? AUMENTAVA
Como reduzir o erro tipo II? tornar o alarme mais sensível
nesse caso o que acontecia ao erro tipo I? AUMENTAVA
Erros nos Testes de Hipótese
H0 verdadeira H0 falsa Sem fogo fogo
Aceitar H0 Sem Erro Erro Tipo II Sem alarme Sem Erro Erro Tipo II
Rejeitar H0 Erro Tipo I Sem Erro Alarme Erro Tipo I Sem Erro
probabilidade de não havendo fogo tocar o alarme ()
1- é a nossa confiança no toque do alarme, ou seja,
se 1- é grande quer dizer que quando toca provavelmente não é falso alarme
mas por vezes o que queremos saber é qual a probabilidade de havendo fogo não tocar o
alarme ()
1- é a sensibilidade do alarme ou seja,
se 1- é grande quer dizer que quando não toca provavelmente não há mesmo fogo,
Erros nos Testes de Hipótese
1- é definido por nós quando fazemos um teste de hipótese, ao
definimos o nível se significância ()
para um maior poder (1- ) do teste
• tamanho da amostra maior
• variabilidade das observações menor
• efeito maior
• maior
Usando uma amostra aleatória saber se um parâmetro da
população é igual a um determinado valor ou comparar
duas ou mais populações usando amostras aleatórias.
Testes t
Teste F (OneWay ANOVA)
Carttoon adaptado de: Gonick et al. The cartoon Guide to statistics. 1993 HarperPerennial.
Teste t- uma amostra
Com uma amostra de indivíduos queremos saber se a
média da respetiva população é um determinado valor.
Definimos a Hipótese
H0: A média na população é igual a µ1
H1: A média na população é diferente1 de µ1
Obtemos a estatística do teste com os dados de uma
amostra t = 𝑋−µ1
𝑠 que segue uma distribuição t com n-1 graus de liberdade
𝑛
Teste t - uma amostra
Definimos o nível se significância – usualmente 0.05
Obtemos o valor de p – probabilidade de obter o resultado que
obtivemos ou mais extremo, sendo H0 verdadeira.
Interpretamos o valor de p:
se p < 0.05, temos evidência suficiente para rejeitar H0
se p >= 0.05, não temos evidência suficiente para rejeitar H0
Teste t - uma amostra
Vamos testar se a média do peso ao nascimento é 3300g.
Teste t – duas amostras emparelhadas
Com duas amostras emparelhadas de indivíduos queremos saber se as
médias dos dois grupos na população são iguais.
Definimos a Hipótese
H0: µ1 = µ2 ou µ1 - µ2 = 0
H1: µ1 µ2 ou µ1 - µ2 0
Obtemos a estatística do teste com os dados de uma amostra
t=médias das diferenças/EP das diferenças
que segue uma distribuição t com n-1 graus de liberdade
Obtemos o valor de p
Definimos o nível se significância
Interpretamos o valor de p
Teste t – duas amostras emparelhadas
Foi realizado um estudo com o objectivo de
comparar dois fármacos para as dores de
cabeça. Aos doentes foram dados dois
comprimidos em pacotes indistinguíveis
com a indicação a (novo medicamento) e b
(medicamento antigo) e foi lhes dito para
tomarem o comprimido do pacote a
quando tivessem uma dor de cabeça e para
tomarem o da pacote b na a dor de cabeça
seguinte. Pedia-se também que, depois de
tomarem o medicamento, registassem o
tempo até que a dor passasse.
Será que se pode afirmar que um dos fármacos é mais eficiente que o outro?
Teste t – duas amostras emparelhadas
Vamos testar se existe uma variação na escala global de desenvolvimento
entre os 5 e os 8 anos.
Teste t – duas amostras independentes
Com duas amostras independentes de indivíduos queremos saber
se as médias dos dois grupos na população são iguais.
Definimos a Hipótese
H0: µ1 = µ2 ou µ1 - µ2 = 0
H1: µ1 µ2 ou µ1 - µ2 0
Obtemos a estatística do teste com os dados de uma amostra
t=(X1-X2)-(µ1 - µ2 )/Sp ((1/n1)+(1/n2))
Sp – os dois desvios padrões num só (se as variâncias são iguais)
que segue uma distribuição t com n1+n2-2 graus de liberdade
Obtemos o valor de p
Definimos o nível se significância
Interpretamos o valor de p
Teste t – duas amostras independentes
• E se as variâncias não são iguais, como calcular o sp?
• O teste de Levene testa a hipótese de as variâncias serem
iguais nos dois grupos
• Se não forem iguais não podemos calcular estimativa agrupada
dos desvios padrões (Sp) e temos que recorrer a uma forma
modificada do teste t.
Teste de Levene
• Suponhamos que queremos comparar o perímetro cefálico ao
nascimento nos rapazes e nas raparigas
Teste de Levene
• Neste caso o valor de p para o teste de Levene é p=0.4076.
• Para um nível de significância de 0.05, aceitamos a igualdade
das variâncias entre os dois grupos.
Para α=0.05, rejeitamos H0 porque
p=0.003474 < 0.05
i.e. a diferença de perímetros encontrada
é significativa
Teste de Levene
• No caso de o valor de p para o teste de Levene ser inferior a 0.05, teríamos de
rejeitar a hipótese da igualdade das variâncias entre os dois grupos.
Para α=0.05, rejeitamos H0 porque p=0.003658 < 0.05
i.e. a diferença de perímetros encontrada é significativa
One-Way ANOVA – mais que 2 grupos
Com mais de duas amostras independentes de
indivíduos queremos saber se as médias dos
grupos na população são iguais.
One-Way ANOVA – mais que 2 grupos
Definimos a Hipótese
H0: µ1 = µ2 = ... = µk
Teremos um conjunto de i grupos com ni indivíduos cada,
um total de N indivíduos, uma média de cada grupo xi e uma
média comum X
Exemplo: Pesos em Kg de 3 grupos de indivíduos de
grupos étnicos diferentes (caucasianos, latinos e asiáticos).
Grupo 1: 72; 75; 73; 67; 76; 71; 71; 70; 78; 64 X = 71,70 kg
Grupo 2: 64; 74; 63; 69; 70; 62; 69; 65; 68; 73 X = 67,70 kg
Grupo 3: 58; 59; 61; 63; 66; 53; 68; 69; 61; 57 X = 61,50 kg
X=66,97kg i=3 n1=10 n2=10 n3=10 N=30
One-Way ANOVA
Grupo 1 Grupo 2 ... Grupo k
within groups • • • •
• • • •
Variability
• • • •
• • • •
Variability across groups
One-Way ANOVA
Prova-se que se µ1 = µ2 = ... = µk, então, Between MS e Within MS
Between MS Within MS
Se pelo contrário µ1 µ2 ... µk, então, Between MS será maior
que Within MS
Assim, para testar H0: µ1 = µ2 = ... = µk calcula-se a estatística F
Obtemos a estatística do teste com os dados de uma amostra
F = Between MS / Within MS
Obtemos o valor de p
Definimos o nível se significância
Interpretamos o valor de p
One-Way ANOVA
Voltando ao exemplo:
Pesos em Kg de 3 grupos de indivíduos de grupos étnicos
diferentes (caucasianos, latinos e asiáticos).
H0: µ1 = µ2 = µ3
Grupo 1: 72; 75; 73; 67; 76; 71; 71; 70; 78; 64 X = 71,70
Grupo 2: 64; 74; 63; 69; 70; 62; 69; 65; 68; 73 kg X = 67,70
Grupo 3: 58; 59; 61; 63; 66; 53; 68; 69; 61; 57 kg X = 61,50
X=66,97kg i=3 n1=10 n2=10 n3=10 kg N=30
One-Way ANOVA
One-Way ANOVA
• Outro exemplo: comparação do peso dos recém nascidos em três
diferentes hospitais.
One-Way ANOVA
• Outro exemplo: comparação do peso dos recém nascidos em
quatro categorias de idade gestacional.
One-Way ANOVA
Em algumas situações como a anterior em que há diferenças, é
importante por vezes saber que grupos, são diferentes.
Uma solução é fazer comparações múltiplas (duas a duas). No caso
anterior 6 comparaçõe:
H0: µ1 = µ2 H0: µ1 =µ3 H0: µ1 = µ4
H0: µ2 = µ3 H0: µ2 =µ4 H0: µ3 =µ4
Então… porque é que não fizemos isto desde início?
One-way ANOVA
Suponhamos que H0 é de facto verdadeira.
Definimos o nível de significancia P(type I error) = 0.05 para cada teste
Teremos 6 testes para fazer
Qual a probabilidade de cometer pelo menos um erro de
tipo I?
Será 0.05?
One-way ANOVA
• A probabilidade de cometer um erro de type I em pelo menos um teste é
maior que 0.05!
• Então, depois de fazer uma one-way ANOVA e se queremos identificar
que grupos são diferentes podemos fazer comparações múltiplas mas
temos que corrigir o nível de significância.
• Há várias correcções implementadas no R (Bonferroni, Sheffe, Tuckey, etc)
One-way ANOVA
• Podemos fazer comparações múltiplas, neste caso com
correção de Bonferroni
Verificação da assunção da normalidade
Para verificar a assunção da normalidade podemos usar apenas a
análise visual do histograma da variável na amostra em cada grupo.
Teste de Kolmogorov-Smirnov
O histograma obtido com esta amostra é
Teste de normalidade
compatível com uma população com
distribuição normal?
Teste de Kolmogorov-Smirnov
• A utilidade do teste de K-S é limitada
• Tem muito pouco poder com uma amostra pequena, ou seja,
aceita facilmente a normalidade por falta de informação contrária
• É também muito sensivel quando a amostra é grande, ou
seja, obtem-se um valor de p significativo com pequenos
desvios da distribuição normal na amostra
Teste de Kolmogorov-Smirnov
Teste de normalidade (amostra de 1000 casos com reposição)
Teste t – duas amostras emparelhadas
Com duas amostras emparelhadas de indivíduos queremos saber
se as médias dos dois grupos na população são iguais.
Assunção:
A variável das diferenças é normalmente
distribuída na população.
E se não for?
Teste não paramétricos – amostras emparelhadas
Suponha o seguinte exemplo:
• 20 indivíduos obesos participaram num estudo de avaliação de
uma dieta.
• Cada indivíduo foi pesado antes de iniciar a dieta e 3 meses após
o início da dieta.
• Os resultados foram os seguintes:
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Antes 103 104 141 146 147 106 107 110 109 114 116 117 122 114 118 125 125 118 125 125
Depois 100 95 121 142 143 101 102 105 109 109 113 112 117 117 117 125 125 120 122 122
Teste não paramétricos – amostras emparelhadas
• A variável das diferenças (antes e depois) é normalmente
distribuída na população?
• não, então:
• Precisamos de usar um teste não paramétrico
• O teste do sinal e o teste de Wilcoxon são testes não
paramétricos aplicados em amostras emparelhadas
(como o teste t para amostras emparelhadas)
Teste do sinal – amostras emparelhadas
• Voltando ao exemplo, vamos primeiro verificar em cada
indivíduo se houve perda ou ganho de peso
Patient ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Antes 103 104 141 146 147 106 107 110 109 114 116 117 122 114 118 125 125 118 125 125
Depois 100 95 121 142 143 101 102 105 109 109 113 112 117 117 117 125 125 120 122 122
Sinal - - - - - - - - = - - - - + - = = + - -
• 15 indivíduos perderam peso (sinal -) e 2 ganharam peso (sinal +)
• Se a dieta não tivesse efeito deveríamos observar um número
semelhante de perdas e ganhos de peso
Teste do sinal – amostras emparelhadas
• Então se a dieta não tiver efeito qual a probabilidade de observar em 20
indivíduos um resultado tão ou mais extremo do que 15 perdas (sinal -) e 2
aumentos de peso (sinal +)?
• Este teste é designado pelo teste
do sinal.
• Para um nível de significância de 0.05 rejeitamos a hipótese nula e concluímos
que a dieta tem efeito
Teste do sinal – amostras emparelhadas
• O teste do sinal ignora muita da informação, pois apenas leva em
consideração se houve perda ou aumento de peso.
• Não seria interessante um teste que levasse em consideração se os que
perderam peso perderam tantos Kg como os kg que engordaram os que
ganharam peso?
✓ teste de Wilcoxon signed-rank.
Teste Wilcoxon signed-rank
• Para cada indivíduo vamos agora registar a diferença de peso
(valor absoluto) e o sinal da diferença (+ se foi aumento de
peso, - se foi perda de peso)
Patient ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Antes 103 104 141 146 147 106 107 110 109 114 116 117 122 114 118 125 125 118 125 125
Depois 100 95 121 142 143 101 102 105 109 109 113 112 117 117 117 125 125 120 122 122
|A-D| 3 9 20 4 4 5 5 5 0 5 3 5 5 3 1 0 0 2 3 3
Sinal - - - - - - - - = - - - - + - = = + - -
Teste Wilcoxon signed-rank
• Ordenamos todas as diferenças (excluindo os zeros) e
registamos o rank (posição) de cada
|A-D| 1 2 3 3 3 3 3 4 4 5 5 5 5 5 5 9 20
Rank 1 2 5 5 5 5 5 8.5 8.5 12.5 12.5 12.5 12.5 12.5 12.5 14 15
Sinal - + + - - - - - - - - - - - - - -
• No caso de empates damos a posição média. Por exemplo existem 5
indivíduos com diferença (positiva ou negativa) de 3Kg. Estes
corresponderiam às posições 3º, 4º, 5º, 6º e 7º; como são empates
atribuímos-lhes a posição média (5º).
Teste Wilcoxon signed-rank
|A-D| 1 2 3 3 3 3 3 4 4 5 5 5 5 5 5 9 20
Rank 1 2 5 5 5 5 5 8.5 8.5 12.5 12.5 12.5 12.5 12.5 12.5 14 15
Sinal - + + - - - - - - - - - - - - - -
• A soma dos ranks dos 15 indivíduos que perderam peso
(sinal -) é:
1+5+5+5+5+8.5+8.5+12.5+12.5+12.5+12.5+12.5+12.5+14+15
= 146
ou seja as perdas de peso (sinal -) têm um rank médio =146/15 = 9.73
• A soma dos ranks dos 2 indivíduos que ganharam peso (sinal +) é: 2+5= 7
ou seja, os ganhos de peso (sinal +) têm um rank médio de 7/2 = 3.5
Se a dieta não tivesse efeito era de esperar observar um rank médio idêntico para
as perdas e aumentos de peso
Teste Wilcoxon signed-rank
• O valor p é então calculado como a probabilidade de observar uma
diferença tão ou mais extrema como 9.73 vs 3.5, se a dieta não tivesse
efeito
Teste t – duas amostras independentes
Com duas amostras independentes de indivíduos queremos
saber se as médias dos dois grupos na população são iguais.
Assunção:
A variável é normalmente distribuída na população.
E se não for?
Teste não paramétrico: Mann-Whitney U test
Teste Mann-Whitney U
• Se os grupos não forem emparelhados podemos usar o teste de
Mann-Whitney
• Ordenam-se os valores independentemente do grupo a que
pertence. Calcula-se a soma dos ranks, R1, para um dos grupos
• São calculadas as seguintes estatísticas
+ nA (nA +1) − R .
U = n An B 1
2
Se U nAnB , então usamos a estatística U = n An B −U
2
• Usando uma aproximação à normal, obtemos o valor p associado à estatística do teste
Teste Mann-Whitney U - exemplo
Pretende-se estudar o efeito da cafeína no metabolismo muscular medido pela razão
das trocas de Co2 e O2 (RER)
Placebo Cafeína
%RER %RER
105 96
RER elevado (típico durante o
119 exercício físico) indica que o 99
100 organismo está a produzir 94
97 mais CO2 e a consumir mais O2 89
96 96
101 93
94 88
95 105
98 88
Teste Mann-Whitney U
• Como no teste de Wilcoxon vamos ordenar todos os valores
atribuindo-lhes o rank e registando a qual grupo pertencem (P -
placebo ou C - cafeína)
RER 88 88 89 93 94 94 95 96 96 96 97 98 99 100 101 105 105 119
Rank 1.5 1.5 3 4 5.5 5.5 7 9 9 9 11 12 13 14 15 16.5 16.5 18
Grupo
C C C C P C P P C C P P C P P P C P
• Se não existisse efeito da cafeína os “C’s” e os “P’s” na tabela
deveriam estar misturados
• Se houver efeito os C’s devem concentrar-se nos ranks menores e
os P’s nos ranks maiores
Teste Mann-Whitney U
Qual é a probabilidade de observar uma distribuição de P’s e C’s tão ou
mais extrema do que esta, se a cafeína não tiver efeito?
H0: Não há diferenças na (RER) dos dois
grupos
One-Way ANOVA
Com mais de duas amostras independentes de indivíduos queremos saber
se as médias dos grupos na população são iguais.
Assunção:
A variável é normalmente distribuída na população.
As variâncias são iguais em todos os grupos na população
E se não for?
Teste não paramétrico: Kruskal-Wallis Test
Kruskal-Wallis Test
Exemplo: Pesos em Kg de 3 grupos de indivíduos de 3 grupos étnicos
diferentes Grupo 1: 72; 75; 73; 67; 76; 71; 71; 70; 78; 64
Grupo 2: 64; 74; 63; 69; 70; 62; 69; 65; 68; 73
Grupo 3: 58; 59; 61; 63; 66; 53; 68; 69; 61; 57
Organizam-se todos os valores por ordem crescente de modo a cada
valor ter uma posição atribuída ...
...
grupo 3 3 3 3 3 3 2 2 3 1 2 2 3 1 2
peso 53 57 58 59 61 61 62 63 63 64 64 65 66 67 68
...
...
3 2 2 3 1 2 1 1 1 1 2 2 1 1 1
68 69 69 69 70 70 71 71 72 73 73 74 75 76 78
Kruskal-Wallis Test
Calcula-se a estatística: k
12 Ri
H= − 3(N +1)
N (N +1) i=1 ni
N = nº total de indivíduos
ni = nº de indivíduos no grupo i
Ri = soma das posições no grupo i
Segue distribuição de Qui-quadrado com k-1 graus de liberdade
Kruskal-Wallis Test
grupo peso ordem ... ... ...
3 68 15.5
3 53 1
2 69 18
3 57 2
3 58 3 2 69 18
3 69 18
Grupo3 :
3 59 4
3 61 5.5
1 70 20.5 (1+2+3+4+5.5+5.5+8.5+13+15.5+18)/10 = 7.6
2 70 20.5
3 61 5.5
2 62 7 1 71 22.5
2 63 8.5 1 71 22.5
3 63 8.5 1 72 24
1 64 10.5 1 73 25.5
2 64 10.5 2 73 26
2 65 12 2 74 27
3 66 13 1 75 28
1 67 14 1 76 29
2 68 15.5 1 78 30
... ... ...