Universidade Católica de Moçambique
Instituto de Educação à Distância
Teste não Paramétrico
Nome do estudante: Sualei Mussa Sualei, Código: 703220117
Curso: Licenciatura em Economia e Gestão
Disciplina: Estatística II
Ano de frequência: 2º Ano
Nampula, Outubro de 2023
Universidade Católica de Moçambique
Instituto de Educação à Distância
Teste não Paramétrico
Nome do estudante: Sualei Mussa Sualei, Código: 703220117
Trabalho de carácter avaliativo a ser entregue
na Faculdade de Educação da Universidade
Católica de Moçambique, extensão de
Nampula no curso der licenciatura em
Economia e Gestão, na cadeira de Estatística
II, leccionada pelo tutor:
M.A. Abubacar Assumane
Nampula, Outubro de 2023
ii
Índice
Introdução...................................................................................................................................3
1. Teste não paramétrico.............................................................................................................4
1.1 Uso de tabelas Chi Quadrado................................................................................................4
1.2 Teste Chi Quadrado para experiências multinomiais...........................................................7
1.2.1 O teste de aderência sobre probabilidades multinomiais...................................................8
1.2.2 Relações entre χ2, valor P e aderência...............................................................................9
1.3 Teste de homogeneidade ou uniforme................................................................................10
1.4 Exercícios propostos...........................................................................................................13
Conclusão..................................................................................................................................14
Referências bibliográficas.........................................................................................................15
3
Introdução
Quando as suposições exigidas pelos testes paramétricas não são satisfeitas, ou quando
precisamos analisar dados qualitativos surge a necessidade de recorrermos aos testes não
paramétricos. O presente trabalho da cadeira de Estatística II intitulado: “Testes não
paramétricos” descreve os testes não paramétricos com particular enfoque para o uso de
tabelas e testes Chi Quadrado para experiências multinomiais e testes de Homogeneidade.
Assim, definem-se os seguintes objectivos específicos para concretizar o geral:
Explicar até que ponto se emprega o teste não paramétrico;
Explicar os procedimentos do uso de tabelas Chi Quadrado;
Explicar os procedimentos do teste Chi Quadrado para experiências multinomiais;
Explicar os procedimentos do teste de homogeneidade ou uniforme.
A pertinência deste trabalho surge na medida em que vai-nos permitir compreender a
aplicação dos testes não paramétricos, especialmente teste Chi Quadrado.
Do ponto de vista metodológico, baseamo-nos no método de abordagem qualitativo, cuja
pesquisa classificou-se, quanto aos fins, como descritiva e explicativa, e quanto aos meios,
como virtual e bibliográfica, pois consultamos obras (electrónicas e físicas) de Estatística, que
abordam sobre os temas acima, onde destacamos autores como: Bussab e Moretin (2003);
Spiegel (1994); Freund e Simon (2000); Costa (2002) e; Pedrosa e Gama (2004), que estão
patentes no texto e nas referências bibliográficas. Para a composição do conteúdo patente no
trabalho, usamos o método de análise de conteúdo.
Quanto a estrutura deste trabalho, importa salientar que o mesmo está organizado em capa,
folha de feedback, um índice completo, esta introdução, seguindo-se do desenvolvimento,
conclusão e referências bibliográficas.
4
1. Teste não paramétrico
Spiegel (1994) afirma que “os testes não-paramétricas servem para pequenas amostras, e são
intuitivamente atraentes. Na prática, considera-se que os valores esperados sejam ≥ 5 para
uma aproximação satisfatória” (p.219). Podem, pois, ser usados “quando as suposições
exigidas pelos testes paramétricas não são satisfeitas, ou quando não é possível verificar essas
suposições, em razão do pequeno tamanho da amostra. Além disso, em muitas situações
precisamos analisar dados qualitativos e os testes não-paramétricos são muito úteis nesse
caso” (Triola, 2008, p.468).
Considerando o exposto acima pode-se afirmar que um teste não paramétrico é aquele que
não depende dos parâmetros populacionais, como média e variância.
1.1 Uso de tabelas Chi Quadrado
Segundo Triola (2008), “O que é tabelado é a função inversa, em relação a área à direita de
cada curva (uma para cada linha), isto é, dado um valor de área na cauda direita (a), a tabela
2
retorna um valor “x” tal que P( χ ≥x )=α ” (p.468).
A tabela de Chi Quadrado mostra o número de Graus de liberdade nas linhas e o valor da
2
probabilidade nas colunas. O corpo da tabela é constituído por valores Chi Quadrado1 ( χ ).
Existe uma variedade de tabelas, concretamente aos valores das probabilidades, mas a tabela
que nós vamos aprender aqui é a mais simples e reduzida só para ter a ideia central dos
procedimentos de uso.
P( X > χ 2gl ; P )=P
gl/P 0,99 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001
1 ,0002 0,004 0,016 0,064 0,148 0,455 1,074 1,642 2,706 3,841 5,412 6,635 10,827
2 0,020 0,103 0,211 0,446 0,713 1,386 2,408 3,219 4,605 5,991 7,824 9,210 13,815
3 0,115 0,352 0,584 1,005 1,424 2,366 3,665 4,642 6,251 7,815 9,837 11,34 16,266
5
4 0,297 0,711 1,064 1,649 2,195 3,357 4,878 5,989 7,779 9,488 11,668 13,27 18,467
7
5 0,554 1,145 1,610 2,343 3,000 4,351 6,064 7,289 9,236 11,07 13,388 15,08 20,515
1
Chi Quadrado – lê-se Qui-Quadrado
5
0 0
6 0,872 1,635 2,204 3,070 3,828 5,348 7,231 8,558 10,645 12,59 15,033 16,81 22,457
2 2
7 1,239 2,167 2,833 3,822 4,671 6,346 8,383 9,803 12,017 14,06 16,622 18,47 24,322
7 5
8 1,646 2,733 3,490 4,594 5,527 7,344 9,524 11,03 13,362 15,50 18,168 20,09 26,125
0 7 0
9 2,088 3,325 4,168 5,380 6,393 8,343 10,656 12,24 14,684 16,91 19,679 21,66 27,877
2 9 6
10 2,558 3,940 4,865 6,179 7,267 9,342 11,781 13,44 15,987 18,30 21,161 23,20 29,588
2 7 9
11 3,053 4,575 5,578 6,989 8,148 10,34 12,899 14,63 17,275 19,67 22,618 24,72 31,264
1 1 5 5
12 3,571 5,226 6,304 7,807 9,034 11,34 14,011 15,81 18,549 21,02 24,054 26,21 32,909
0 2 6 7
13 4,107 5,892 7,042 8,634 9,926 12,34 15,119 16,98 19,812 22,36 25,472 27,68 34,528
0 5 2 8
14 4,660 6,571 7,790 9,467 10,821 13,33 16,222 18,15 21,064 23,68 26,873 29,14 36,123
9 1 5 1
15 5,229 7,261 8,547 10,30 11,721 14,33 17,322 19,31 22,307 24,99 28,259 30,57 37,697
7 9 1 6 8
16 5,812 7,692 9,312 11,15 12,624 15,33 18,418 20,46 23,542 26,29 29,633 32,00 39,252
2 8 5 6 0
17 6,408 8,672 10,085 12,00 13,531 16,33 19,511 21,61 24,769 27,58 30,995 33,40 40,790
2 8 5 7 9
18 7,015 9,390 10,865 12,85 14,440 17,33 20,601 22,76 25,989 28,86 32,346 34,80 42,312
7 8 0 9 5
19 7,633 10,11 11,651 13,71 15,532 18,33 21,689 23,90 27,204 30,14 33,687 36,19 43,820
7 6 8 0 4 1
20 8,260 10,85 12,443 14,57 16,266 19,33 22,775 25,03 28,412 31,41 35,020 37,56 45,315
1 2 7 8 0 6
Por exemplo, para consultar o valor Chi-Quadrado correspondente a 8 graus de liberdade ao
nível de 0,05 ou 5%, ou seja, P ( χ 8≥x )=0 , 05 , devemos percorrer na primeira fila da
2
esquerda até encontrar o número 8 de graus de liberdade e, na fila de cima vamos procurar o
número 0,05. O valor Chi-Quadrado será obtido na intersecção das coordenadas linha e
coluna, conforme ilustra o esquema abaixo (Triola, 2008).
6
Simbolicamente pode-se escrever assim: P ( χ 8≥15 , 507 )=0 , 05 ; cuja representação da área
2
abaixo da curva correspondente é:
Pode-se determinar a probabilidade ( α ) de ocorrência do evento a partir de informações sobre
graus de liberdade e valor de Chi Quadrado. Para tal, primeiramente deve-se identificar o
valor de Chi Quadrado percorrendo-se a linha do valor de Graus de Liberdade e daí identificar
a probabilidade correspondente.
Exemplos: Seja X uma variável aleatória com distribuição do Chi-Quadrado. Determine:
a) P( χ 2 ≥4 ,605 )
2
b) P ( χ 6 ≥0 , 676 )
2
c) P ( χ 6 ≥0 , 872 )
2
Solução: a) 0,1 b) 0,995 c) 0,99
Uma outra tabela mais detalhada contem mais valores que a tabela mostrada acima. Nessa
tabela, ".100" significa 10% e ".010" significa 1%. Isso ajuda na interpretação correcta dos
limiares.
A área sombreada é igual a α para
7
Fonte: Triola (2008)
Em relação ao uso de tabelas podemos afirmar que através da tabela pode-se determinar o
valor Chi-Quadrado dados o grau de liberdade e a probabilidade (α ) de ocorrência do evento x
ou z (áreas), assim como também é possível determinar a probabilidade ( α ) de ocorrência do
evento x ou z (áreas) a partir dos valores Chi-Quadrado. É indispensável dominar a leitura das
2
tabelas de distribuição χ , dado que o modelo acima não é único, mas é mais ideal e simples
de todos, na minha humilde opinião.
1.2 Teste Chi Quadrado para experiências multinomiais
O teste Chi-quadrado, simbolizado por 2, é utilizado para testar a significância da associação
observada entre categorias numa tabela cruzada ou de contingência (Mayer, 2000). Para Costa
8
(2002) afirma que trata-se de um teste que ajuda a determinar um valor da dispersão para duas
variáveis nominais, avaliando a associação existente entre variáveis qualitativas.
𝑔𝑙 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒𝑠 – 1
Testes de significância são técnicas de estatística inferencial, no qual por meio de uma
amostra, obtém-se evidência estatística para atestar que os resultados encontrados possam ser
interpretados para a população no qual a amostra foi extraída.
Para aplicar o teste Chi Quadrado as seguintes proposições precisam ser satisfeitas:
Os grupos são independentes;
Os itens de cada grupo são seleccionados aleatoriamente;
As observações devem ser frequências ou contagens;
Cada observação pertence a uma e somente uma categoria;
A amostra deve ser relativamente grande (pelo menos 5 observações em cada célula e,
no caso de poucos grupos – pelo menos 10 – exemplo: em tabelas 2x2.
Para Pedrosa e Gama (2004), o teste multinomial é efectivamente uma versão estendida do
teste Binomial para uso com conjuntos de dados categóricos contendo três ou mais factores.
Isso testa se a frequência da amostra é ou não estatisticamente diferente de uma frequência
populacional hipotética (teste multinomial) ou de uma conhecida (teste de “aderência” do
Chi-quadrado).
Segundo Pedrosa e Gama (2004), “este experimento satisfaz as seguintes condições:
Número de tentativas é fixo.
Tentativas são independentes.
Todos resultados de cada tentativa devem ser classificados em exactamente uma das
várias diferentes categorias.
Probabilidades para diferentes categorias permanecem constantes para cada tentativa.
É testada afirmativa de que frequências observadas nas diferentes categorias se
ajustam a uma distribuição alegada” (p.185).
Exemplo de v.a. multinomial:
Aplica-se a variáveis qualitativas nominais e ordinais.
Candidato a vereador escolhido por um eleitor.
Nota da avaliação de um produto ou app.
Signo de uma pessoa.
9
Bebida do cardápio escolhida pelo cliente.
Grau de escolaridade de gerente.
Tipo sanguíneo de uma pessoa.
Categoria de CNH de um motorista.
1.2.1 O teste de aderência sobre probabilidades multinomiais
De acordo com Freund e Simon (2000), “o teste de aderência (bondade de ajuste) é usado para
testar a hipótese de que uma distribuição de frequência observada se ajusta (ou concorda com)
alguma distribuição teórica especificada” (p.81).
Sejam as hipóteses, nula e alternativa:
H0 : p1 = p01, p2 = p02; · · · ; pk = p0k .
Ha : pelo menos um pi p0i; i {1, …, k}.
A estatística de teste é:
k
( ni −E( n i )) 2 ( n1 −E ( n1 ) )2 ( nk −E ( n k ) ) 2
χ =∑
2
= +.. .+
i =1 E( n i ) E ( n1 ) E( n k )
Onde: E( ni )=np01 é a frequência esperada, ou seja, o número esperado da classe i assumindo
que a hipótese nula é verdadeira e n é o tamanho da amostra (Freund & Simon, 2000).
1.2.2 Relações entre χ2, valor P e aderência
2 2 2
Rejeita-se a hipótese nula H0 ao nível de significância α se χ > χ α , onde χ α é o quantil
superior da distribuição Chi-Quadrado com k−1 graus de liberdade (Bussab &Moretin, 2003).
10
Fonte: Bussab e Moretin, (2003)
Exemplo: preferência pela marca de pão
Um supermercado quer estudar a preferência dos clientes quanto a marca de pão.
São 3 marcas: A, B e a C (própria do supermercado).
Existem n = 150 registos de compras dos pães, onde apenas 1 deles ocorre (condição
para ser mutuamente exclusivo).
Assume-se que os n = 150 clientes são uma amostra aleatória da população de clientes
do supermercado interessadas em pães.
p1, p2 e p3 (desconhecidos) são a proporção de clientes que preferem cada marca.
A hipótese nula é H0 : p1 = p2 = p3 = 1/3, ou seja, np0i = 50 para qualquer i.
11
Figura: Frequência para cada marca de pão.
Com os dados do gráfico, a estatística de teste é
( 42−50 )2 ( 65−50 )2 ( 43−50 )2
χ 2= + + =6 ,76
50 50 50
2
O quantil para α = 0,05 com 2 graus de liberdade é χ 0 , 05=5 , 991 .
Portanto, rejeita-se a hipótese nula ao nível nominal de 5% de significância.
1.3 Teste de homogeneidade ou uniforme
Amostras podem ser extraídas de populações diferentes e desejamos determinar se essas
populações têm as mesmas proporções da característica em consideração. Em um teste de
homogeneidade, testamos a afirmativa de que populações diferentes têm a mesma proporção
de alguma característica (Bussab & Moretin, 2003).
Ao realizar um teste de homogeneidade, podemos usar mesmos requisitos, estatística de teste,
valor crítico e demais procedimentos já apresentados (Bussab & Moretin, 2003).
Excepção é que em vez de testar a hipótese nula de independência entre as variáveis linha e
coluna, testamos a hipótese nula de que as diferentes populações têm as mesmas proporções
de alguma característica (Bussab & Moretin, 2003).
12
Consideremos o exemplo: Natureza de vacas, segundo a raça e o tipo de acasalamento
Tipo de acasalamento
Raça Fecundos Não-fecundos Total
Charolesa 110 (120) 50 (40) 160
Gir 70 (60) 10 (20) 80
Nelore 30 (30) 10 (10) 40
Total 210 70 280
Se um critério envolve m categorias (linhas) e o outro n categorias (colunas), a tabela é
referida como tabela m x n. No exemplo, a tabela é 3 x 2.
Utilizando o exemplo iremos testar a igualdade das proporções de acasalamentos fecundos (e
não fecundos) nas três raças. Vejamos os passos a seguir:
1. Estabelecer H0 e H1
A hipótese nula de homogeneidade que a proporção de cada tipo de acasalamento é a mesma
para todas as raças, pode ser formalmente estabelecida como:
H0: pCh(j) = pGir(j) = pNe(j) para cada j = 1 (fecundo) e 2 (não fecundo)
Ou simplesmente,
{H0: a proporção de acasalamentos fecundos é a mesma nas três ¿{ raças ou seja, pCh= pGir= pNe.Assim,¿¿¿¿
2. Calcular as fe’s sob a hipótese H0 ser verdadeira
Dos 280 animais 210 fecundos
160 .210
X= =120
Dos 160 Charolês X fecundos 280
Analogamente,
Dos 280 animais 210 fecundos
80 .210
X= =60
Dos 80 Gir X fecundos 280
Todas as demais fe’s podem ser calculadas por diferença (os valores calculados estão entre
parênteses na tabela). Diz-se então que há 2 graus de liberdade. Isso corresponde a (m – 1) . (n
– 1) graus de liberdade, ou seja:
r = (m – 1) . (n – 1) = (3 – 1) . (2 – 1) = 2
13
Este procedimento pode ser interpretado como: dados os totais marginais, calcula-se que
números seriam esperados na tabela a fim de tornarem as proporções de fecundidade para as
três raças exactamente iguais. Assim, na célula da 1ª linha e 1ª coluna esse número esperado é
(210/280).160 = 120, já que a proporção de fecundidade geral é 210/280 e há 160 indivíduos
na raça Charolesa. Prosseguindo-se dessa forma obtêm-se os demais números esperados.
3. Calcular o valor da estatística
( f 0 −f e )2 (110−120 )2 (10−10 )2
χ 2obs= ∑∑ fe = +.. .+ =9 ,99
m n 120 10
4. Determinar a região crítica
2
com gl = (m – 1) . (n – 1) = (2) . (1) = 2 e = 5% χ c =5 , 99
RC = {2 > 5,99}
5. Estabelecer a regra de decisão
2 2
Rejeitar H0 se χ obs≥ χ c =5 , 99
6. Concluir
Como
χ 2obs> χ 2c , rejeita-se H0 ou seja, as fecundidades das raças não são todas
estatisticamente iguais, ao nível de 5%.
Como H0 foi rejeitada, deve-se continuar a investigação, comparando-se as raças duas a duas,
para se verificar quem difere de quem em termos do critério analisado.
14
1.4 Exercícios propostos
2
1. Sendo gl = 25, determine os valores Chi-Quadrado na distribuição, isto é, χ 0 , 025 ( inf ) e
χ 20 , 025 (sup. ) :
2. Um modelo de automóvel ´e vendido em quatro versões: SX, LX, GLX, GTX. Foi
feita uma campanha publicitária para melhorar as vendas das versões GLX e GTX.
Posteriormente, foi verificada a escolha das versões em 500 vendas escolhidas ao acaso. Os
resultados foram:
De acordo com o fabricante, a participação de cada versão nas vendas deste modelo até a
realização da campanha era 40% de SX, 30% de LX , 20% de GLX e 10% de GTX.
Utilize Teste Chi-Quadrado, com o nível de significância de 2,5%, para verificar se houve ou
não mudanças na participação de cada versão nas vendas após a campanha.
Sugestão: A tarefa, sendo colocada em termos matemáticos precisos, soa assim: Verifique,
usando Teste Qui-quadrado, com o nível de significância de 2,5%, se os dados da tabela (a
distribuição amostral) sugiram que a participação de cada versão nas vendas (quer dizer, a de
todas as vendas, ou, em outras palavras, a distribuição populacional de vendas) após a
campanha publicitaria continua na mesma proporção que houve antes da campanha.
Soluções:
2 2
1. χ 0 , 975 ( inf )=13 , 1 e χ 0 , 025 (sup. )=40 , 6
2. No caso do presente exercício, χ 2obs = 6, 9167 enquanto que χ2α = 9, 348. Seguindo a regra,
aceita-se a hipótese nula.
15
Conclusão
O trabalho em término tinha objectivo de descrever os testes não paramétricos com particular
enfoque para o uso de tabelas de Chi-Quadrado e testes Chi Quadrado para experiências
multinomiais e testes de Homogeneidade e esse objectivo está alcançado. Durante a pesquisa
efectuada ficou a ideia de que para usar uma tabela de Chi Quadrado deve-se partir do
conhecimento de que ela contém o número de Graus de liberdade nas linhas e o valor da
χ2
probabilidade nas colunas. O corpo da tabela é constituído por valores Chi Quadrado ( ).
Conclui-se também que quando o interesse do pesquisador é avaliar a associação entre duas
variáveis categóricas, ou realizar uma comparação de uma variável categórica entre dois (ou
mais) grupos, ou ainda, verificar se a amostra apresenta as mesmas proporções de outro
estudo, utilizamos os testes de Chi-Quadrado (Χ2) de associação, heterogeneidade e de
ajustamento, respectivamente. O teste de Chi-Quadrado é um teste não paramétrico, ou seja,
não depende dos parâmetros populacionais, como média e variância. O teste baseia-se na
comparação das proporções, isto é, as possíveis divergências entre as frequências observadas
e esperadas para um certo evento.
No tocante aos testes de hipóteses importa destacar que ao fixar de decisões, é conveniente a
formulação de hipóteses acerca das populações de interesse. Essas suposições que podem ser
verdadeiras ou não, chamam se hipóteses Estatísticas. Os testes de hipóteses são uma segunda
vertente da inferência estatística, tendo por objectivo verificar, a partir de dados observados
numa amostra, a validade de certas hipóteses relativas à população.
Aprendeu-se ainda que o teste de homogeneidade é apropriado para estudar a igualdade das
distribuições condicionais de uma variável resposta categórica correspondentes a diferentes
níveis de uma variável preditora também categórica. Este teste serve para avaliar
quantitativamente a relação entre o resultado de um experimento e a distribuição esperada
para o fenómeno.
16
Referências bibliográficas
Bussab, W. de O. & Moretin, P. A. (2003). Estatística Básica (5ª Ed.). São Paulo: Saraiva.
Costa, N. P. L. de O. (2002). Estatística (2ª Ed.). São Paulo: Edgar Blucher.
Freund, J. E. & Simon, G. A. (2000). Estatística aplicada – economia, administração e
contabilidade. Porto Alegre: Bookman.
Mayer, P.L. (2000). Probabilidade: Aplicações à Estatística (2ª Ed.). Rio de Janeiro: LTC.
Pedrosa, A.C. & Gama, M.A. (2004). Introdução Computacional à Probabilidade e
Estatística. Porto Editora. Porto.
Spiegel, M.R. (1994). Estatística (4ª Ed.). São Paulo: Makron.
Triola, M.F. (2008). Introdução à estatística (10ª Ed). Rio de Janeiro: LTC. Capítulo 11
(pp.468-505).