Análise estatística I
Introdução
1. Definição e importância
Definição de estatística
Área da matemática que lida com a recolha, análise, interpretação, organização
e apresentação de informação
Permite não só organizar e resumir grandes quantidades de informação que
caso contrário seriam de difícil interpretação, como também permite deduzir
conclusões sobre populações com base em dados recolhidos em amostras
representativas
A Psicologia é uma ciência que se dedica a estudar o comportamento humano. Tal
como outras áreas científicas, usa o método científico, fundamentando as suas teorias
e assunções em dados objetivos provenientes de observação/experimentação. Assim, a
estatística desempenha um papel fundamental na Psicologia (e não só) fornecendo
ferramentas necessárias para:
Planear corretamente recolhas de informação (dados)
Organizar grandes quantidades de informação de forma a que esta seja
interpretável [Estatística descritiva]
Analisar dados testando hipóteses e fazendo previsões para a população em
questão [Estatística inferencial]
Lidar com a variabilidade comportamental
Em suma, a estatística contribui para uma compreensão mais precisa e objetiva do
comportamento humano, reforçando a base científica da psicologia.
Estatística descritiva vs. inferencial
Estatística divide-se em duas grandes áreas:
Estatística descritiva: O objetivo é:
1. resumir:
tabelas de frequências
medidas de tendência central: e.g., média, moda, mediana, quantis
medidas de dispersão: e.g., desvio-padrão, amplitude interquartil, desvio absoluto
à mediana
medidas de forma: e.g., assimetria ou skewness, achatamento ou kurtose
medidas de associação: e.g., coeficiente de correlação de Pearson, Spearman, V de
Cramer
2. representar informação (através de gráficos)
Estatística inferencial: O objetivo é generalizar (inferir) resultados de uma amostra
para a população
Amostragem
O que é?
- Conjunto de procedimentos estatísticos usados para selecionar amostras das
populações em estudo.
Existem 2 grandes tipos de amostragem:
Amostragem Aleatória, Causal ou Probabilística
Amostragem Não Aleatória ou Não-Probabilística
Amostragem Aleatória, Causal ou Probabilística
Método de amostragem em que cada elemento da população tem uma
probabilidade conhecida e igual de ser selecionado para a amostra e todas
as amostras são igualmente prováveis. Isto é, as amostras são obtidas de
forma aleatória e todos os N indivíduos da população têm a mesma
probabilidade de serem selecionados para a amostra.
Permite fazer inferências para a população
Pode ser:
Amostragem Aleatória Simples: Todos os elementos da amostra são selecionados
completamente ao acaso, usando métodos como sorteios aleatórios ou números
aleatórios (Nem sempre resulta em amostras representativas, podendo sub-
representar grupos minoritários)
Amostragem estratificada: A população é dividida em subgrupos homogéneos ou
estratos (grupos etários, sexo, estatuto socioeconómico). Em seguida, uma amostra
aleatória é selecionada de cada estrato garantindo que cada subgrupo da população,
seja representado proporcionalmente na amostra final. (Garante a representação de
grupos minoritários na população).
Amostragem Aleatória Sistemática: Os elementos são escolhidos a intervalos
regulares, começando de forma aleatória. Por exemplo, podemos selecionar um
indivíduo em cada 10 premiados num determinado jogo de azar [e.g., indivíduo 1, 11,
21, 31...]
Amostragem Aleatória por Clusters: A população é dividida em grupos chamados
clusters, e alguns clusters são selecionados aleatoriamente para formar a amostra. Essa
abordagem é útil quando a população é naturalmente agrupada em clusters [e.g.,
Freguesias]
Amostragem Aleatória Multi-Etapas: Combina 2 ou mais dos métodos descritos acima
Amostragem Não Aleatória, ou Não-Probabilística
Método de amostragem em que não segue um processo aleatório e não garante que
todos os elementos da população tenham uma chance igual de serem escolhidos. Em
vez disso, os participantes são selecionados com base em critérios específicos ou por
conveniência.
Podem ou não ser representativas tornado a realização de inferências para a população
complicadas
Exemplos de Amostragem Não Aleatória, ou Não-Probabilística:
Amostragem de Conveniência: Os elementos da amostra são escolhidos de forma não
sistemática, com base na conveniência, disponibilidade ou familiaridade (e.g., amigos,
colegas ou aqueles prontamente disponíveis)
Amostragem Objetiva: Os elementos são selecionados com base em critérios
específicos ou objetivos predefinidos, como pacientes com determinado critério de
inclusão (e.g., indivíduos que sofreram ataques cardíacos ou pacientes com episódios
de demência)
Amostragem Modal: Envolve a escolha de elementos que representam os tipos mais
frequentes ou comuns na população (e.g., clientes típicos, eleitores típicos ou
pacientes típicos)
Amostragem de Especialistas: Os elementos da amostra são especialistas em uma área
específica, como um painel de comentadores ou um painel de médicos, sendo
selecionados pela sua experiência e conhecimento especializado
Amostragem de Bola de Neve: Os elementos da amostra são identificados inicialmente
e, em seguida, sugerem novos elementos para a amostra (e.g., clientes com crédito à
habitação sugerindo amigos nas mesmas condições)
Variáveis e Escalas de Medida
Variável: Formalmente a definição de variável é uma entidade estatística cuja
manifestação assume pelo menos dois atributos. Pode ser qualitativa ou quantitativa e
normalmente é representada por x, y, z.
De forma menos formal:
No processo de análise estatística, o investigador depara-se com "algo" que precisa
medir, controlar ou manipular. Este "algo" designa-se por variável (i.e. algo que varia,
que não é constante ao longo de todos os elementos da amostra).
A informação que cada variável pode fornecer, depende de como esta foi medida. Em
1946, Stevens propôs o que chamou de escalas de medida, classificando as variáveis de
acordo com a informação que podem fornecer.
Variáveis qualitativas:
Nominal: Qualidades onde não é possível estabelecer qualquer tipo de ordenação
entre as mesmas (variáveis que definem grupos ou características: e.g., género, cor dos
olhos, nacionalidades etc.).
Ordinal: Categorias/qualidades onde é possível estabelecer uma determinada ordem
através segundo uma relação descritível, mas não quantificável (é possível ordenar,
mas não quantificar (e.g., Estatuto socioeconómico, risco de incêndio, grau de
satisfação, nível de dor)
Variáveis quantitativas:
Intervalares: Valores mensuráveis que podem ser discretos ou contínuos,
apresentando distâncias fixas entre os valores na escala. No entanto, essas escalas não
possuem um zero absoluto (e.g., Ql, temperatura). Ou seja, embora as diferenças entre
os valores sejam consistentes, a ausência de um zero absoluto implica que zero não
indica a completa ausência da característica medida.
Razão: Valores mensuráveis que podem ser discretos ou contínuos, apresentando
distâncias fixas entre os valores na escala, incluindo um zero absoluto (e.g., velocidade,
peso e altura). A presença de um zero absoluto nessas escalas significa que o zero
indica a ausência completa da característica medida, tornando essas variáveis mais
robustas para análises e interpretações numéricas.
Estatística descritiva
Como o nome indica pretende descrever os dados. Quando temos bases de dados com
muitas observações não as conseguimos compreender sem algum tipo de resumo. Por
isso, precisamos de ferramentas (estatísticas) que nos permitam resumir e descrever os
dados.
Importante: Como em qualquer resumo perdemos informação e às vezes pode ser
informação importante. O que devemos fazer é olhar para diferentes resumos dos
dados, que nos informam sobre aspetos diferentes, para chegar a um meio termo
entre simplicidade e nível de detalhe
Devemos ainda ser capazes de compreender quais as estatísticas descritivas que
melhor descrevem o tipo de variável que estamos a utilizar
Estatísticas descritivas:
Tabelas de frequências
Medidas de tendência central e quantis
Medidas de Dispersão
Medidas de forma
As frequências informam-nos sobre o total ou a percentagem de observações com um
determinado valor. São geralmente organizadas em tabelas de frequências.
Vários tipos de frequências:
Absolutas: Corresponde à quantidade de pessoas que há; Total de observações com
um determinado valor
Relativas: Proporção/percentagem de observações com um determinado valor
Acumuladas:
(necessário ordenar os valores da variável por ordem crescente - só devem ser usadas
para variáveis qualitativas ordinais ou superiores)
Absoluta: Soma das frequências absolutas até um determinado valor
Relativa: Soma das frequências relativas até um determinado valor
*Não é possível calcular frequências acumuladas em variáveis qualitativas nominais,
uma vez que não é possível ordena-las por ordem crescente
*Se a nossa variável fosse quantitativa continua teríamos de recorrer à Regra de
Sturges
Exemplo:
Medidas de tendência central
- Tentam estimar o centro da distribuição da variável
1. Moda (MO) - O que mais repete; é o valor mais frequente de todas as
observações
Usado para que?
- Variável nominal (mais nenhuma)
- É pouco útil para variáveis continuas de classes ou intervalos
Mediana (MDN) – é o centro das nossas observações, ordenado por ordem crescente,
se N for ímpar. Se N for par, fazemos a média dos dois valores centrais. (Ex: 2 3 4 5 6 7
8)
- Utilizada em variáveis ordinais
- É pouco sensível a valores extremos
Média – ponto central da distribuição. Somamos todas as observações e dividir pelo
número de observações. É afetada por extremos
- Apenas pode ser calculada para variáveis quantitativas
Quantis – pontos que separam a amostra em X partes, fazendo com que uma dada
percentagem de observações esteja entre os valores de cada quartil
Q1 – 25% da amostra
Q2 – está sempre no meio (50%) - é a mediana
Q3 – 75% da amostra
Q4 – é o máximo (100%)
Percentis – partimos a amostra em cem partes
Significados dos símbolos do JASP
3 bolas – nominal (moda)
Gráfico de barras – ordinal (mediana)
Régua – quantitativas (média)
Medidas de dispersão
Tentem estimar o quão distantes os dados estão uns dos outros (quão dispersos estão)
1. Amplitude (RANGE) – diferença entre o máximo e o mínimo
*Podem ser calculadas por variáveis qualitativas ordinais ou superiores
2. Amplitude interquartil (IQR) – diferença entre o Q3 e o Q1
*Podem ser calculadas por variáveis qualitativas ordinais ou superiores
Desvio-Padrão (Std. Deviation)– é a média das distâncias de cada participante à média.
Diz-nos quão distantes as observações tendem a estar da média. Geralmente, valores
elevados indicam que as pessoas diferem muito umas das outras (e vice versa). Tal
como a média, é calculado por variáveis quantitativas
*As variáveis quantitativas vêm acompanhas da média e do desvio padrão
*O desvio padrão não pode ser calculado se não soubermos a média
Medidas de forma
A distribuição de um conjunto de observações, além do ponto central e da dispersão,
pode ainda ser caracterizada quanto à sua forma:
1. Simetria/assimetria (enviesamento) – Skewness
- Assimétrica à direita (enviesada à esquerda) – cauda para direita e centro para a
esquerda
Enviesamento positivo (SK > 0)
- Simétrica - sem assimetria (SK=0)
- Assimétrica à esquerda (enviesada à direita) – cauda para esquerda e centro para a
direita
Enviesamento negativo (SK < 0)
*A assimetria deve estar entre -3 e 3 para ser considerada simétrica
*A SK pode ser calculada para variáveis qualitativas ordinais ou superiores
2. Achatamento – Kurtosis (Ku)
Leptocúrtica (Ku > 0)
Distribuição muito próxima do ponto central
Mesocúrtica (Ku=0)
Platicúrtica (Ku < 0)
Distribuição muito afastada do ponto central
*A SK pode ser calculada para variáveis qualitativas ordinais ou superiores
*Mesocúrtica deve estar entre -7 a 7
Síntese
Representação gráfica
1. Gráficos circulares
- Representa as frequências relativas de uma determinada variável
- Usado para representar variáveis qualitativas nominais ou variáveis qualitativas
ordinais
2. Gráfico de barras
- Representa as frequências relativas de uma determinada variável
- As barras normalmente estão separadas para se distinguir de um histograma
- Usado para variáveis qualitativas nominais, ordinais ou discretas (números inteiros)
- *Não é uma escala
3. Histograma
- Representa as frequências absolutas de uma determinada variável
- Temos de definir intervalos ou classes
- As barras devem aparecer coladas para não se confundir com um gráfico de barras
- Usado para variáveis quantitativas contínuas
4. Densidade
- Semelhante ao histograma, mas representa a densidade de uma variável ao longo dos
seus valores
- Muito útil para percebermos a distribuição dos dados
- Por vezes usado juntamente com o histograma
- Usado para representar variáveis quantitativas contínuas
Caixa de bigodes
- Representa a amplitude interquartil
- A caixa é delimitada pelo Q1 e Q3, aparecendo o Q2 como um risco algures na caixa.
*Quando o risco não está ao centro podemos ter assimetria
- Os bigodes podem corresponder ao mínimo e ao máximo
- Os pontos são outliers
- Usado para representar variáveis qualitativas ordinais ou superiores
- O tamanho dos bigodes é amplitude interquartil/dispersão
Violino
- Semelhante à caixa de bigodes
- Representam a distribuição de uma variável ao longo de um conjunto de valores
- Pode incluir as linhas dos quartis, representando a mesma informação que a caixa de
bigodes, ao mesmo tempo que mostra a distribuição dos dados
- Usado para representar variáveis quantitativas contínuas
Relações entre variáveis
Podemos usar os gráficos também para procurar relações entre variáveis. Por exemplo
podemos representar uma determinada variável em vários grupos para tentar
compreender se os grupos diferem entre si, ou podemos representar uma variável em
função de outra para perceber se por exemplo valores mais altos de uma variável
correspondem também a valores mais altos da outra variável.
Diagrama de dispersão
- Representa duas variáveis qualitativas ordinais e superiores, uma em função da outra
- Muito útil quando falamos de correlações ou regressões
Síntese
Probabilidades e modelos probabilísticos
Introdução - Probabilidade
Definição simples: possibilidade da observação de um acontecimento
Existem várias formas de expressar probabilidade. Uma delas é através da definição
analítica/clássica, mas vamos nos focar na probabilidade frequencista (percentagem)
Definição frequencista: (assumindo uma seleção/amostragem aleatória) Probabilidade
é a frequência relativa de um evento A num grande número de observações do
mesmo fenómeno. Ou seja a probabilidade é definida com base num grande conjunto
de eventos anteriores (observações) e na percentagem de vezes que A é observado
(probabilidade a longo prazo)
Exemplo da abordagem frequencista:
Qual a probabilidade de retiramos um M&M azul de um saco com 100 M&Ms?
- Começamos por retirar vários M&Ms, um de cada vez, e anotamos a sua cor, repondo
esse M&M de volta no saco (amostragem com reposição)
- No fim, se tivermos feito este processo um grande número de vezes (ex: 1000 vezes,
sendo que 160 foram de um M&M azul), iremos chegar a probabilidade correta de
retirarmos um M&M azul do saco.
P(M&M azul) = 160/1000 = 0.16
*Esta experiencia pode ser vista como uma experiencia aleatória, visto ser um
procedimento que podemos realizar múltiplas vezes, levando sempre a resultados
imprevisíveis/aleatórios
Exemplos de experiencias aleatória:
Registar o nível de felicidade de uma amostra aleatória de 50 pessoas
Registar o número observado em 100 lançamentos de um dado
Registar o aumento de peso de 20 pessoas após uma nova medicação
Distribuição de probabilidade
O que é?
- É uma tabela ou função que indica a probabilidade de ocorrência de um ou vários
eventos de uma variável aleatória (variável que representa o resultado de uma
experiencia aleatória. Ou seja é “algo” que representa a probabilidade para cada
evento de uma variável aleatória
Variável discreta: se os valores possíveis forem valores discretos (finitos ou
infinitos) - números completos/inteiros positivos; não pode ter vírgulas (ex:
lançamento dos dados, nº de filhos)
Variável contínua: se os valores possíveis forem valores contínuos (finitos ou
infinitos) - fracionários, tem várias opções, tem casas decimais (ex: altura, peso)
Variável discreta
Quando lidamos com variáveis discretas, podemos falar na probabilidade de um
evento especifico/completo P(X = x ¿
Exemplo: Probabilidade de reportar “Muitissimo” (valor 5) numa escala de depressão
P (X = 5) = 0,06
- Conseguimos fazer e saber a probabilidade exata e o número exato
OU
Podemos falar da probabilidade de certos intervalos de valores (somar)
Exemplo: Probabilidade de reportar igual ou abaixo de “Normal” (valor 3) na escala de
depressão
Função de distribuição de probabilidades acumuladas
P (X ≤ 3 ¿ = 0,02 + 0,03 + 0.25 + 0.39 = 0.69
Variável contínua
Quando lidamos com variáveis contínuas podemos falar apenas na probabilidade de
um evento estar dentro de um determinado intervalo de valores. Graficamente,
passamos de um gráfico de barras com frequências relativas para um gráfico de
intervalos infinitesimais (ex: gráfico de densidade)
*Não conseguimos valores exatos
Exemplos concretos:
Distribuição binomial
É aplicada a variáveis aleatórias discretas (qualitativas)
Indica a probabilidade de sucessos* (q) esperados num conjunto de tentativas (n)
*Sucesso – interesse do estudo
Verifica-se quando a experiencia em causa tem apenas 2 eventos possíveis (ex:
Sim ou Não, Feminino ou Masculino, Grávida ou Não Grávida). Isto é conhecido
como um ensaio/experiencia de Bernoulli
A probabilidade de sucesso (ex: resultado de interesse) em cada ensaio é
representado por p. A probabilidade do outro resultado (insucesso) é
representado por q. O n representa o número de observações/tentativas
Propriedades gerais:
P=1 – q p+q=1 q=1 – p
A média (ou proporção esperada de sucessos) é representada por Ε ( X )=n x p
A variância é representada por V ( X )=n x p x q
Exemplo:
Um jogador faz 10 remates e falha 2
Qual a probabilidade de sucesso de marcar 5 em 20?
Sucesso = 0,8
N= 20
Intervalo (5 e 5)
*N – número te tentativas/experiencias para a probabilidade que vamos estimar
Distribuição binomial no JASP
Descrição geral:
Exercícios práticos:
Imagine que 2 em cada 10 pessoas toma medicação antidepressiva
- Num questionário aleatório de 80 pessoas:
a) Qual a probabilidade de 20 pessoas estarem a tomar antidepressivos?
Interesse – 10/2 = 0,2
N = 80
Intervalo – (20/20)
R: P (X = 20) = 0,06
b) Qual a probabilidade de pelo menos 15 pessoas tomarem antidepressivos?
Interesse = 0,2
N= 80
Intervalo (15/80)
R: P (15 ≤ X ≤ 80¿=0 , 65
c) Qual a probabilidade de não haver mais do que 10 pessoas a tomar
antidepressivos?
Interesse = 0,2
N= 80
Intervalo (0/10)
R: P ( X ≤ 10 ¿=0 , 06
Distribuição normal
É a mais importante e popular
Utiliza variáveis contínuas
Relevante para o conceito do Teorema do Limite Central
X N (μ , σ )
μ – média
σ – desvio padrão
E ( X )=μ
V ( X )=σ 2 - Variância
*Quando não sabemos o valor máximo utilizamos o infinito
E se quisermos saber qual a probabilidade de obtermos certos intervalos de valores?
Por exemplo, imagine que sabemos que a população adolescente portuguesa
apresenta numa escala de ansiedade contínua uma média de 15, com desvio
padrão de 5
Dada esta informação, e sabendo que esta variável apresenta uma distribuição
normal na população, qual a probabilidade de um adolescente, escolhido
aleatoriamente, ter um nível de ansiedade igual ou superior a 25?
X N (μ=15 , σ=5)
P (X ≥ 25 ¿=?
Distribuição normal reduzida
*Estandardização – passar tudo para a mesma escala
Uma distribuição normal reduzida é a transformação da nossa distribuição normal
numa distribuição centrada em 0 ( μ=0 ¿ e com desvio padrão de 1 (σ =1 ¿
Depois só temos de transformar igualmente o nosso valor (25) para essa mesma
escala
Distribuição normal – JASP
Exercícios práticos
X N (μ=15 , σ=5)
a) Qual a probabilidade de um individuo, escolhido aleatoriamente, ter um nível
de ansiedade entre 5 e 15?
μ=15
σ =5
Intervalo (5 / 15)
R: P (5 ≤ X ≤15 ¿=0 , 48
Distribuição Qui-quadrado
Esta distribuição ocorre quando somamos várias distribuições normais reduzidas
(Z) elevadas ao quadrado
O único parâmetro é o valor K (graus de liberdade) que corresponde ao número
de variáveis Z
Vai trabalhar variáveis nominais e categóricas
Vai avaliar a variância entre o que era esperado acontecer e o que realmente
aconteceu
Utilizados em muitos testes estatísticos
Distribuição T-Student
Representa a razão entre a distribuição normal reduzida e a distribuição de qui-
quadrado
Muito usada em testes estatísticos, sendo muito semelhante a uma distribuição
normal, mas com “caudas” mais longas, refletindo uma maior variabilidade. Isto é
especialmente notável em amostras pequenas
Aproxima-se de uma normal á medida que os graus de liberdade aumentam, ou
seja, para amostras maiores (perto ou superiores a 30)
Distribuições amostrais
Distribuição amostral – distribuição de probabilidades de uma determinada
estatística (ex: média). Ou seja, é uma distribuição que demostra a probabilidade
de obtermos uma estatística em particular em várias possíveis amostras retiradas
independentemente da população
Erro amostral – representa a variabilidade encontrada entre as várias amostras no
que respeita essa estatística. Ou seja, o quanto a estatística (ex: média) varia de
amostra para amostra, retiradas sempre da mesma população
Erro padrão – desvio padrão da distribuição amostral. Mede o quão precisa é a
estimativa da nossa estatística
*O n representa o tamanho de cada amostra
Teorema do limite central
Á medida que o nosso número de amostras vai aumentando, a distribuição das médias
de altura aproxima-se cada vez mais de uma distribuição normal.
*Mais pessoas – menos variabilidade
Mas porque não usamos somente o σ em vez de usamos o ?
Porque a nossa precisão para a nossa média está claramente dependente do
nosso n (tamanho da amostra)
Isto é, amostras maiores levam a uma maior precisão da nossa estimativa para a
média da população
De acordo com o teorema limite central, esta precisão pode ser definida dividindo
o desvio padrão da população pela raiz quadrada da nossa amostra
Na verdade, como usualmente desconhecemos o desvio padrão verdadeiro (σ ¿ ,
nós vamos simplesmente utilizar o desvio padrão da nossa amostra
Então mas o que é o teorema do limite central?
O teorema do limite central diz que, independentemente do tipo de distribuição da
nossa população, a distribuição amostral da média, tendem a seguir uma distribuição
normal à medida que o tamanho da amostra aumenta
Ou seja, se tivermos uma amostra decentemente grande (regra de polegar N ≥30
), então podemos invocar o TLC e dizer que a média da nossa amostra segue
provavelmente uma distribuição aproximadamente normal:
Dito isto, convém verificarmos se a nossa amostra não tem uma distribuição
muito assimétrica ou com um achatamento demasiado elevados. Se tal for o caso,
podemos necessitar de uma amostra maior para invocar o TLC
Mas qual o interesse desta propriedade?
Ele é extremamente útil para a inferência estatística e mais propriamente testes
de hipóteses, algo, sem o qual, teríamos muitas dificuldades em generalizar os
dados da nossa amostra para a população inteira.
Dito de outra forma, com base no TLC, conseguimos obter uma precisão da nossa
estatística, porque sabemos que a mesma segue uma distribuição
aproximadamente normal
Assim sendo, podemos criar um intervalo de confiança (ver aulas seguintes) sobre
esta estimativa.
Além disso, essa propriedade permite-nos, sabendo a média e o desvio padrão
da população, fazer estimativas sobre a média que esperamos obter quando
recolhemos novas amostras
• Mais importante, se for possível invocar o TLC (i.e., se a nossa amostra for igual ou
superior a 30), podemos, por norma (ver slide anterior), assumir que a nossa
distribuição amostral da média segue uma distribuição normal. Como tal, mesmo
que a nossa distribuição dos dados não seja normal, algo que poderia invalidar o
uso de testes paramétricos (e.g., testes t-student ou ANOVAs), com uma amostra
grande, podemos contornar este pressuposto invocando o TLC!
Exercícios práticos:
Imagine que a população feminina adulta tem uma média de 168cm e um desvio
padrão de 7cm. Sabendo isto, recolheu uma amostra aleatória de 40 participantes do
sexo feminino
a) Qual será a nossa estimativa para a média da nossa amostra?
R: A nossa estimativa é 168cm
b) Qual a probabilidade da média da nossa amostra ser igual ou inferior a 170cm?
μ=168
σ =1.106
Intervalo = 170 to ∞
R: 4%
*No JASP, quando queremos calcular a probabilidade da amostra utilizamos o erro
padrão (3 casas decimais)
Exercícios (JASP)
1. Imagine que o QI segue uma distribuição normal na população com os
seguintes parâmetros (média e desvio padrão):
QI N (100 , 10)
Qual a probabilidade de encontrar um individuo com QI igual ou superior a 125?
μ=100
σ =10
Intervalo = 125 to ∞
R: P ( X ≥ 125 )=0 ,01
2. Imagine que quer testar se uma pessoa têm poderes psíquicos. Como tal,
coloca a mesma a avaliar lançamentos de moedas. Qual a probabilidade
(assumindo que a mesma não tem poderes) de uma pessoa acertar exatamente
30 em 50 lançamentos?
Interesse = 0,5
N= 50
Intervalo= 30/30
R: P (X = 30) = 0,04
3. Imagine que a média de aversão e estatística nos estudantes do ISPA é de 70,
tendo um desvio padrão de 18. Imagine agora que recolhe aleatoriamente 50
alunos/as.
3.1 Qual a sua estimativa quanto à média de aversão à estatística para a sua amostra?
R: μ=70
3.2 Qual o erro padrão associado a esta estimativa?
3.3 Qual a probabilidade de a média da sua amostra ser de 65 ou inferior?
μ=70
σ =2.546
Intervalo = -∞ to 65
R: P ( X ≤ 65 ¿=0 ,02
Exercícios
1. Sabendo que 1 em cada 10 professores tropeça nas escadas. Qual a
probabilidade de 5 professores em 35 tropeçarem nas escadas?
Interesse= 1/10 = 0,1
N= 35
Intervalo= 5/5
R: P (X = 0,14), ou seja 14%
2. Sabendo que 5 em cada 20 professores tropeça nas escadas. Qual a
probabilidade de 20 a 30 professores em 40 não tropeçarem nas escadas?
Interesse = 5 a dividir por 20= 0,25 (tropeçam) mas eu quero saber os que não
tropeçam, ou seja 0,75
N= 40
Intervalo= 20 / 30
R= P (20 ≤ X ≤30 ¿=¿ 0,56
3. Felicidade N (77; 5). Qual a probabilidade de 1 sujeito que
apresente uma média superior a 72?
Média= 77
Desvio padrão= 5
Intervalo= 72 to infinito
R: P ( X ≥ 72¿=¿ 0,84
4. Felicidade N (77; 5). Qual a probabilidade de 1 sujeito que
apresente uma média de 75 a 77 e uma média de 69 a 71?
Média= 77
Desvio padrão= 5
Média de 75 a 77 = 0,16
Média de 69 a 71= 0,06
Somar – 0,16 + 0,06= 0,22 (22%)
5. Felicidade N (77; 5). Qual a probabilidade de uma amostra de 30
apresentar uma média amostral inferior ou igual a 80?
Erro padrão= 0,913
R: 0,999
Introdução à Estatística Inferencial
Processo pelo qual se procura estimar ou inferir os valores dos parâmetros
populacionais ou de relações entre eles a partir de uma ou mais amostras da
população.
Ou seja, a estatística inferencial permite-nos, a partir da nossa amostra, estimar o valor
de parâmetros (Teoria da Estimação) e tomar decisões (com recurso a testes de
hipóteses) relativas a esses mesmos parâmetros na população teórica (Teoria da
Decisão).
Teoria da estimação: utilizando estimadores apropriados, visa estimar parâmetros
populacionais a partir de estimativas amostrais.
1. Estimação pontual
- Inferimos o valor do parâmetro na população com base no valor de estatística obtida
numa ou várias amostras. Pode ser tão simples como estimar a média populacional é 4
porque a média amostral é 4
*Basicamente é estimar a média da população
Limitação: não possui nenhum grau de certeza associado à estimativa obtida.
Diferentes amostras conduzem a diferentes estimativas do parâmetro populacional que
é único. Para resolver este problema, recorremos então a procedimentos com uma
determinada probabilidade (1 - a) de produzir intervalos que incluam o real parâmetro
da população.
2. Estimação intervalar
- Estimamos o valor dos parâmetros populacionais com recurso a intervalos de
confiança (IC)
Por outras palavras: Um IC é uma estimativa estatística que fornece um intervalo de
valores dentro da qual é razoável supor o verdadeiro valor de um parâmetro
desconhecido esteja. É uma maneira de quantificar a incerteza em torna de uma
estimativa
Exemplo: Se recolhermos dados de uma determinada amostra podemos calcular um IC
para a média de uma variável. Este IC representa um intervalo de valores no qual
temos um determinado nível de confiança de que a verdadeira média da população
esteja contida. O nível de confiança geralmente é expresso como uma percentagem
(frequentemente 95%). Isso significa que, se repetirmos o processo de amostragem e
de cálculo do intervalo de confiança várias vezes, aproximadamente 95% destes
intervalos irão conter o verdadeiro valor do parâmetro populacional.
IMPORTANTE: a confiança do intervalo diz respeito ao "longo prazo", um dado
intervalo ou contém ou não o parâmetro populacional (0% ou 100%), mas a longo
prazo esperamos que x% dos intervalos (e.g., 95%) contenham o real valor do
parâmetro na população.
Assim o IC fornece-nos uma medida de precisão da nossa estimativa considerando a
variabilidade inerente aos dados recolhidos na nossa amostra e o tamanho da mesma:
A amplitude do intervalo dá-nos uma ideia da precisão da nossa estimação.
Quanto mais variabilidade maior o intervalo, logo menos precisa da nossa
estimação
Nota:
Quanto maior o N, menor a amplitude – maior a precisão
Quanto maior o intervalo, menos preciso ele é
Quantas mais pessoas, menor o intervalo – maior a precisão
Quantas mais pessoas eu tenho, melhor; estou mais perto da realidade da
população
Quanto menor a variabilidade, maior a precisão
*Variabilidade – diferenças individuais
Os ICs constroem-se a partir da estimativa amostral do parâmetro, da variância dessa
estimativa na amostra e do valor da distribuição amostral do estimador do parâmetro
no percentil 1 – α /2
Simplificando: as fórmulas que vimos nos slides anteriores apenas definem uma
"margem de erro" a subtrair e somar ao estimador pontual, para definir o limite
inferior e superior do intervalo. Ou seja, depois de conhecida a estimativa amostral, é
calculada uma margem de erro (considerando um valor crítico do estimador e a
variância da estimativa na amostra) que é depois subtraída e adicionada à estimativa
amostral.
Se já conhecemos (estimamos) o IC:
Margem de erro – limite superior – limite inferior / 2
Confiança: Amplitude
99%
95%
90%
*Se no enunciado não estiver a confiança, é 95%
*JASP – frequencies (estimação pontual e estimação intervalar)
Exercícios práticos:
1. Base de dados – inferência_interesse
a) Qual a média amostral da variável [Interesse]?
M= 2.620
b) Qual o intervalo de confiança a 95% para a média populacional da variável
[Interesse]?
IC 95% (1.442, 3.798)
c) Qual a margem de erro da estimativa da média populacional?
R: 1.178
d) Qual a probabilidade do intervalo obtido neste estudo conter o verdadeiro valor
da média do [Interesse] na população?
R: 0 ou 100%, porque ou contém ou não contém
e) Qual a probabilidade dum intervalo futuro vir a conter o verdadeiro valor da
média do [Interesse] na população?
R: 95%
f) Qual o intervalo de confiança para a variância populacional?
IC 95% = (11.683, 22.672)
g) Se eu correr outros estudos semelhantes, para estimar a média populacional do
[Interesse], com mais participantes, o que posso esperar que aconteça à
amplitude dos intervalos?
R: Que os intervalos tenham menor amplitude
2. Base de dados – inferência_sondagens
a) Qual a média da motivação [Motiv] dos participantes da nossa amostra?
M= 42.236
b) Usando um procedimento para estimação intervalar com confiança de 95% (a
longo prazo) qual o limite inferior e superior que obtém para a média de
motivação [Motiv]?
IC 95% = (40.682, 43.790)
c) Podemos dizer que esperamos que 95% da população tenha valores de
motivação [Motiv] entre o limite inferior e superior que obtivemos?
R: Não necessariamente. Apenas que o procedimento deveria estimar um intervalo
que incluísse o valor da média populacional em 95% dos casos.
d) Em 10 000 estudos semelhantes, recorrendo ao mesmo procedimento de
estimação intervalar, quantos estudos podemos esperar que produzam
intervalos que contenham o real valor da média populacional da motivação
[Motiv]?
R:9500
e) Se esperarmos que haja mais variabilidade na motivação das pessoas para
participar em manifestações e conduzirmos um estudo semelhante em que
avalie essa motivação o que posso esperar da largura dos ICs desse estudo por
comparação com os deste?
R: A amplitude vai ser maior
f) Qual estimação pontual e intervalar (com 95% de confiança) para a proporção
de pessoas que vai efetivamente votar [Int_Votar]?
Estimação pontual (proporção) = 0.316
Estimação intervalar - IC 95% = (0.275, 0.359)
Razões para uma maior amplitude:
N é menor
Maior variabilidade
Teorias da decisão/testes de hipóteses
Teoria da decisão – tomamos decisões relativas aos parâmetros populacionais, a partir
das observações amostrais (área mais utilizada em estatística e analise de dados).
Teste de hipóteses – é um procedimento estatístico que nos permite decidir sobre a
plausabilidade de hipóteses relativas a parâmetros populacionais, a partir de amostras
da população do estudo. Essas decisões são tomadas com um determinado nível de
confiança ou probabilidade de erro. Por outras palavras, eu tenho hipóteses e vou
defender a plausabilidade de hipóteses
Ou seja: Não conseguimos ter a certeza (100%) que decidimos corretamente, mas
recorremos a procedimentos que controlam erros, dando-nos alguma confiança na
decisão tomada (geralmente, 95%)
Exemplo: Temos uma máquina cuja função é encher pacotes de açúcar. Ela está
calibrada para colocar 4g de açúcar em cada pacote. No entanto, nós, sendo
naturalmente desconfiados, queremos certificar-nos que de facto, em média, os
pacotes de açúcar que passam pela máquina pesam 4g. Como tal, eu assumo este valor
médio de 4g por pacote de açúcar (a minha hipótese), e vamos testar se, numa
amostra de N pacotes de açúcar que recolheremos aleatoriamente, a média se afasta
significativamente desse valor. Com base no resultado, decidiremos se a máquina
funciona bem ou não
Etapas:
1. Definir hipóteses estatísticas
2. Computador a estatística de teste
3. Decidir
4. Concluir e reportar os resultados
1. Definir hipóteses estatísticas
Uma hipótese é uma preposição acerca de um acontecimento de natureza
aleatória, cujo o resultado não se conhece a priori. Ou seja, é uma predição sobre um
determinado acontecimento
H0 VS H1
Hipótese Nula (H0):
Ausência de efeito, o que aconteceria se a teoria estiver errada (e.g., os alunos de
psicologia não têm scores no STICSA diferentes dos alunos de direito). Assumida como
verdadeira até prova significativa em contrário.
Hipótese alternativa (H1):
Alternativa à Ho, aquela que geralmente pretendemos que seja verdadeira. Ou seja, é o
efeito esperado, o que aconteceria se a teoria estiver correta (e.g., os alunos de
psicologia têm scores no STICSA diferentes dos alunos de direito).
H0 – não há resultados; não se passa nada; tem sempre igualdade
H1 – é o contrário do H0; não tem igualdade
2. Computador a estatística de teste
A estatística de teste representa a distancia relativa entre o parâmetro populacional
hipotético e a estimativa amostral
Se a E.T. for um valor elevado, então a média observada na amostra (X) é muito
diferente da média da população (u) prevista pela H0. Logo, rejeitamos H0.
Se a E.T. for um valor pequeno, então a média observada na amostra (X) não é
muito diferente da média da população (4) prevista pela H0. Logo, não rejeitamos
H0.
3. Decidir
Existem duas formas:
Região de rejeição (não sai)
P-value
P-value (R. Fisher)
Conhecendo a distribuição amostral da estatística de teste é possível determinar quão
plausível é o valor calculado da E.T ou um valor mais extremo, para a amostra em
estudo
Regra: Rejeitar H0 se p-value ≤ α
O p-value é a probabilidade de obter um valor igual ou maior do que a estatística de
teste se a H0 for verdadeira e é calculado diretamente pelo software quando
realizamos testes estatísticos
Para decidir sobre a plausibilidade das hipóteses comparamos a probabilidade (p-
value) de obter os resultados que obtivemos, ou mais extremos, se não houvesse efeito
(H0), com a proporção máxima de falsos positivos que estamos dispostos a tolerar (α ).
Quando o p-value é igual ou inferior a α , rejeitamos a ausência de efeito (rejeitamos
H0).
Nota: α > Proporção máxima de falsos positivos que estamos dispostos a aceitar. É
a probabilidade de eu rejeitar H0, quando ela é verdadeira = P(erro tipo 1)
Contudo, a decisão de rejeitar H0 pode estar errada:
4. Concluir e reportar os resultados
A rejeição ou não rejeição de H0 permite concluir sobre a validade da hipótese de
investigação relativamente ao parâmetro populacional.
Os resultados devem ser comunicados ao potencial leitor de forma clara o suficiente
para leitores com menos conhecimento estatístico compreenderem, mas com detalhe
suficiente para leitores mais conhecedores poderem avaliar os resultados e os
procedimentos estatísticos.
Exemplo:
Foi realizado um estudo para compreender se os alunos do ISPA demonstravam um
interesse significativamente diferente de 0 pela decoração do edifício, avaliado usando
uma escala contínua de 0-10, sendo "0" a ausência de interesse e "10" um interesse
muito elevado.
Um teste t para uma amostra revelou que o interesse pela decoração do edifício é
significativamente diferente de zero [t(49) = 4.47, p < .001], sendo, no entanto,
geralmente baixo (M = 2.62, SD = 4.15, 95%IC = [1.44, 3.80]).
Testes de hipóteses para uma população
Existem dois tipos de testes:
Testes paramétricos (são os mais utilizados no exame)
Vão com base direta em parâmetros populacionais (ex:média)
Requerem um conhecimento da distribuição da V.D. – distribuição normal
Requerem v.d.s quantitativas (ou seja, que é passível de transformação em
quantitativa)
São mais potentes (vai errar menos) e menos conservadores (encontram mais
facilmente o que existe mesmo) - maior probabilidade de rejeitar H0 quando
esta é falsa
Testes não paramétricos
Não tem como base direta os parâmetros populacionais
Não querem o conhecimento da distribuição da V.D (são adistribucionais)
Podem ser utilizados com v.d.s quantitativas ou qualitativas
Menos potentes e mais conservadores (menor probabilidade de rejeitar H0
quando esta é falsa)
São geralmente utilizados como uma alternativa aos testes paramétricos caso
os pressupostos de aplicação destes não se verifiquem
T-Student para uma população
Para que serve?
- Determinar se a média de uma amostra é significativamente diferente da média
(conhecida ou hipotetizada) de uma população
Por outras palavras: compreender se a média de uma amostra difere significativamente
de um determinado valor de referencia
Pressupostos:
- A variável dependente tem de ser quantitativa – escala de medida intervalar ou de
razão
- Normalidade - a V.D segue distribuição normal
Pressuposto da normalidade: Teste de Shapiro-Wilk
Questão: a distribuição da v.d afasta-se significativamente da distribuição normal?
Hipóteses:
H0: A V.D não se afasta significativamente na distribuição normal
H1. A V.D afasta-se significativamente da distribuição normal
Decisão:
Se p ≤0.05 rejeitamos H0 – a variável não tem destruição normal
Se p ≥ 0.05 não rejeitamos H0 – a variável tem distribuição normal
CURIOSIDADE
Outra forma de verificarmos o pressuposto da normalidade é através do Q-Q Plot
Usado para representa graficamente uma comparação da distribuição de uma variável
numa amostra com uma distribuição teórica (distribuição normal)
Quantos mais pontos estiverem sobrepostos com a linha, mais a distribuição da
amostra se aproxima da distribuição teórica
- Se eu verificar que a variável é quantitativa e que segue uma distribuição normal,
podemos utilizar o teste T-student para uma população
Hipótestes (T-student)
Teste bilateral
(H0: μ=μ 0 ¿ “A média de uma amostra não é significativamente diferente da média”
populacional”
(H1: : μ ≠ μ 0 ¿ “A média de uma amostra é significativamente diferente da média”
Teste unilateral à direita
(H0: μ ≤ μ 0 ¿ “A média de uma amostra não é significativamente superior (inferior ou
igual) à média”
(H0: μ> μ 0 ¿ “A média de uma amostra é significativamente superior à média”
Teste unilateral à esquerda
(H0: μ ≥ μ 0 ¿ “A média de uma amostra não é significativamente inferior (superior ou
igual) à média”
(H0: μ< μ 0 ¿ “A média de uma amostra é significativamente inferior à média”
*H0 tem sempre igualdade
JASP
1º Normality (se não tiver tenho de fazer outro teste)
2º Student (se a distribuição for normal)
- Test value (está no enunciado)
Hipótese alternativa
T - estatística de teste
Df – graus de liberdade (n-1)
P – p-value
Ex: t(df - 15) = -5.823 (t) ; p-value = < 0.001 --- rejeita H0 pois p < 0.050
R: H1: Dift ≠ 16
*Para saber a média e o desvio padrão, utilizo a opção Discriptives no T-test
Teste de Willcoxon
- Alternativo ao teste T-student
Pressupostos:
- Quando a v.d não é qualitativa
- Quando a v.d não segue uma distribuição normal
Não podemos utilizar o t-student, temos de utilizar o Willcoxon
*basta falhar um
Para que serve este teste?
- Comparar um conjunto de valores relativamente a um valor de referencia, neste caso,
a mediana
Ou seja, responde à questão:
- A mediana de uma amostra é significativamente (diferente, menor ou maior) do que a
mediana populacional
Pressuposto
1. V.d qualitativa medida numa escala ordinal ou superior
Hipóteses
- A única coisa que difere do T-student é que no T-student o símbolo é a média ( μ ¿ e no
teste de Willcoxon o símbolo é a mediana (θ )
Teste bilateral
(H0: θ=θ 0 ¿ “A média de uma amostra não é significativamente diferente da média”
populacional”
(H1: : θ ≠ θ 0 ¿ “A média de uma amostra é significativamente diferente da média”
Teste unilateral à direita
(H0: θ ≤ θ 0 ¿ “A média de uma amostra não é significativamente superior (inferior ou
igual) à média”
(H0: θ>θ 0 ¿ “A média de uma amostra é significativamente superior à média”
Teste unilateral à esquerda
(H0: θ ≥ θ 0 ¿ “A média de uma amostra não é significativamente inferior (superior ou
igual) à média”
(H0: θ<θ 0 ¿ “A média de uma amostra é significativamente inferior à média”
NOTA:
H0: Igualdade (= ; ≤ ; ≥)
H1: < ; > ; ≠
Testes de hipóteses para uma população (Binomial)
Teste Binomial
Para que serve?
- Inferir sobre a proporção (%) populacional a partir de uma amostra da população em
estudo.
- Testar se as proporções observadas diferem das proporções esperadas (hipótese) para
a população
Exemplo:
Um grupo de investigadores defende que mais de 10% dos sujeitos com parentes em
19 grau que sofrem de esquizofrenia pode sofrer da mesma patologia. Através da
amostra em estudo, é possível suportar esta afirmação?
*Proporção = Percentagem – variáveis qualitativas
Pressupostos de aplicação
Pressupostos:
- Observações independentes
Responde à questão
- A proporção populacional é significativamente (diferente/maior/menor) que X (valor
de referência)?
Hipóteses:
Teste Bilateral:
(H0: π= p 0 ¿ pol "A proporção populacional não é significativamente diferente de X
valor de referência)"
(H1: π ≠ p 0] "A proporção populacional é significativamente diferente de X (valor de
referência)"
Teste Unilateral à direita:
(H0: π ≤ p 0 ¿"A proporção populacional não é significativamente superior (i.e., é
inferior ou igual) a X (valor de referência)"
(H1: π ¿ p 0) "A proporção populacional é significativamente superior a X (valor de
referência"
Teste Unilateral à esquerda:
(H0: π ≥ p 0 ¿ "A proporção populacional não é significativamente inferior (i.e., é
superior ou igual) a X (valor de referência)"
(H1: π ¿ p 0 ¿ "A proporção populacional é significativamente inferior a X (valor de
referência)"
JASP
1º Frequências
2º Binomial teste
Decisão:
- Rejeita-se a H0 se o p-value ≤ α (ou seja se o p-value ≤ 0.050)
Conclusão:
A proporção populacional não é significativamente (diferente/superior/inferior) (p
> .05) de X
A proporção populacional é significativamente (diferente/superior/inferior) (p ≤ .05) de
X
Exercícios práticos 1:
Exemplo:
Um grupo de investigadores acredita que a taxa de divórcio no Guatemala aumentou
exponencialmente após a pandemia de COVID-19, mas não ultrapassou uma
percentagem estatisticamente superior a 3.5%.
Através de uma amostra guatemalense (fictícia; estudo adaptado de Pallant, 2020),
verifique se é possível concluir que a taxa de divórcio na Guatemala é estatisticamente
superior a 3.5% .
A base de dados [6_Binomial_ MaritalStatus.jasp] contém os dados. A variável [ID]
corresponde ao nº do participante e a variável [Marital] corresponde ao estado civil de
cada participante.
(a) Qual foi a questão de investigação dos autores?
R.: Será que a taxa de divórcio no Guatemala é estatisticamente superior a 3.5%?
(b) Escreva as hipóteses estatísticas resultantes da questão de investigação.
R.: (Teste unilateral à direita)
H0: A proporção de divórcios no Guatemala é inferior ou igual a 3.5%
H1: A proporção de divórcios no Guatemala é superior a 3.5%
(c) Dos métodos estatísticos que conhece, qual escolheria para responder à
questão de investigação dos autores?
R.: Como queremos avaliar a proporção de divórcios e sendo estas independentes, o
teste Binomial é o mais adequado para esse efeito.
(d) Através da analise de dados o que pode concluir sobre a afirmação dos
investigadores?
R.: A percentagem de divorciados na amostra é de 5.5% (n=24). Através do teste
Binomial é possível verificar que esta percentagem é significativamente superior a 3.5%
(p = 0.023; N=439). Assim sendo, rejeitamos H0, não suportando a afirmação dos
autores.
(e) Reporte os resultados seguindo as normas APA.
R.: Com o intuito de avaliar se a percentagem de divórcios no Guatemala é
significativamente superior a 3.5% e sendo que as observações são independentes,
recorreu-se ao teste Binomial. Todas as análises foram realizadas com o software JASP
(v. 0.18.3). Consideram-se estatisticamente significativos os efeitos cujo p ≤ .05.
Os dados descritivos indicam que 5.5% dos sujeitos na amostra são divorciados (n=24).
O teste Binomial sugere que esta é significativamente superior a 3.5% (p= 0.023,
N=439)
Estes resultados sugerem que a afirmação dos investigadores é falsa.
Exercícios práticos 2
Exemplo:
A partir de dados recentes da OCDE (2019), alguns autores afirmam que
significativamente mais de 1/3 da população espanhola, entre os 25 e os 64 anos, tem
ensino superior completo (licenciatura ou mestrado).
A partir de uma amostra espanhola (fictícia, adaptado de Pallant, 2020), é possível
suportar esta afirmação?
(a) Qual é a questão de investigação?
1/3 = 0,333
R.: Existirão significativamente mais de 33,3% de Espanhóis com o ensino superior
(licenciatura ou mestrado)?
(b) Escreva as hipóteses estatísticas resultantes da questão de investigação.
R.: (Teste unilateral à direita)
H0: A proporção de licenciados/mestres em Espanha é inferior ou igual a 33.3
H1 : A proporção de licenciados/mestres em Espanha é superior a 33.3
(c) Dos métodos estatísticos que conhece, qual escolheria para responder à
questão de investigação? Justifique.
R.: Binomial.
(d) Através da análise de dados, o que pode concluir sobre a afirmação dos
autores?
R.: A percentagem de participantes com Ensino Superior na amostra é de 33.9% (n=85).
Através do teste Binomial é possível verificar que não existe evidencia estatística do
valor observado ser significativamente superior a 33.3% (p= .448; N=251).
(e) Reporte os resultados seguindo as normas APA.
R.: Com o intuito de avaliar se a percentagem de licenciados/mestres é
significativamente superior a 1/3 da população e sendo que as observações são
independentes, recorreu-se ao teste Binomial. Todas as análises foram realizadas com
o software JASP (v. 0.18.3). Consideram-se estatisticamente significativos os efeitos
cujo p ≤ .05.
Os dados descritivos indicam que 33.9% dos sujeitos na amostra têm completado o
ensino superior (n=85). O teste Binomial sugere que esta não é significativamente
superior a 33.9% (p= .448, N=251)
Estes resultados sugerem que a afirmação dos investigadores é falsa.
(f) Um estudo indica que a percentagem de doutorados em Espanha é diferente
de 1%. Através da amostra disponível, o que pode concluir desta afirmação?
R.: Os dados descritivos indicam-nos que 1.2% dos participantes têm doutoramento
(n=3). Através do teste binomial é possível verificar que esta percentagem não é
significativamente diferente de 1%. Assim sendo, não há evidência que suporte a
afirmação do estudo.
Qui-Quadrado e V de Cramer
- Vão avaliar as relações entre variáveis (uma delas tem de ser nominal para fazer qui-
quadrado)
- Não há causa efeito
Será que duas variáveis categóricas estão associadas?
Exemplos:
Género e Cor favorita
Habilitações literárias e afiliações políticas
Ser fumador e pratica exercício físico
Tabela de contingência
- Os testes paramétricos para contagens são apropriados para v. qualitativas cujas
observações são organizadas em frequências absolutas das classes
- As contagens são geralmente organizadas em tabelas de contingência
OIJ – frequência absoluta
Qui-Quadrado
Para que serve?
- Testar se as variáveis são independentes
- Ou seja, se pertencer a um determinado grupo da Variável categórica 1 representa
uma maior probabilidade de pertencer a um determinado grupo da Variável categórica
2
Hipóteses (sempre bilateral)
H0 – não há relação (independentes)
H1 – há relação (dependentes)
Como?
- Calcula o desvio entre os valores esperados (OIJ) e as frequências que seriam
esperadas (EIJ) se não houvesse associação entre as variáveis (Hipótese nula)
- Ver se o desvio é muito elevado ou não
- Quanto maior a estatística de teste, mais elevado será o desvio
- Quanto maior for o desvio, o que eu observo está muito longe do que eu esperaria
Teste de homogeneidade do Qui-quadrado (CURIOSIDADE)
- Avaliar se a distribuição observada dos elementos das amostras pelas categorias da
variável é aleatória ou segue uma determinada distribuição empírica
Z ≥ 1,96 (pode ser positivo ou negativo) – indica que este resíduo é significativamente
diferente de 0
Resíduos estandardizados:
- Indica-nos se a diferença entre os valores esperados e observados é significativa em
cada combinação de categorias
- Sinal positivo se: observados > esperados
- Sinal negativo se: observados < esperados
- Significância
Pressupostos de aplicação:
- Tenho de ter mais do que 20 pessoas (1-N > 20)
- Pelo menos uma variável tem de ser qualitativa nominal
- Amostras independentes (cada elemento da amostra faz parte apenas de um dos
grupos de cada variável (e.g. frequenta apenas um dos cursos referidos).
- 80% dos nossos valores esperados tem de ter valores superiores ou iguais (≥ ¿ a 5
- Todas os nossos valores esperados (100%) têm de ser superior a 1
E se uma ou mais condições de aplicação não se verificarem? Quais as alternativas?
Repetir o estudo, aumentando a dimensão global da amostra;
- Planear o estudo de forma apropriada, ou seja, calculando a dimensão mínima das
amostras para que se verifiquem todas as condições de aplicação do teste χ2;
- Se as classes/categorias puderem ser combinadas de modo a aumentar a frequência
esperada, então devem combinar categorias;
ATENÇÃO: garantir que as novas categorias fazem sentido
- Recorrer ao Teste Exato de Fisher;
- Recorrer a técnicas de simulação de Monte-Carlo.
p-value ≤ .05: as variáveis estão significativamente associadas ---- Mas quão forte é
essa associação?
Dimensão de efeito
- Permite verificar se a relação é forte ou fraca
- Índice que avalia a magnitude da diferença entre grupos ou associação entre variáveis
- Quanto maior, maior a significância prática - determinada pelo contexto experimental,
socioeconómico, etc, no qual essas diferenças ou associações ocorrem
- Independente do tamanho da amostra
- Unidades de medida com significado (ex: nº de horas de sono) : reportar dimensões
de efeito não estandardizadas (diferença entre médias, coeficiente de regressão)
- Unidades de medida sem significado (ex: scrore numa escala de depressão): reportar
dimensões de efeito estandardizadas (coeficiente de correlação)
Um resultado estatisticamente significativo pode não ter significado prático. Um
resultado com significado prático pode não ser estatisticamente significativo
*Estandardizar – colocar tudo na mesma régua
Coeficiente de Correlação V de Cramer
Para que serve?
- Estandardização do Qui-quadrado
- Medida de relação padronizada a que chamamos de coeficiente de correlação
- Avalia a intensidade ou magnitude de associações entre duas variáveis categoriais,
sendo pelo menos uma delas nominal
- Não paramétrico
- Não consegue dizer se é positivo ou negativo
- Assimétrico – varia entre 0 ≤ V ≤ 1—quanto mais próximo de 1, mais forte é a
associação entre as variáveis categoriais. Logo, não indica se a associação é positiva ou
negativa
- Se as variáveis forem qualitativas dicotómicas* (sim/não; homem/mulher), pode
usar-se um coeficiente equivalente, o Phi simplificado
*Duas variáveis com duas opções
Magnitude: tamanho do efeito
Pressupostos (são os mesmos do Qui-Quadrado)
Questão:
A correlação observada é estatisticamente significativa?
Hipóteses
H0 – não existe correlações entre as variáveis (independentes)
H1 – as variáveis estão correlacionadas (dependentes)
Decisão:
Rejeita-se a H0 se o p-value ≤ α
Conclusão:
Existe (p ≤ .05) / Não Existe (p > .05) uma correlação significativa entre as variáveis.
JASP
Frequencies - Tabela de contingência
Arrastar uma variável para “Rows” e outra para “Columns” (não interessa a ordem)
Counts – quantidade de pessoas
X2 – QUI-QUADRADO
Phi and Cramer´s v – magnitude/força da relação
Expected – frequências esperadas (pressuposto dos 80%)
Person – pedir resíduos estandardizados (Z ≥ 1,96)
Exemplo de resposta:
(X2 (1) (grau de liberdade) = 25,356 (estatística de teste) ; p < 0.001 (p-value)
Exercícios práticos 1:
a) O sexo está significativamente associado com a altura?
b) Contém uma variável qualitativa nominal
N > 20 (100)
São variáveis independentes
80% dos nossos valores esperados são superiores ou iguais a 5
Todas os nossos valores esperados (100%) são superiores a 1
c) H0 – não existe correlações entre as variáveis (independentes)
H1 – existe correlações entre as variáveis (dependentes)
d) Os resultados demonstraram que há uma relação entre o sexo e a altura.
(χ2(1)=25.132, p < .001).
e) Não. É elevada
f) A análise dos resíduos estandardizados revelou que houve significativamente
mais mulheres baixas do que esperado (z= 3.41, p < .001) e significativamente
menos mulheres altas do que esperado (z=−2.50, p ≤ .05). Por sua vez, houve
significativamente menos homens baixos do que o esperado (z =−2.18, p ≤ .05).
Houve tantos homens altos como o esperado (z = 1.60, p > .05) como o
esperado.
g) NORMAS APA (ver ecampus)
Exercícios práticos 2:
a) Estará o tipo de recompensa significativamente associado com a capacidade de
dançar dos gatos?
b) Contém uma variável qualitativa nominal
N > 20 (200)
São variáveis independentes
80% dos nossos valores esperados são superiores ou iguais a 5
Todas os nossos valores esperados (100%) são superiores a 1
c) H0 – não existe correlações entre as variáveis (independentes)
H1 – existe correlações entre as variáveis (dependentes)
d) Existe correlação entre as variáveis (ver p-value)
e) Não. É moderado
f) A análise dos resíduos ajustados revelou que quando a comida foi usada como
recompensa, houve significativamente mais gatos a dançar do que esperado (z=
3.57, p ≤ .05) e significativamente menos gatos a não dançar do que esperado (z
=−2.79, p ≤ .05). Por sua vez, quando o afeto foi usado como recompensa,
houve tantos gatos a dançar (z =−1.73, p > .05) e a não dançar (z = 1.35, p > .05)
como o esperado.
g) Normas APA (ecampus)
Correlações de Pearson e Spearman
Nominal - V de Cramer
Ordinal – Spearman
Quantitativa – Pearson
*Só faço o Spearman quando não dá para fazer o pearson
Medidas de associação
Para que servem?
- Quantificam a intensidade e a direção da associação entre duas ou mais variáveis
- Podem ser bivariadas ou multivariadas
Não servem para inferir relações de causalidade
A–B
Porquê?
- Podem existir outras variáveis medidas ou não medidas que afetam os resultados
- Não podemos inferir a direção de causalidade
Que coeficiente da correlação usar?
- Dependente da natureza das variáveis:
Duas variáveis têm de ser quantitativas relacionadas linearmente (ex: peso, idade) -
Pearson
Duas variáveis qualitativas ordinais e superiores (habilitações literárias; estatuto
socioeconómico) – Spearman
Covariância: variância comum de duas variáveis (X1, X2)
Cov (X1, X2) < 0 – variação comum em sentido oposto. Quando uma variável
aumenta a outra diminui e vice-versa
Cov (X1, X2) = 0 – sem variação comum
Cov (X1, X2) > 0 – variação comum no mesmo sentido. Quando uma variável
aumenta a outra também aumenta
Porque não usamos covariância?
- Porque esta depende da unidade de medida. Não é possível compara covariâncias de
forma objetiva
É então necessário estandardizar (por tudo na mesma escala) a covariância –
coeficiente de correlação
Coeficiente de correlação de Pearson
Para que serve?
- Mede a intensidade e direção da associação de tipo linear entre duas variáveis
quantitativas
- Calculada a partir da estandardização da covariância entre duas variáveis
- Variância entre -1 e +1 (-1< r < +1)
Magnitude da associação entre as variáveis:
- Corresponde ao tamanho do efeito
Fraca: |r| < 0.25
Moderada: 0.25 ≤ |r| < 0.5
Forte: 0.5 ≤ |r| < 0.75
Muito forte: |r| ≥ 0.75
Sentido
O sinal do coeficiente de correlação indica o sentido da associação
Correlação positiva (r > 0) – é no mesmo sentido (quando uma aumenta também
aumenta a outra e vice versa)
Correlação negativa (r < 0) – é o sentido oposto (uma aumenta e a outra diminui e vice
versa)
r = 0 indica que não há qualquer associação entre as variáveis
Pressuposto de aplicação
- 2 variáveis quantitativas (tem de ser as duas)
- Linearidade (tem de haver uma relação linear entre as variáveis) – ver como estão os
pontos; se não há outliers
- Normalidade; as variáveis tem de seguir uma distribuição normal (Shapiro-Will)
JASP
Linearidade
Descritivas
Plots
Sclater plots
(None ; None)
Normalidade
Discritivas
Statistics
Shapiro-will
*Se uma variável não tiver normalidade não fazemos; tem de ter as duas
JASP
Regressão
Correlação
Person´s
Pedir os dois primeiros (importante)
Sample size (importante para normas APA)
Não escolher a opção “Flat significant correlations”
Exemplo de resposta:
(r* (N-2) = 0.368 (pearson´s) ; p < 0.001)
*r – Pearson
Hipóteses:
H0: Não existe correlação significativa entre as variáveis [H0: p=0]
H1: As variáveis estão significativamente correlacionadas [H1: p≠0]
Decisão:
Rejeita-se a H0 se o p-value ≤ α [ou seja se o p-value ≤0.05]
Conclusão:
Existe (p ≤ 0.05) / Não Existe (p > 0.05) uma correlação significativa entre as variáveis
Coeficiente de correlação de Spearman
Para que serve?
- Igual ao Pearson mas com ordens
- Mede a intensidade e direção da associação entre duas variáveis medidas numa
escala ordinal ou quantitativa (intervalar ou razão)
- Varia entre -1 e +1 (-1 < rs < +1)
Quando usar?
- Quando os pressupostos da linearidade e/ou da normalidade não se verifiquem ou
quando as variáveis são qualitativas ordinais;
- Alternativa não paramétrica ao Coeficiente de Correlação de Pearson
Pressupostos:
- Variáveis ordinais ou superiores
Hipóteses:
H0: Não existe correlação significativa entre as variáveis [H0: ps=0]
H1: As variáveis estão significativamente correlacionadas [H1: ps≠0]
Decisão:
Rejeita-se a H0 se o p-value ≤ α [ou seja se o p-value ≤0.05]
Conclusão:
Existe (p ≤ 0.05) / Não Existe (p > 0.05) uma correlação significativa entre as variáveis
Exemplo de resposta:
(rs* (N-2) = 0.368 (pearson´s) ; p < 0.001)
*rs – Spearman
JASP
Regressão
Correlação
Spearman´s
2 primeiras opções
Sample size
Exercícios 1
a) As duas variáveis são quantitativas; as variáveis são lineares; as variáveis apresentam
uma distribuição normal
b)
H0 – não existe correlação entre as variáveis
H1 – existe correlação entre as variáveis
c) O coeficiente de correlação de Pearson porque 1) as variáveis são quantitativas; 2)
apresentam uma relação linear; 3) apresentam uma distribuição aproximadamente
normal.
d) Uma vez que o p-value obtido foi < .05, rejeita-se a H0 de que não existe uma
correlação significativa entre as variáveis. Assim sendo, os resultados demonstram
que existe uma correlação significativa entre as variáveis “Neuroticism” e
“Conscientiousness” [r(498)= -.368, p < .001]. A correlação entre as variáveis têm
uma magnitude moderada e sentido negativo. Como tal, valores mais elevados de
“Neuroticism” correspondem a valores mais baixos de “Conscientiousness”
.
e) Normas APA (ecampus)
Exercícios 2
a) As variáveis são quantitativas; as variáveis não aparentam ter uma relação linear;
apenas uma das variáveis apresenta uma distribuição normal
b) H0 - não existe correlação entre as variáveis
H1 – existe correlação entre as variáveis
c) O coeficiente de correlação de Spearman porque 1) as variáveis são quantitativas
mas: 2) a variável [Anxiety] não apresenta uma distribuição normal; 3) as variáveis
não apresentam uma relação linear.
d) Uma vez o p-value obtido foi > .05, não se rejeita H0 de que não existe uma
correlação significativa entre as variáveis. Assim sendo, os resultados demonstram
que a correlação entre as variáveis apresenta uma magnitude moderada, sentido
negativo e não é significativa [rS (49)= -.271, p = .055].
e) Normas APA (ecampus)
Regressão linear simples
- A variável independente prediz, afeta e explica a variável dependente
- A variável dependente só varia por causa da variável independente
Exemplos:
1. Nível de stress em função do tempo que resta para iniciarmos a nossa
apresentação?
2. O efeito do número de anos com Alzheimer sobre o desempenho em tarefas
mnésicas?
3. Efeito da ansiedade social sobre o rendimento no trabalho
Resposta ou Variável dependente
Preditor ou Variável independente
Causalidade
Apesar de em alguns dos exemplos acima a relação causa-efeito ser aparente,
esta pode ser difícil de estabelecer a não ser em experiências controladas (em
laboratório com randomização)!
Elaborar um modelo causa-efeito requer fundamentação teórica, ordem temporal
(i.e., as alterações no preditor precedem as alterações observadas na resposta) e,
por vezes, o controlo de outras variáveis que possam estar a afetar a relação entre
a V.I. e a V.D. (i.e., eliminar possíveis causas alternativas)
Princípios gerais e como funciona
Aspeto da regressão linear
Como interpretar esta equação?
Yj = variável dependente (ex: depressão) – vai ser estimada através do B0
B 0 (beta 0) – constante ou ordenada na origem
- Valor da V.D quando a V.I não existe
- Valor isolado da V.D
B1 (beta 1) - impacto da V.I por cada unidade (ex: tabela de chocolate) sobre a V.D –
quando introduzo a minha V.I no modelo, o que acontece à minha V.D quando a V.I
existe
O B1 é que vai definir se é positivo (soma-se) ou negativo (subtraem-se)
Xj – valor do nosso preditor (variável independente)
Ej – erro do modelo (resíduo)
Exemplo
Dep = 35 (-2) x Choc
- Por cada tablete de chocolate (unidade), eu reduzo 2 pontos ao score de depressão
Como estimamos?
Método dos quadrados mínimos
- Encontrar uma linha que vá o mais próximo possível às observações
Ou mais formalmente
- Encontrar a reta que minimize a SQE – soma dos quadrados dos erros (representado
pelo tracejado no gráfico)
Análise de variância do modelo
1º passo: Será que o nosso o modelo é melhor do que um modelo simples?
Um dos passos a verificar é se o nosso modelo, onde a nossa V.I. está a predizer a
nossa V.D., é melhor que um modelo sem preditores (sem V.I.).
Dito mais formalmente, queremos verificar se a variância explicada pelo modelo é
significativa face à variância que ainda se encontra por explicar (erro).
Para calcularmos isto vamos calcular (o JASP calcula) uma ANOVA (uma análise
que vamos explorar a fundo no próximo semestre e têm uma estatística de teste
conhecida como F de Snedecor) que nos irá responder a esta pergunta
- Se o p-value associado ao nosso F for ≤ 0.05, rejeitamos a hipótese nula (H0), e
podemos concluir que a nosso modelo é estatisticamente significativo. Quando temos
apenas uma V.I. isto também quer dizer que a nossa V.I. tem um efeitos significativo
sobre a nossa V.D.
F - Variância da V.D explicada pela V.I (pelo modelo) a dividir por Variância da V.D que
não é explicada pelo modelo
- Se o F for 2 explica 2x maior a que não explica
Coeficiente de determinação
Medida de significância prática
- Além de determinarmos se o modelo é estatisticamente significativo, é útil
determinar a significância prática do mesmo. Nomeadamente, qual a fração da nossa
V.D. que é explicada pelo nosso modelo (neste caso a nossa única V.I.)?
R 2 – dimensão de efeito
Percentagem da variância da variável dependente que consigo explicar
apenas através da V.I
Análise dos coeficientes do modelo
Modelo (o que a minha variável dependente explica) a dividir pelo total
(modelo + o que não explica)
2º Passo: Será que o nosso preditor (i.e., a nossa V.I.) tem influência sobre a nossa
V.D.?
Ao encontrarmos os nossos coeficientes de interesse, particularmente o B1, resta saber
se é esperado que o mesmo também seja diferente de 0 na população. Para tal,
precisamos de usar estatística inferencial!
H 0 :B 1=0 vs H 1: B 1≠ 0
Hipóteses
H 0– o modelo não é estatisticamente significativo (a V.I não é estatisticamente boa
preditora)
H 1- o modelo é estatisticamente significativo (a V.I é estatisticamente boa preditora)
*O modelo é uma V.I
Pressupostos de aplicação:
Pressupostos de aplicação da regressão linear para que a mesma seja válida
1. A variável dependente apresenta uma distribuição normal
2. Homogeneidade da variância – através de um gráfico; padrão de afunilamento
(não é homogéneo nem constante) – PLOTS (3ª opção) – regressão linear
3. Lineariedade – a relação entre X e Y tem de ser aproximadamente linear
STATISTICS (REGRESSÃO LINEAR)
4. Não existem outliers (casewise diagnostic) – standart residual
5. Independência dos resíduos/erros (durbin-watson)* - está entre 1 e 3
*Olhar sempre para o H1 (Statistics) – durbin watson
*É a V.D que tem de seguir distribuição normal
Hipóteses
H 0 – não está relacionada
H 1 – está relacionada
OUTPUT
- Sumário do modelo
R 2 – percentagem da variabilidade da minha v.d explicada pela minha v.i
NORMAS APA
(teste; gl; valor do F; p-value; R2)
F (1º e 2º)
K-1 N-2
K-1 - Nº de variáveis – 1
N-2 - Nº de pessoas – 2
ANOVA do modelo
Regression = Os parâmetros e variância do nosso modelo.
Residual = A variância que se encontra por explicar (erros).
Total = A soma de todos os componentes anteriores dá o total.
Output que vais nos dizer se o modelo é bom ou não
- Os resultados indicam que o modelo é estatisticamente significativo
*Quando o modelo é bom, a V.I também é boa
Intercept (unstandardized) – inicio do modelo ( B 0)
1º R2
2º ANOVA
3º unstandardized (o que acontece á minha V.D quando a V.I aumenta/diminui);
estatística de teste (t) e p-value
Regressão linear múltipla
Regressão Linear Simples vs Regressão Linear Múltipla
A regressão linear múltipla (RLM) é uma extensão (continuação) da regressão
linear simples para situações em que temos vários preditores (V.Is.). Ou seja, em
vez de estarmos limitados a apenas uma V.I. podemos ter várias V.Is. no modelo
para explicar a nossa V.D.
Exemplos:
1. Satisfação no trabalho em função da carga horária, suporte de supervisores e
percentagem de trabalho automatizado.
2. Como é que o tempo médio de exposição a conteúdo multimédia com teor
violento e os níveis de stress afetam o nível de agressão (medido numa
escala/inventário).
3. Impacto do número de horas de meditação e exercício físico sobre os níveis de
ansiedade.
Resposta ou V.d
Preditor ou V.i
Semelhanças com a regressão linear simples
Soma dos quadrados, R , R 2and Adjusted R 2
Tal como na regressão linear simples, na regressão linear múltipla temos
igualmente as diferentes somas dos quadrados (SQt,SQr, SQe), a única diferença é
que a computação dessas medidas é mais complexa (mas conceptualmente são
iguais).
Temos igualmente um valor R, embora o mesmo desta vez se refira a um
coeficiente de correlação múltipla (Multiple R). Neste caso, o R indica a associação
entre os valores da nossa V.D. e os valores da mesma estimados pelo modelo.
O coeficiente de determinação (R2) é interpretado do mesmo modo que na
regressão linear simples.
Na regressão linear múltipla, no entanto, é mais útil utilizar o R2 ajustado
(Adjusted R2)*. Isto porque o R2 ajustado penaliza a adição de preditores (i.e.,
penaliza modelos complexos). Ou seja, caso a introdução de uma nova V.I. não
aumente significativamente a capacidade preditiva do modelo, o R2 ajustado irá
diminuir. Tal nunca acontece com o R2 simples.
*R2 ajustado – percentagem da V.D que é explicada pelo modelo
Pressupostos de aplicação
- São os mesmos, com a inclusão de 1 adicional
Multicolinearidade: acontece quando as nossas V.I.s estão fortemente correlacionadas
entre si! Se tal acontecer, a interpretação dos coeficientes de cada fator (i.e., V.I.) pode
ser difícil (pouco fidedigna).
- Idealmente as V.Is. do modelo não estarão correlacionadas (i.e., serão ortogonais), no
entanto, na maioria dos casos existe sempre uma certa correlação entre elas
Exemplo:
Cacau
Chocolate Depressão
Açúcar
- Tenho duas variáveis a estudar o mesmo, uma suprime outra
*Para uma boa multicolinearidade as variáveis não devem estar relacionadas
Como diagnosticar multicolinearidade?
Podemos usar matrizes de correlações bivariadas ou o Fator de Inflação da Variância
(VIF) e/ou o valor de Tolerância. Como têm significados similares, basta apenas saber o
VIF!
VIF > 5 sinaliza potenciais problemas de multicolinearidade. VIF > 10 sinaliza
graves problemas. Isto pode levar a que as estimativas para os coeficientes
associados a cada V.I. (i.e., o B) possam estar claramente erradas.
T perto de 0 indica problemas de multicolinearidade. T perto de 1 indica ausência
de multicolinearidade.
*Apago a variável com o VIF maior
Hipóteses
H0: o modelo não é estatisticamente significativo; nenhuma V.I é estatisticamente boa
preditora – B1=B2=B3 = 0
H1: o modelo é estatisticamente significativo; pelo menos 1 V.I é estatisticamente boa
preditora – Bij (variável 1, 2 , 3, ...) ≠ 0
- Saber o que a V.I faz na V.D (ver no unstanartdized) – B1
- Positivo (aumenta); negativo (reduz)
- Saber qual das variáveis tem mais influencia (ver qual o valor mais alto no
Standardized)
*Se ela não é significativa, então não tem influência
Exercício 1
a) V.D – aumento da performace
V.I
Idade
Tempo médio de sono por noite
Níveis médios de stress
Intensidade média dos treinos
b)
Normalidade – 0.006 (não tem distribuição normal)
Linearidade – apresenta lineariedade
Outliers – não existe nenhum
Homonegiedade – está entre 1-3
Multicolinearidade – todas as variáveis apresentam VIF menor que 5
c)
O modelo é estatisticamente significativo. [F(4, 195) = 10.527, p < .001, R2Adj = .161]
O tempo médio de sono e a intensidade dos treinos aumenta a performance do atleta,
enquanto que a idade e os níveis médio de stress diminui a performance do atleta. A
variável que tem mais influência na performance do atleta é os níveis médios de stress
treinos e a variável que tem menos influencia é a idade.
*Não interessa se é negativo ou positivo
B= unstandardized
b= standardized
Exercícios 2
a) Existe um problema de multicolineiradade, visto que duas variáveis apresentam
um VIF superior a 5
c)
Existe normalidade
Existe linearidade entre as variáveis
Multicolinearidade - o VIF é inferior a 5
Homonegiedade – está entre 1-3
Não existe outliers
Exame
- 16 questões teóricas de escolha múltipla (0.5 cada)
- 3 exercícios práticos
*se sair probabilidades, a calculadora pode ser utilizada
Modelo exame
Exercícios teóricos
1. D) Amostragem não-aleatória por bola de neve
2. A) Os elementos da amostra são selecionados completamente ao acaso
3. B) Variável quantitativa de razão
*Zero absoluto significa que não existe; não faz sentido (ex: não consigo ver brócolos
num prato ou não consigo correr 0 Km por hora)
4. D) Variável qualitativa ordinal
*Quando é quantitativa, tenho os valores exatos
5. B) M= 4.965, SD= 1.168
*Uma variável nominal só tem a moda
6. C) O percentil 25 da variável A é 5.800
7. A) A distribuição dos dados é assimétrica à esquerda e leptocúrtica
8. H) As alíneas A, C e E estão corretas
9. A) O valor p é a probabilidade de obter um valor igual ou maior do que a
estatística de teste se H0 foi verdadeira
10. D) O erro tipo I acontece quando o efeito está presente mas não foi detetado
pelo teste de hipóteses
*Erro tipo I - probabilidade de rejeitar H0 quando H0 é verdadeira, ou seja quando não
deveria ter rejeitado – Falso positivo
Erro tipo II – probabilidade de não rejeitar H0 quando na verdade deveria ter rejeitado
– Falso negativo
11. K) As alíneas A, C, E, H estão corretas
*O H1 é que nos indica o caminho e a direção do teste
12. C) O coeficiente de correlação de Pearson deve avaliar uma variável quantitativa
e a outra ordinal
13. D) As variáveis estão significativamente correlacionadas. A correlação é forte.
Quanto maiores os valores da variável A maiores os valores da variável B
14. J) As variáveis estão positivamente correlacionadas
15. A) Os erros não apresentam homogeneidade de variâncias
16. J) As alíneas B, C, E, F estão corretas
Exercícios práticos
1.1 C)
1.2 D)
2.1 B)
2.2 D)
3.1 A)
3.2 B)
4.1 B)