0% acharam este documento útil (0 voto)
8 visualizações52 páginas

Análise Estatística I

O documento aborda a análise estatística, destacando sua definição, importância e aplicação na psicologia. Ele diferencia entre estatística descritiva e inferencial, detalha métodos de amostragem e apresenta variáveis e escalas de medida. Além disso, discute medidas de tendência central, dispersão, forma e representações gráficas de dados.

Enviado por

Mariana Costa
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
8 visualizações52 páginas

Análise Estatística I

O documento aborda a análise estatística, destacando sua definição, importância e aplicação na psicologia. Ele diferencia entre estatística descritiva e inferencial, detalha métodos de amostragem e apresenta variáveis e escalas de medida. Além disso, discute medidas de tendência central, dispersão, forma e representações gráficas de dados.

Enviado por

Mariana Costa
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 52

Análise estatística I

Introdução

1. Definição e importância

Definição de estatística
 Área da matemática que lida com a recolha, análise, interpretação, organização
e apresentação de informação
 Permite não só organizar e resumir grandes quantidades de informação que
caso contrário seriam de difícil interpretação, como também permite deduzir
conclusões sobre populações com base em dados recolhidos em amostras
representativas

A Psicologia é uma ciência que se dedica a estudar o comportamento humano. Tal


como outras áreas científicas, usa o método científico, fundamentando as suas teorias
e assunções em dados objetivos provenientes de observação/experimentação. Assim, a
estatística desempenha um papel fundamental na Psicologia (e não só) fornecendo
ferramentas necessárias para:
 Planear corretamente recolhas de informação (dados)
 Organizar grandes quantidades de informação de forma a que esta seja
interpretável [Estatística descritiva]
 Analisar dados testando hipóteses e fazendo previsões para a população em
questão [Estatística inferencial]
 Lidar com a variabilidade comportamental

Em suma, a estatística contribui para uma compreensão mais precisa e objetiva do


comportamento humano, reforçando a base científica da psicologia.

Estatística descritiva vs. inferencial

Estatística divide-se em duas grandes áreas:

Estatística descritiva: O objetivo é:

 1. resumir:
 tabelas de frequências
 medidas de tendência central: e.g., média, moda, mediana, quantis
 medidas de dispersão: e.g., desvio-padrão, amplitude interquartil, desvio absoluto
à mediana
 medidas de forma: e.g., assimetria ou skewness, achatamento ou kurtose
 medidas de associação: e.g., coeficiente de correlação de Pearson, Spearman, V de
Cramer

 2. representar informação (através de gráficos)


Estatística inferencial: O objetivo é generalizar (inferir) resultados de uma amostra
para a população

Amostragem

O que é?

- Conjunto de procedimentos estatísticos usados para selecionar amostras das


populações em estudo.

Existem 2 grandes tipos de amostragem:


 Amostragem Aleatória, Causal ou Probabilística
 Amostragem Não Aleatória ou Não-Probabilística

Amostragem Aleatória, Causal ou Probabilística

 Método de amostragem em que cada elemento da população tem uma


probabilidade conhecida e igual de ser selecionado para a amostra e todas
as amostras são igualmente prováveis. Isto é, as amostras são obtidas de
forma aleatória e todos os N indivíduos da população têm a mesma
probabilidade de serem selecionados para a amostra.

Permite fazer inferências para a população

Pode ser:

Amostragem Aleatória Simples: Todos os elementos da amostra são selecionados


completamente ao acaso, usando métodos como sorteios aleatórios ou números
aleatórios (Nem sempre resulta em amostras representativas, podendo sub-
representar grupos minoritários)

Amostragem estratificada: A população é dividida em subgrupos homogéneos ou


estratos (grupos etários, sexo, estatuto socioeconómico). Em seguida, uma amostra
aleatória é selecionada de cada estrato garantindo que cada subgrupo da população,
seja representado proporcionalmente na amostra final. (Garante a representação de
grupos minoritários na população).

Amostragem Aleatória Sistemática: Os elementos são escolhidos a intervalos


regulares, começando de forma aleatória. Por exemplo, podemos selecionar um
indivíduo em cada 10 premiados num determinado jogo de azar [e.g., indivíduo 1, 11,
21, 31...]

Amostragem Aleatória por Clusters: A população é dividida em grupos chamados


clusters, e alguns clusters são selecionados aleatoriamente para formar a amostra. Essa
abordagem é útil quando a população é naturalmente agrupada em clusters [e.g.,
Freguesias]

Amostragem Aleatória Multi-Etapas: Combina 2 ou mais dos métodos descritos acima

Amostragem Não Aleatória, ou Não-Probabilística

Método de amostragem em que não segue um processo aleatório e não garante que
todos os elementos da população tenham uma chance igual de serem escolhidos. Em
vez disso, os participantes são selecionados com base em critérios específicos ou por
conveniência.

Podem ou não ser representativas tornado a realização de inferências para a população


complicadas

Exemplos de Amostragem Não Aleatória, ou Não-Probabilística:

Amostragem de Conveniência: Os elementos da amostra são escolhidos de forma não


sistemática, com base na conveniência, disponibilidade ou familiaridade (e.g., amigos,
colegas ou aqueles prontamente disponíveis)

Amostragem Objetiva: Os elementos são selecionados com base em critérios


específicos ou objetivos predefinidos, como pacientes com determinado critério de
inclusão (e.g., indivíduos que sofreram ataques cardíacos ou pacientes com episódios
de demência)

Amostragem Modal: Envolve a escolha de elementos que representam os tipos mais


frequentes ou comuns na população (e.g., clientes típicos, eleitores típicos ou
pacientes típicos)

Amostragem de Especialistas: Os elementos da amostra são especialistas em uma área


específica, como um painel de comentadores ou um painel de médicos, sendo
selecionados pela sua experiência e conhecimento especializado

Amostragem de Bola de Neve: Os elementos da amostra são identificados inicialmente


e, em seguida, sugerem novos elementos para a amostra (e.g., clientes com crédito à
habitação sugerindo amigos nas mesmas condições)
Variáveis e Escalas de Medida

Variável: Formalmente a definição de variável é uma entidade estatística cuja


manifestação assume pelo menos dois atributos. Pode ser qualitativa ou quantitativa e
normalmente é representada por x, y, z.

De forma menos formal:


No processo de análise estatística, o investigador depara-se com "algo" que precisa
medir, controlar ou manipular. Este "algo" designa-se por variável (i.e. algo que varia,
que não é constante ao longo de todos os elementos da amostra).

A informação que cada variável pode fornecer, depende de como esta foi medida. Em
1946, Stevens propôs o que chamou de escalas de medida, classificando as variáveis de
acordo com a informação que podem fornecer.

Variáveis qualitativas:

Nominal: Qualidades onde não é possível estabelecer qualquer tipo de ordenação


entre as mesmas (variáveis que definem grupos ou características: e.g., género, cor dos
olhos, nacionalidades etc.).

Ordinal: Categorias/qualidades onde é possível estabelecer uma determinada ordem


através segundo uma relação descritível, mas não quantificável (é possível ordenar,
mas não quantificar (e.g., Estatuto socioeconómico, risco de incêndio, grau de
satisfação, nível de dor)

Variáveis quantitativas:

Intervalares: Valores mensuráveis que podem ser discretos ou contínuos,


apresentando distâncias fixas entre os valores na escala. No entanto, essas escalas não
possuem um zero absoluto (e.g., Ql, temperatura). Ou seja, embora as diferenças entre
os valores sejam consistentes, a ausência de um zero absoluto implica que zero não
indica a completa ausência da característica medida.

Razão: Valores mensuráveis que podem ser discretos ou contínuos, apresentando


distâncias fixas entre os valores na escala, incluindo um zero absoluto (e.g., velocidade,
peso e altura). A presença de um zero absoluto nessas escalas significa que o zero
indica a ausência completa da característica medida, tornando essas variáveis mais
robustas para análises e interpretações numéricas.

Estatística descritiva

Como o nome indica pretende descrever os dados. Quando temos bases de dados com
muitas observações não as conseguimos compreender sem algum tipo de resumo. Por
isso, precisamos de ferramentas (estatísticas) que nos permitam resumir e descrever os
dados.
 Importante: Como em qualquer resumo perdemos informação e às vezes pode ser
informação importante. O que devemos fazer é olhar para diferentes resumos dos
dados, que nos informam sobre aspetos diferentes, para chegar a um meio termo
entre simplicidade e nível de detalhe
 Devemos ainda ser capazes de compreender quais as estatísticas descritivas que
melhor descrevem o tipo de variável que estamos a utilizar

Estatísticas descritivas:
 Tabelas de frequências
 Medidas de tendência central e quantis
 Medidas de Dispersão
 Medidas de forma

As frequências informam-nos sobre o total ou a percentagem de observações com um


determinado valor. São geralmente organizadas em tabelas de frequências.

Vários tipos de frequências:


Absolutas: Corresponde à quantidade de pessoas que há; Total de observações com
um determinado valor
Relativas: Proporção/percentagem de observações com um determinado valor

Acumuladas:
(necessário ordenar os valores da variável por ordem crescente - só devem ser usadas
para variáveis qualitativas ordinais ou superiores)
Absoluta: Soma das frequências absolutas até um determinado valor
Relativa: Soma das frequências relativas até um determinado valor

*Não é possível calcular frequências acumuladas em variáveis qualitativas nominais,


uma vez que não é possível ordena-las por ordem crescente
*Se a nossa variável fosse quantitativa continua teríamos de recorrer à Regra de
Sturges

Exemplo:
Medidas de tendência central

- Tentam estimar o centro da distribuição da variável

1. Moda (MO) - O que mais repete; é o valor mais frequente de todas as


observações

Usado para que?


- Variável nominal (mais nenhuma)
- É pouco útil para variáveis continuas de classes ou intervalos

Mediana (MDN) – é o centro das nossas observações, ordenado por ordem crescente,
se N for ímpar. Se N for par, fazemos a média dos dois valores centrais. (Ex: 2 3 4 5 6 7
8)

- Utilizada em variáveis ordinais


- É pouco sensível a valores extremos

Média – ponto central da distribuição. Somamos todas as observações e dividir pelo


número de observações. É afetada por extremos

- Apenas pode ser calculada para variáveis quantitativas

Quantis – pontos que separam a amostra em X partes, fazendo com que uma dada
percentagem de observações esteja entre os valores de cada quartil

Q1 – 25% da amostra
Q2 – está sempre no meio (50%) - é a mediana
Q3 – 75% da amostra
Q4 – é o máximo (100%)

Percentis – partimos a amostra em cem partes

Significados dos símbolos do JASP


 3 bolas – nominal (moda)
 Gráfico de barras – ordinal (mediana)
 Régua – quantitativas (média)

Medidas de dispersão

Tentem estimar o quão distantes os dados estão uns dos outros (quão dispersos estão)

1. Amplitude (RANGE) – diferença entre o máximo e o mínimo

*Podem ser calculadas por variáveis qualitativas ordinais ou superiores

2. Amplitude interquartil (IQR) – diferença entre o Q3 e o Q1


*Podem ser calculadas por variáveis qualitativas ordinais ou superiores

Desvio-Padrão (Std. Deviation)– é a média das distâncias de cada participante à média.


Diz-nos quão distantes as observações tendem a estar da média. Geralmente, valores
elevados indicam que as pessoas diferem muito umas das outras (e vice versa). Tal
como a média, é calculado por variáveis quantitativas

*As variáveis quantitativas vêm acompanhas da média e do desvio padrão


*O desvio padrão não pode ser calculado se não soubermos a média

Medidas de forma

A distribuição de um conjunto de observações, além do ponto central e da dispersão,


pode ainda ser caracterizada quanto à sua forma:

1. Simetria/assimetria (enviesamento) – Skewness

- Assimétrica à direita (enviesada à esquerda) – cauda para direita e centro para a


esquerda
 Enviesamento positivo (SK > 0)

- Simétrica - sem assimetria (SK=0)

- Assimétrica à esquerda (enviesada à direita) – cauda para esquerda e centro para a


direita
 Enviesamento negativo (SK < 0)

*A assimetria deve estar entre -3 e 3 para ser considerada simétrica


*A SK pode ser calculada para variáveis qualitativas ordinais ou superiores

2. Achatamento – Kurtosis (Ku)

Leptocúrtica (Ku > 0)


Distribuição muito próxima do ponto central
Mesocúrtica (Ku=0)
Platicúrtica (Ku < 0)
Distribuição muito afastada do ponto central

*A SK pode ser calculada para variáveis qualitativas ordinais ou superiores


*Mesocúrtica deve estar entre -7 a 7

Síntese

Representação gráfica

1. Gráficos circulares

- Representa as frequências relativas de uma determinada variável


- Usado para representar variáveis qualitativas nominais ou variáveis qualitativas
ordinais

2. Gráfico de barras

- Representa as frequências relativas de uma determinada variável


- As barras normalmente estão separadas para se distinguir de um histograma
- Usado para variáveis qualitativas nominais, ordinais ou discretas (números inteiros)
- *Não é uma escala

3. Histograma

- Representa as frequências absolutas de uma determinada variável


- Temos de definir intervalos ou classes
- As barras devem aparecer coladas para não se confundir com um gráfico de barras
- Usado para variáveis quantitativas contínuas
4. Densidade

- Semelhante ao histograma, mas representa a densidade de uma variável ao longo dos


seus valores
- Muito útil para percebermos a distribuição dos dados
- Por vezes usado juntamente com o histograma
- Usado para representar variáveis quantitativas contínuas

Caixa de bigodes

- Representa a amplitude interquartil


- A caixa é delimitada pelo Q1 e Q3, aparecendo o Q2 como um risco algures na caixa.
*Quando o risco não está ao centro podemos ter assimetria
- Os bigodes podem corresponder ao mínimo e ao máximo
- Os pontos são outliers
- Usado para representar variáveis qualitativas ordinais ou superiores
- O tamanho dos bigodes é amplitude interquartil/dispersão

Violino

- Semelhante à caixa de bigodes


- Representam a distribuição de uma variável ao longo de um conjunto de valores
- Pode incluir as linhas dos quartis, representando a mesma informação que a caixa de
bigodes, ao mesmo tempo que mostra a distribuição dos dados
- Usado para representar variáveis quantitativas contínuas

Relações entre variáveis

Podemos usar os gráficos também para procurar relações entre variáveis. Por exemplo
podemos representar uma determinada variável em vários grupos para tentar
compreender se os grupos diferem entre si, ou podemos representar uma variável em
função de outra para perceber se por exemplo valores mais altos de uma variável
correspondem também a valores mais altos da outra variável.

Diagrama de dispersão

- Representa duas variáveis qualitativas ordinais e superiores, uma em função da outra


- Muito útil quando falamos de correlações ou regressões
Síntese

Probabilidades e modelos probabilísticos

Introdução - Probabilidade

Definição simples: possibilidade da observação de um acontecimento

Existem várias formas de expressar probabilidade. Uma delas é através da definição


analítica/clássica, mas vamos nos focar na probabilidade frequencista (percentagem)

Definição frequencista: (assumindo uma seleção/amostragem aleatória) Probabilidade


é a frequência relativa de um evento A num grande número de observações do
mesmo fenómeno. Ou seja a probabilidade é definida com base num grande conjunto
de eventos anteriores (observações) e na percentagem de vezes que A é observado
(probabilidade a longo prazo)

Exemplo da abordagem frequencista:

Qual a probabilidade de retiramos um M&M azul de um saco com 100 M&Ms?

- Começamos por retirar vários M&Ms, um de cada vez, e anotamos a sua cor, repondo
esse M&M de volta no saco (amostragem com reposição)

- No fim, se tivermos feito este processo um grande número de vezes (ex: 1000 vezes,
sendo que 160 foram de um M&M azul), iremos chegar a probabilidade correta de
retirarmos um M&M azul do saco.

P(M&M azul) = 160/1000 = 0.16


*Esta experiencia pode ser vista como uma experiencia aleatória, visto ser um
procedimento que podemos realizar múltiplas vezes, levando sempre a resultados
imprevisíveis/aleatórios

Exemplos de experiencias aleatória:


 Registar o nível de felicidade de uma amostra aleatória de 50 pessoas
 Registar o número observado em 100 lançamentos de um dado
 Registar o aumento de peso de 20 pessoas após uma nova medicação

Distribuição de probabilidade

O que é?

- É uma tabela ou função que indica a probabilidade de ocorrência de um ou vários


eventos de uma variável aleatória (variável que representa o resultado de uma
experiencia aleatória. Ou seja é “algo” que representa a probabilidade para cada
evento de uma variável aleatória

 Variável discreta: se os valores possíveis forem valores discretos (finitos ou


infinitos) - números completos/inteiros positivos; não pode ter vírgulas (ex:
lançamento dos dados, nº de filhos)

 Variável contínua: se os valores possíveis forem valores contínuos (finitos ou


infinitos) - fracionários, tem várias opções, tem casas decimais (ex: altura, peso)

Variável discreta

Quando lidamos com variáveis discretas, podemos falar na probabilidade de um


evento especifico/completo P(X = x ¿

Exemplo: Probabilidade de reportar “Muitissimo” (valor 5) numa escala de depressão


P (X = 5) = 0,06
- Conseguimos fazer e saber a probabilidade exata e o número exato

OU

Podemos falar da probabilidade de certos intervalos de valores (somar)

Exemplo: Probabilidade de reportar igual ou abaixo de “Normal” (valor 3) na escala de


depressão

Função de distribuição de probabilidades acumuladas

P (X ≤ 3 ¿ = 0,02 + 0,03 + 0.25 + 0.39 = 0.69

Variável contínua

Quando lidamos com variáveis contínuas podemos falar apenas na probabilidade de


um evento estar dentro de um determinado intervalo de valores. Graficamente,
passamos de um gráfico de barras com frequências relativas para um gráfico de
intervalos infinitesimais (ex: gráfico de densidade)

*Não conseguimos valores exatos


Exemplos concretos:

Distribuição binomial

É aplicada a variáveis aleatórias discretas (qualitativas)


Indica a probabilidade de sucessos* (q) esperados num conjunto de tentativas (n)

*Sucesso – interesse do estudo

 Verifica-se quando a experiencia em causa tem apenas 2 eventos possíveis (ex:


Sim ou Não, Feminino ou Masculino, Grávida ou Não Grávida). Isto é conhecido
como um ensaio/experiencia de Bernoulli
 A probabilidade de sucesso (ex: resultado de interesse) em cada ensaio é
representado por p. A probabilidade do outro resultado (insucesso) é
representado por q. O n representa o número de observações/tentativas

Propriedades gerais:

P=1 – q p+q=1 q=1 – p

 A média (ou proporção esperada de sucessos) é representada por Ε ( X )=n x p

 A variância é representada por V ( X )=n x p x q

Exemplo:

Um jogador faz 10 remates e falha 2


Qual a probabilidade de sucesso de marcar 5 em 20?
Sucesso = 0,8
N= 20
Intervalo (5 e 5)

*N – número te tentativas/experiencias para a probabilidade que vamos estimar


Distribuição binomial no JASP

Descrição geral:

Exercícios práticos:

Imagine que 2 em cada 10 pessoas toma medicação antidepressiva

- Num questionário aleatório de 80 pessoas:

a) Qual a probabilidade de 20 pessoas estarem a tomar antidepressivos?

Interesse – 10/2 = 0,2


N = 80
Intervalo – (20/20)

R: P (X = 20) = 0,06

b) Qual a probabilidade de pelo menos 15 pessoas tomarem antidepressivos?

Interesse = 0,2
N= 80
Intervalo (15/80)

R: P (15 ≤ X ≤ 80¿=0 , 65

c) Qual a probabilidade de não haver mais do que 10 pessoas a tomar


antidepressivos?

Interesse = 0,2
N= 80
Intervalo (0/10)
R: P ( X ≤ 10 ¿=0 , 06

Distribuição normal

 É a mais importante e popular


 Utiliza variáveis contínuas
 Relevante para o conceito do Teorema do Limite Central

X N (μ , σ )

 μ – média
 σ – desvio padrão

E ( X )=μ
V ( X )=σ 2 - Variância

*Quando não sabemos o valor máximo utilizamos o infinito

E se quisermos saber qual a probabilidade de obtermos certos intervalos de valores?

 Por exemplo, imagine que sabemos que a população adolescente portuguesa


apresenta numa escala de ansiedade contínua uma média de 15, com desvio
padrão de 5
 Dada esta informação, e sabendo que esta variável apresenta uma distribuição
normal na população, qual a probabilidade de um adolescente, escolhido
aleatoriamente, ter um nível de ansiedade igual ou superior a 25?

X N (μ=15 , σ=5)
P (X ≥ 25 ¿=?

Distribuição normal reduzida

*Estandardização – passar tudo para a mesma escala

 Uma distribuição normal reduzida é a transformação da nossa distribuição normal


numa distribuição centrada em 0 ( μ=0 ¿ e com desvio padrão de 1 (σ =1 ¿
 Depois só temos de transformar igualmente o nosso valor (25) para essa mesma
escala
Distribuição normal – JASP

Exercícios práticos

X N (μ=15 , σ=5)

a) Qual a probabilidade de um individuo, escolhido aleatoriamente, ter um nível


de ansiedade entre 5 e 15?

μ=15
σ =5
Intervalo (5 / 15)

R: P (5 ≤ X ≤15 ¿=0 , 48

Distribuição Qui-quadrado

 Esta distribuição ocorre quando somamos várias distribuições normais reduzidas


(Z) elevadas ao quadrado
 O único parâmetro é o valor K (graus de liberdade) que corresponde ao número
de variáveis Z
 Vai trabalhar variáveis nominais e categóricas
 Vai avaliar a variância entre o que era esperado acontecer e o que realmente
aconteceu
 Utilizados em muitos testes estatísticos
Distribuição T-Student

 Representa a razão entre a distribuição normal reduzida e a distribuição de qui-


quadrado
 Muito usada em testes estatísticos, sendo muito semelhante a uma distribuição
normal, mas com “caudas” mais longas, refletindo uma maior variabilidade. Isto é
especialmente notável em amostras pequenas
 Aproxima-se de uma normal á medida que os graus de liberdade aumentam, ou
seja, para amostras maiores (perto ou superiores a 30)

Distribuições amostrais

 Distribuição amostral – distribuição de probabilidades de uma determinada


estatística (ex: média). Ou seja, é uma distribuição que demostra a probabilidade
de obtermos uma estatística em particular em várias possíveis amostras retiradas
independentemente da população

 Erro amostral – representa a variabilidade encontrada entre as várias amostras no


que respeita essa estatística. Ou seja, o quanto a estatística (ex: média) varia de
amostra para amostra, retiradas sempre da mesma população

 Erro padrão – desvio padrão da distribuição amostral. Mede o quão precisa é a


estimativa da nossa estatística

*O n representa o tamanho de cada amostra


Teorema do limite central

Á medida que o nosso número de amostras vai aumentando, a distribuição das médias
de altura aproxima-se cada vez mais de uma distribuição normal.

*Mais pessoas – menos variabilidade

Mas porque não usamos somente o σ em vez de usamos o ?

 Porque a nossa precisão para a nossa média está claramente dependente do


nosso n (tamanho da amostra)
 Isto é, amostras maiores levam a uma maior precisão da nossa estimativa para a
média da população
 De acordo com o teorema limite central, esta precisão pode ser definida dividindo
o desvio padrão da população pela raiz quadrada da nossa amostra

 Na verdade, como usualmente desconhecemos o desvio padrão verdadeiro (σ ¿ ,


nós vamos simplesmente utilizar o desvio padrão da nossa amostra

Então mas o que é o teorema do limite central?

O teorema do limite central diz que, independentemente do tipo de distribuição da


nossa população, a distribuição amostral da média, tendem a seguir uma distribuição
normal à medida que o tamanho da amostra aumenta

 Ou seja, se tivermos uma amostra decentemente grande (regra de polegar N ≥30


), então podemos invocar o TLC e dizer que a média da nossa amostra segue
provavelmente uma distribuição aproximadamente normal:

 Dito isto, convém verificarmos se a nossa amostra não tem uma distribuição
muito assimétrica ou com um achatamento demasiado elevados. Se tal for o caso,
podemos necessitar de uma amostra maior para invocar o TLC
Mas qual o interesse desta propriedade?

 Ele é extremamente útil para a inferência estatística e mais propriamente testes


de hipóteses, algo, sem o qual, teríamos muitas dificuldades em generalizar os
dados da nossa amostra para a população inteira.

 Dito de outra forma, com base no TLC, conseguimos obter uma precisão da nossa
estatística, porque sabemos que a mesma segue uma distribuição
aproximadamente normal

 Assim sendo, podemos criar um intervalo de confiança (ver aulas seguintes) sobre
esta estimativa.

 Além disso, essa propriedade permite-nos, sabendo a média e o desvio padrão


da população, fazer estimativas sobre a média que esperamos obter quando
recolhemos novas amostras

• Mais importante, se for possível invocar o TLC (i.e., se a nossa amostra for igual ou
superior a 30), podemos, por norma (ver slide anterior), assumir que a nossa
distribuição amostral da média segue uma distribuição normal. Como tal, mesmo
que a nossa distribuição dos dados não seja normal, algo que poderia invalidar o
uso de testes paramétricos (e.g., testes t-student ou ANOVAs), com uma amostra
grande, podemos contornar este pressuposto invocando o TLC!

Exercícios práticos:

Imagine que a população feminina adulta tem uma média de 168cm e um desvio
padrão de 7cm. Sabendo isto, recolheu uma amostra aleatória de 40 participantes do
sexo feminino

a) Qual será a nossa estimativa para a média da nossa amostra?

R: A nossa estimativa é 168cm

b) Qual a probabilidade da média da nossa amostra ser igual ou inferior a 170cm?

μ=168
σ =1.106
Intervalo = 170 to ∞

R: 4%
*No JASP, quando queremos calcular a probabilidade da amostra utilizamos o erro
padrão (3 casas decimais)

Exercícios (JASP)

1. Imagine que o QI segue uma distribuição normal na população com os


seguintes parâmetros (média e desvio padrão):

QI N (100 , 10)

Qual a probabilidade de encontrar um individuo com QI igual ou superior a 125?

μ=100
σ =10
Intervalo = 125 to ∞

R: P ( X ≥ 125 )=0 ,01

2. Imagine que quer testar se uma pessoa têm poderes psíquicos. Como tal,
coloca a mesma a avaliar lançamentos de moedas. Qual a probabilidade
(assumindo que a mesma não tem poderes) de uma pessoa acertar exatamente
30 em 50 lançamentos?

Interesse = 0,5
N= 50
Intervalo= 30/30

R: P (X = 30) = 0,04

3. Imagine que a média de aversão e estatística nos estudantes do ISPA é de 70,


tendo um desvio padrão de 18. Imagine agora que recolhe aleatoriamente 50
alunos/as.

3.1 Qual a sua estimativa quanto à média de aversão à estatística para a sua amostra?

R: μ=70

3.2 Qual o erro padrão associado a esta estimativa?

3.3 Qual a probabilidade de a média da sua amostra ser de 65 ou inferior?

μ=70
σ =2.546
Intervalo = -∞ to 65

R: P ( X ≤ 65 ¿=0 ,02

Exercícios

1. Sabendo que 1 em cada 10 professores tropeça nas escadas. Qual a


probabilidade de 5 professores em 35 tropeçarem nas escadas?

Interesse= 1/10 = 0,1


N= 35
Intervalo= 5/5

R: P (X = 0,14), ou seja 14%

2. Sabendo que 5 em cada 20 professores tropeça nas escadas. Qual a


probabilidade de 20 a 30 professores em 40 não tropeçarem nas escadas?

Interesse = 5 a dividir por 20= 0,25 (tropeçam) mas eu quero saber os que não
tropeçam, ou seja 0,75
N= 40
Intervalo= 20 / 30

R= P (20 ≤ X ≤30 ¿=¿ 0,56

3. Felicidade N (77; 5). Qual a probabilidade de 1 sujeito que


apresente uma média superior a 72?

Média= 77
Desvio padrão= 5
Intervalo= 72 to infinito

R: P ( X ≥ 72¿=¿ 0,84

4. Felicidade N (77; 5). Qual a probabilidade de 1 sujeito que


apresente uma média de 75 a 77 e uma média de 69 a 71?

Média= 77
Desvio padrão= 5

Média de 75 a 77 = 0,16
Média de 69 a 71= 0,06

Somar – 0,16 + 0,06= 0,22 (22%)

5. Felicidade N (77; 5). Qual a probabilidade de uma amostra de 30


apresentar uma média amostral inferior ou igual a 80?
Erro padrão= 0,913

R: 0,999

Introdução à Estatística Inferencial

Processo pelo qual se procura estimar ou inferir os valores dos parâmetros


populacionais ou de relações entre eles a partir de uma ou mais amostras da
população.

Ou seja, a estatística inferencial permite-nos, a partir da nossa amostra, estimar o valor


de parâmetros (Teoria da Estimação) e tomar decisões (com recurso a testes de
hipóteses) relativas a esses mesmos parâmetros na população teórica (Teoria da
Decisão).

Teoria da estimação: utilizando estimadores apropriados, visa estimar parâmetros


populacionais a partir de estimativas amostrais.

1. Estimação pontual

- Inferimos o valor do parâmetro na população com base no valor de estatística obtida


numa ou várias amostras. Pode ser tão simples como estimar a média populacional é 4
porque a média amostral é 4

*Basicamente é estimar a média da população

Limitação: não possui nenhum grau de certeza associado à estimativa obtida.


Diferentes amostras conduzem a diferentes estimativas do parâmetro populacional que
é único. Para resolver este problema, recorremos então a procedimentos com uma
determinada probabilidade (1 - a) de produzir intervalos que incluam o real parâmetro
da população.

2. Estimação intervalar

- Estimamos o valor dos parâmetros populacionais com recurso a intervalos de


confiança (IC)

Por outras palavras: Um IC é uma estimativa estatística que fornece um intervalo de


valores dentro da qual é razoável supor o verdadeiro valor de um parâmetro
desconhecido esteja. É uma maneira de quantificar a incerteza em torna de uma
estimativa

Exemplo: Se recolhermos dados de uma determinada amostra podemos calcular um IC


para a média de uma variável. Este IC representa um intervalo de valores no qual
temos um determinado nível de confiança de que a verdadeira média da população
esteja contida. O nível de confiança geralmente é expresso como uma percentagem
(frequentemente 95%). Isso significa que, se repetirmos o processo de amostragem e
de cálculo do intervalo de confiança várias vezes, aproximadamente 95% destes
intervalos irão conter o verdadeiro valor do parâmetro populacional.
IMPORTANTE: a confiança do intervalo diz respeito ao "longo prazo", um dado
intervalo ou contém ou não o parâmetro populacional (0% ou 100%), mas a longo
prazo esperamos que x% dos intervalos (e.g., 95%) contenham o real valor do
parâmetro na população.

Assim o IC fornece-nos uma medida de precisão da nossa estimativa considerando a


variabilidade inerente aos dados recolhidos na nossa amostra e o tamanho da mesma:

 A amplitude do intervalo dá-nos uma ideia da precisão da nossa estimação.


Quanto mais variabilidade maior o intervalo, logo menos precisa da nossa
estimação

Nota:

 Quanto maior o N, menor a amplitude – maior a precisão


 Quanto maior o intervalo, menos preciso ele é
 Quantas mais pessoas, menor o intervalo – maior a precisão
 Quantas mais pessoas eu tenho, melhor; estou mais perto da realidade da
população
 Quanto menor a variabilidade, maior a precisão

*Variabilidade – diferenças individuais

Os ICs constroem-se a partir da estimativa amostral do parâmetro, da variância dessa


estimativa na amostra e do valor da distribuição amostral do estimador do parâmetro
no percentil 1 – α /2

Simplificando: as fórmulas que vimos nos slides anteriores apenas definem uma
"margem de erro" a subtrair e somar ao estimador pontual, para definir o limite
inferior e superior do intervalo. Ou seja, depois de conhecida a estimativa amostral, é
calculada uma margem de erro (considerando um valor crítico do estimador e a
variância da estimativa na amostra) que é depois subtraída e adicionada à estimativa
amostral.

Se já conhecemos (estimamos) o IC:

Margem de erro – limite superior – limite inferior / 2

Confiança: Amplitude
 99%
 95%
 90%
*Se no enunciado não estiver a confiança, é 95%
*JASP – frequencies (estimação pontual e estimação intervalar)

Exercícios práticos:

1. Base de dados – inferência_interesse

a) Qual a média amostral da variável [Interesse]?


M= 2.620

b) Qual o intervalo de confiança a 95% para a média populacional da variável


[Interesse]?
IC 95% (1.442, 3.798)

c) Qual a margem de erro da estimativa da média populacional?


R: 1.178

d) Qual a probabilidade do intervalo obtido neste estudo conter o verdadeiro valor


da média do [Interesse] na população?
R: 0 ou 100%, porque ou contém ou não contém

e) Qual a probabilidade dum intervalo futuro vir a conter o verdadeiro valor da


média do [Interesse] na população?
R: 95%

f) Qual o intervalo de confiança para a variância populacional?


IC 95% = (11.683, 22.672)

g) Se eu correr outros estudos semelhantes, para estimar a média populacional do


[Interesse], com mais participantes, o que posso esperar que aconteça à
amplitude dos intervalos?
R: Que os intervalos tenham menor amplitude

2. Base de dados – inferência_sondagens

a) Qual a média da motivação [Motiv] dos participantes da nossa amostra?


M= 42.236

b) Usando um procedimento para estimação intervalar com confiança de 95% (a


longo prazo) qual o limite inferior e superior que obtém para a média de
motivação [Motiv]?
IC 95% = (40.682, 43.790)

c) Podemos dizer que esperamos que 95% da população tenha valores de


motivação [Motiv] entre o limite inferior e superior que obtivemos?
R: Não necessariamente. Apenas que o procedimento deveria estimar um intervalo
que incluísse o valor da média populacional em 95% dos casos.
d) Em 10 000 estudos semelhantes, recorrendo ao mesmo procedimento de
estimação intervalar, quantos estudos podemos esperar que produzam
intervalos que contenham o real valor da média populacional da motivação
[Motiv]?
R:9500

e) Se esperarmos que haja mais variabilidade na motivação das pessoas para


participar em manifestações e conduzirmos um estudo semelhante em que
avalie essa motivação o que posso esperar da largura dos ICs desse estudo por
comparação com os deste?
R: A amplitude vai ser maior

f) Qual estimação pontual e intervalar (com 95% de confiança) para a proporção


de pessoas que vai efetivamente votar [Int_Votar]?
Estimação pontual (proporção) = 0.316
Estimação intervalar - IC 95% = (0.275, 0.359)

Razões para uma maior amplitude:


 N é menor
 Maior variabilidade

Teorias da decisão/testes de hipóteses

Teoria da decisão – tomamos decisões relativas aos parâmetros populacionais, a partir


das observações amostrais (área mais utilizada em estatística e analise de dados).

Teste de hipóteses – é um procedimento estatístico que nos permite decidir sobre a


plausabilidade de hipóteses relativas a parâmetros populacionais, a partir de amostras
da população do estudo. Essas decisões são tomadas com um determinado nível de
confiança ou probabilidade de erro. Por outras palavras, eu tenho hipóteses e vou
defender a plausabilidade de hipóteses

Ou seja: Não conseguimos ter a certeza (100%) que decidimos corretamente, mas
recorremos a procedimentos que controlam erros, dando-nos alguma confiança na
decisão tomada (geralmente, 95%)

Exemplo: Temos uma máquina cuja função é encher pacotes de açúcar. Ela está
calibrada para colocar 4g de açúcar em cada pacote. No entanto, nós, sendo
naturalmente desconfiados, queremos certificar-nos que de facto, em média, os
pacotes de açúcar que passam pela máquina pesam 4g. Como tal, eu assumo este valor
médio de 4g por pacote de açúcar (a minha hipótese), e vamos testar se, numa
amostra de N pacotes de açúcar que recolheremos aleatoriamente, a média se afasta
significativamente desse valor. Com base no resultado, decidiremos se a máquina
funciona bem ou não

Etapas:
1. Definir hipóteses estatísticas
2. Computador a estatística de teste
3. Decidir
4. Concluir e reportar os resultados

1. Definir hipóteses estatísticas

Uma hipótese é uma preposição acerca de um acontecimento de natureza


aleatória, cujo o resultado não se conhece a priori. Ou seja, é uma predição sobre um
determinado acontecimento

H0 VS H1

Hipótese Nula (H0):


Ausência de efeito, o que aconteceria se a teoria estiver errada (e.g., os alunos de
psicologia não têm scores no STICSA diferentes dos alunos de direito). Assumida como
verdadeira até prova significativa em contrário.

Hipótese alternativa (H1):


Alternativa à Ho, aquela que geralmente pretendemos que seja verdadeira. Ou seja, é o
efeito esperado, o que aconteceria se a teoria estiver correta (e.g., os alunos de
psicologia têm scores no STICSA diferentes dos alunos de direito).

H0 – não há resultados; não se passa nada; tem sempre igualdade


H1 – é o contrário do H0; não tem igualdade

2. Computador a estatística de teste

A estatística de teste representa a distancia relativa entre o parâmetro populacional


hipotético e a estimativa amostral

 Se a E.T. for um valor elevado, então a média observada na amostra (X) é muito
diferente da média da população (u) prevista pela H0. Logo, rejeitamos H0.
 Se a E.T. for um valor pequeno, então a média observada na amostra (X) não é
muito diferente da média da população (4) prevista pela H0. Logo, não rejeitamos
H0.
3. Decidir

Existem duas formas:

 Região de rejeição (não sai)


 P-value

P-value (R. Fisher)

Conhecendo a distribuição amostral da estatística de teste é possível determinar quão


plausível é o valor calculado da E.T ou um valor mais extremo, para a amostra em
estudo
Regra: Rejeitar H0 se p-value ≤ α

O p-value é a probabilidade de obter um valor igual ou maior do que a estatística de


teste se a H0 for verdadeira e é calculado diretamente pelo software quando
realizamos testes estatísticos

Para decidir sobre a plausibilidade das hipóteses comparamos a probabilidade (p-


value) de obter os resultados que obtivemos, ou mais extremos, se não houvesse efeito
(H0), com a proporção máxima de falsos positivos que estamos dispostos a tolerar (α ).
Quando o p-value é igual ou inferior a α , rejeitamos a ausência de efeito (rejeitamos
H0).
Nota: α > Proporção máxima de falsos positivos que estamos dispostos a aceitar. É
a probabilidade de eu rejeitar H0, quando ela é verdadeira = P(erro tipo 1)

Contudo, a decisão de rejeitar H0 pode estar errada:

4. Concluir e reportar os resultados


A rejeição ou não rejeição de H0 permite concluir sobre a validade da hipótese de
investigação relativamente ao parâmetro populacional.

Os resultados devem ser comunicados ao potencial leitor de forma clara o suficiente


para leitores com menos conhecimento estatístico compreenderem, mas com detalhe
suficiente para leitores mais conhecedores poderem avaliar os resultados e os
procedimentos estatísticos.

Exemplo:
Foi realizado um estudo para compreender se os alunos do ISPA demonstravam um
interesse significativamente diferente de 0 pela decoração do edifício, avaliado usando
uma escala contínua de 0-10, sendo "0" a ausência de interesse e "10" um interesse
muito elevado.
Um teste t para uma amostra revelou que o interesse pela decoração do edifício é
significativamente diferente de zero [t(49) = 4.47, p < .001], sendo, no entanto,
geralmente baixo (M = 2.62, SD = 4.15, 95%IC = [1.44, 3.80]).

Testes de hipóteses para uma população

Existem dois tipos de testes:

Testes paramétricos (são os mais utilizados no exame)

 Vão com base direta em parâmetros populacionais (ex:média)


 Requerem um conhecimento da distribuição da V.D. – distribuição normal
 Requerem v.d.s quantitativas (ou seja, que é passível de transformação em
quantitativa)
 São mais potentes (vai errar menos) e menos conservadores (encontram mais
facilmente o que existe mesmo) - maior probabilidade de rejeitar H0 quando
esta é falsa

Testes não paramétricos

 Não tem como base direta os parâmetros populacionais


 Não querem o conhecimento da distribuição da V.D (são adistribucionais)
 Podem ser utilizados com v.d.s quantitativas ou qualitativas
 Menos potentes e mais conservadores (menor probabilidade de rejeitar H0
quando esta é falsa)
 São geralmente utilizados como uma alternativa aos testes paramétricos caso
os pressupostos de aplicação destes não se verifiquem

T-Student para uma população

Para que serve?

- Determinar se a média de uma amostra é significativamente diferente da média


(conhecida ou hipotetizada) de uma população
Por outras palavras: compreender se a média de uma amostra difere significativamente
de um determinado valor de referencia
Pressupostos:

- A variável dependente tem de ser quantitativa – escala de medida intervalar ou de


razão
- Normalidade - a V.D segue distribuição normal

Pressuposto da normalidade: Teste de Shapiro-Wilk

Questão: a distribuição da v.d afasta-se significativamente da distribuição normal?

Hipóteses:
H0: A V.D não se afasta significativamente na distribuição normal
H1. A V.D afasta-se significativamente da distribuição normal

Decisão:

Se p ≤0.05 rejeitamos H0 – a variável não tem destruição normal


Se p ≥ 0.05 não rejeitamos H0 – a variável tem distribuição normal

CURIOSIDADE

Outra forma de verificarmos o pressuposto da normalidade é através do Q-Q Plot

Usado para representa graficamente uma comparação da distribuição de uma variável


numa amostra com uma distribuição teórica (distribuição normal)

Quantos mais pontos estiverem sobrepostos com a linha, mais a distribuição da


amostra se aproxima da distribuição teórica

- Se eu verificar que a variável é quantitativa e que segue uma distribuição normal,


podemos utilizar o teste T-student para uma população

Hipótestes (T-student)

Teste bilateral
(H0: μ=μ 0 ¿ “A média de uma amostra não é significativamente diferente da média”
populacional”
(H1: : μ ≠ μ 0 ¿ “A média de uma amostra é significativamente diferente da média”

Teste unilateral à direita


(H0: μ ≤ μ 0 ¿ “A média de uma amostra não é significativamente superior (inferior ou
igual) à média”
(H0: μ> μ 0 ¿ “A média de uma amostra é significativamente superior à média”
Teste unilateral à esquerda

(H0: μ ≥ μ 0 ¿ “A média de uma amostra não é significativamente inferior (superior ou


igual) à média”
(H0: μ< μ 0 ¿ “A média de uma amostra é significativamente inferior à média”

*H0 tem sempre igualdade

JASP

1º Normality (se não tiver tenho de fazer outro teste)


2º Student (se a distribuição for normal)
- Test value (está no enunciado)

Hipótese alternativa

T - estatística de teste
Df – graus de liberdade (n-1)
P – p-value

Ex: t(df - 15) = -5.823 (t) ; p-value = < 0.001 --- rejeita H0 pois p < 0.050

R: H1: Dift ≠ 16

*Para saber a média e o desvio padrão, utilizo a opção Discriptives no T-test

Teste de Willcoxon

- Alternativo ao teste T-student

Pressupostos:
- Quando a v.d não é qualitativa
- Quando a v.d não segue uma distribuição normal

Não podemos utilizar o t-student, temos de utilizar o Willcoxon

*basta falhar um

Para que serve este teste?

- Comparar um conjunto de valores relativamente a um valor de referencia, neste caso,


a mediana
Ou seja, responde à questão:
- A mediana de uma amostra é significativamente (diferente, menor ou maior) do que a
mediana populacional

Pressuposto
1. V.d qualitativa medida numa escala ordinal ou superior

Hipóteses
- A única coisa que difere do T-student é que no T-student o símbolo é a média ( μ ¿ e no
teste de Willcoxon o símbolo é a mediana (θ )

Teste bilateral
(H0: θ=θ 0 ¿ “A média de uma amostra não é significativamente diferente da média”
populacional”
(H1: : θ ≠ θ 0 ¿ “A média de uma amostra é significativamente diferente da média”

Teste unilateral à direita


(H0: θ ≤ θ 0 ¿ “A média de uma amostra não é significativamente superior (inferior ou
igual) à média”
(H0: θ>θ 0 ¿ “A média de uma amostra é significativamente superior à média”

Teste unilateral à esquerda

(H0: θ ≥ θ 0 ¿ “A média de uma amostra não é significativamente inferior (superior ou


igual) à média”
(H0: θ<θ 0 ¿ “A média de uma amostra é significativamente inferior à média”

NOTA:
H0: Igualdade (= ; ≤ ; ≥)
H1: < ; > ; ≠

Testes de hipóteses para uma população (Binomial)

Teste Binomial

Para que serve?


- Inferir sobre a proporção (%) populacional a partir de uma amostra da população em
estudo.
- Testar se as proporções observadas diferem das proporções esperadas (hipótese) para
a população

Exemplo:
Um grupo de investigadores defende que mais de 10% dos sujeitos com parentes em
19 grau que sofrem de esquizofrenia pode sofrer da mesma patologia. Através da
amostra em estudo, é possível suportar esta afirmação?

*Proporção = Percentagem – variáveis qualitativas


Pressupostos de aplicação

Pressupostos:
- Observações independentes

Responde à questão
- A proporção populacional é significativamente (diferente/maior/menor) que X (valor
de referência)?

Hipóteses:

Teste Bilateral:
(H0: π= p 0 ¿ pol "A proporção populacional não é significativamente diferente de X
valor de referência)"
(H1: π ≠ p 0] "A proporção populacional é significativamente diferente de X (valor de
referência)"

Teste Unilateral à direita:


(H0: π ≤ p 0 ¿"A proporção populacional não é significativamente superior (i.e., é
inferior ou igual) a X (valor de referência)"
(H1: π ¿ p 0) "A proporção populacional é significativamente superior a X (valor de
referência"

Teste Unilateral à esquerda:


(H0: π ≥ p 0 ¿ "A proporção populacional não é significativamente inferior (i.e., é
superior ou igual) a X (valor de referência)"
(H1: π ¿ p 0 ¿ "A proporção populacional é significativamente inferior a X (valor de
referência)"

JASP
1º Frequências
2º Binomial teste

Decisão:
- Rejeita-se a H0 se o p-value ≤ α (ou seja se o p-value ≤ 0.050)

Conclusão:
A proporção populacional não é significativamente (diferente/superior/inferior) (p
> .05) de X
A proporção populacional é significativamente (diferente/superior/inferior) (p ≤ .05) de
X
Exercícios práticos 1:

Exemplo:
Um grupo de investigadores acredita que a taxa de divórcio no Guatemala aumentou
exponencialmente após a pandemia de COVID-19, mas não ultrapassou uma
percentagem estatisticamente superior a 3.5%.
Através de uma amostra guatemalense (fictícia; estudo adaptado de Pallant, 2020),
verifique se é possível concluir que a taxa de divórcio na Guatemala é estatisticamente
superior a 3.5% .
A base de dados [6_Binomial_ MaritalStatus.jasp] contém os dados. A variável [ID]
corresponde ao nº do participante e a variável [Marital] corresponde ao estado civil de
cada participante.

(a) Qual foi a questão de investigação dos autores?

R.: Será que a taxa de divórcio no Guatemala é estatisticamente superior a 3.5%?

(b) Escreva as hipóteses estatísticas resultantes da questão de investigação.

R.: (Teste unilateral à direita)


H0: A proporção de divórcios no Guatemala é inferior ou igual a 3.5%
H1: A proporção de divórcios no Guatemala é superior a 3.5%

(c) Dos métodos estatísticos que conhece, qual escolheria para responder à
questão de investigação dos autores?

R.: Como queremos avaliar a proporção de divórcios e sendo estas independentes, o


teste Binomial é o mais adequado para esse efeito.

(d) Através da analise de dados o que pode concluir sobre a afirmação dos
investigadores?

R.: A percentagem de divorciados na amostra é de 5.5% (n=24). Através do teste


Binomial é possível verificar que esta percentagem é significativamente superior a 3.5%
(p = 0.023; N=439). Assim sendo, rejeitamos H0, não suportando a afirmação dos
autores.

(e) Reporte os resultados seguindo as normas APA.

R.: Com o intuito de avaliar se a percentagem de divórcios no Guatemala é


significativamente superior a 3.5% e sendo que as observações são independentes,
recorreu-se ao teste Binomial. Todas as análises foram realizadas com o software JASP
(v. 0.18.3). Consideram-se estatisticamente significativos os efeitos cujo p ≤ .05.
Os dados descritivos indicam que 5.5% dos sujeitos na amostra são divorciados (n=24).
O teste Binomial sugere que esta é significativamente superior a 3.5% (p= 0.023,
N=439)
Estes resultados sugerem que a afirmação dos investigadores é falsa.
Exercícios práticos 2

Exemplo:

A partir de dados recentes da OCDE (2019), alguns autores afirmam que


significativamente mais de 1/3 da população espanhola, entre os 25 e os 64 anos, tem
ensino superior completo (licenciatura ou mestrado).
A partir de uma amostra espanhola (fictícia, adaptado de Pallant, 2020), é possível
suportar esta afirmação?

(a) Qual é a questão de investigação?

1/3 = 0,333

R.: Existirão significativamente mais de 33,3% de Espanhóis com o ensino superior


(licenciatura ou mestrado)?

(b) Escreva as hipóteses estatísticas resultantes da questão de investigação.

R.: (Teste unilateral à direita)


H0: A proporção de licenciados/mestres em Espanha é inferior ou igual a 33.3
H1 : A proporção de licenciados/mestres em Espanha é superior a 33.3

(c) Dos métodos estatísticos que conhece, qual escolheria para responder à
questão de investigação? Justifique.

R.: Binomial.

(d) Através da análise de dados, o que pode concluir sobre a afirmação dos
autores?

R.: A percentagem de participantes com Ensino Superior na amostra é de 33.9% (n=85).


Através do teste Binomial é possível verificar que não existe evidencia estatística do
valor observado ser significativamente superior a 33.3% (p= .448; N=251).

(e) Reporte os resultados seguindo as normas APA.

R.: Com o intuito de avaliar se a percentagem de licenciados/mestres é


significativamente superior a 1/3 da população e sendo que as observações são
independentes, recorreu-se ao teste Binomial. Todas as análises foram realizadas com
o software JASP (v. 0.18.3). Consideram-se estatisticamente significativos os efeitos
cujo p ≤ .05.
Os dados descritivos indicam que 33.9% dos sujeitos na amostra têm completado o
ensino superior (n=85). O teste Binomial sugere que esta não é significativamente
superior a 33.9% (p= .448, N=251)
Estes resultados sugerem que a afirmação dos investigadores é falsa.

(f) Um estudo indica que a percentagem de doutorados em Espanha é diferente


de 1%. Através da amostra disponível, o que pode concluir desta afirmação?

R.: Os dados descritivos indicam-nos que 1.2% dos participantes têm doutoramento
(n=3). Através do teste binomial é possível verificar que esta percentagem não é
significativamente diferente de 1%. Assim sendo, não há evidência que suporte a
afirmação do estudo.

Qui-Quadrado e V de Cramer

- Vão avaliar as relações entre variáveis (uma delas tem de ser nominal para fazer qui-
quadrado)
- Não há causa efeito

Será que duas variáveis categóricas estão associadas?

Exemplos:
 Género e Cor favorita
 Habilitações literárias e afiliações políticas
 Ser fumador e pratica exercício físico

Tabela de contingência

- Os testes paramétricos para contagens são apropriados para v. qualitativas cujas


observações são organizadas em frequências absolutas das classes
- As contagens são geralmente organizadas em tabelas de contingência

OIJ – frequência absoluta

Qui-Quadrado

Para que serve?


- Testar se as variáveis são independentes
- Ou seja, se pertencer a um determinado grupo da Variável categórica 1 representa
uma maior probabilidade de pertencer a um determinado grupo da Variável categórica
2

Hipóteses (sempre bilateral)

H0 – não há relação (independentes)


H1 – há relação (dependentes)
Como?

- Calcula o desvio entre os valores esperados (OIJ) e as frequências que seriam


esperadas (EIJ) se não houvesse associação entre as variáveis (Hipótese nula)
- Ver se o desvio é muito elevado ou não
- Quanto maior a estatística de teste, mais elevado será o desvio
- Quanto maior for o desvio, o que eu observo está muito longe do que eu esperaria

Teste de homogeneidade do Qui-quadrado (CURIOSIDADE)


- Avaliar se a distribuição observada dos elementos das amostras pelas categorias da
variável é aleatória ou segue uma determinada distribuição empírica

Z ≥ 1,96 (pode ser positivo ou negativo) – indica que este resíduo é significativamente
diferente de 0

Resíduos estandardizados:
- Indica-nos se a diferença entre os valores esperados e observados é significativa em
cada combinação de categorias

- Sinal positivo se: observados > esperados


- Sinal negativo se: observados < esperados

- Significância

Pressupostos de aplicação:

- Tenho de ter mais do que 20 pessoas (1-N > 20)


- Pelo menos uma variável tem de ser qualitativa nominal
- Amostras independentes (cada elemento da amostra faz parte apenas de um dos
grupos de cada variável (e.g. frequenta apenas um dos cursos referidos).
- 80% dos nossos valores esperados tem de ter valores superiores ou iguais (≥ ¿ a 5
- Todas os nossos valores esperados (100%) têm de ser superior a 1

E se uma ou mais condições de aplicação não se verificarem? Quais as alternativas?

Repetir o estudo, aumentando a dimensão global da amostra;


- Planear o estudo de forma apropriada, ou seja, calculando a dimensão mínima das
amostras para que se verifiquem todas as condições de aplicação do teste χ2;
- Se as classes/categorias puderem ser combinadas de modo a aumentar a frequência
esperada, então devem combinar categorias;

ATENÇÃO: garantir que as novas categorias fazem sentido


- Recorrer ao Teste Exato de Fisher;
- Recorrer a técnicas de simulação de Monte-Carlo.

p-value ≤ .05: as variáveis estão significativamente associadas ---- Mas quão forte é
essa associação?

Dimensão de efeito

- Permite verificar se a relação é forte ou fraca


- Índice que avalia a magnitude da diferença entre grupos ou associação entre variáveis
- Quanto maior, maior a significância prática - determinada pelo contexto experimental,
socioeconómico, etc, no qual essas diferenças ou associações ocorrem
- Independente do tamanho da amostra
- Unidades de medida com significado (ex: nº de horas de sono) : reportar dimensões
de efeito não estandardizadas (diferença entre médias, coeficiente de regressão)
- Unidades de medida sem significado (ex: scrore numa escala de depressão): reportar
dimensões de efeito estandardizadas (coeficiente de correlação)

Um resultado estatisticamente significativo pode não ter significado prático. Um


resultado com significado prático pode não ser estatisticamente significativo

*Estandardizar – colocar tudo na mesma régua

Coeficiente de Correlação V de Cramer

Para que serve?

- Estandardização do Qui-quadrado
- Medida de relação padronizada a que chamamos de coeficiente de correlação
- Avalia a intensidade ou magnitude de associações entre duas variáveis categoriais,
sendo pelo menos uma delas nominal
- Não paramétrico
- Não consegue dizer se é positivo ou negativo

- Assimétrico – varia entre 0 ≤ V ≤ 1—quanto mais próximo de 1, mais forte é a


associação entre as variáveis categoriais. Logo, não indica se a associação é positiva ou
negativa

- Se as variáveis forem qualitativas dicotómicas* (sim/não; homem/mulher), pode


usar-se um coeficiente equivalente, o Phi simplificado

*Duas variáveis com duas opções


Magnitude: tamanho do efeito

Pressupostos (são os mesmos do Qui-Quadrado)

Questão:
A correlação observada é estatisticamente significativa?

Hipóteses

H0 – não existe correlações entre as variáveis (independentes)


H1 – as variáveis estão correlacionadas (dependentes)

Decisão:
Rejeita-se a H0 se o p-value ≤ α

Conclusão:
Existe (p ≤ .05) / Não Existe (p > .05) uma correlação significativa entre as variáveis.

JASP

Frequencies - Tabela de contingência


Arrastar uma variável para “Rows” e outra para “Columns” (não interessa a ordem)
Counts – quantidade de pessoas

X2 – QUI-QUADRADO

Phi and Cramer´s v – magnitude/força da relação


Expected – frequências esperadas (pressuposto dos 80%)
Person – pedir resíduos estandardizados (Z ≥ 1,96)

Exemplo de resposta:
(X2 (1) (grau de liberdade) = 25,356 (estatística de teste) ; p < 0.001 (p-value)

Exercícios práticos 1:

a) O sexo está significativamente associado com a altura?

b) Contém uma variável qualitativa nominal


N > 20 (100)
São variáveis independentes
80% dos nossos valores esperados são superiores ou iguais a 5
Todas os nossos valores esperados (100%) são superiores a 1

c) H0 – não existe correlações entre as variáveis (independentes)


H1 – existe correlações entre as variáveis (dependentes)

d) Os resultados demonstraram que há uma relação entre o sexo e a altura.


(χ2(1)=25.132, p < .001).

e) Não. É elevada

f) A análise dos resíduos estandardizados revelou que houve significativamente


mais mulheres baixas do que esperado (z= 3.41, p < .001) e significativamente
menos mulheres altas do que esperado (z=−2.50, p ≤ .05). Por sua vez, houve
significativamente menos homens baixos do que o esperado (z =−2.18, p ≤ .05).
Houve tantos homens altos como o esperado (z = 1.60, p > .05) como o
esperado.

g) NORMAS APA (ver ecampus)

Exercícios práticos 2:

a) Estará o tipo de recompensa significativamente associado com a capacidade de


dançar dos gatos?

b) Contém uma variável qualitativa nominal


N > 20 (200)
São variáveis independentes
80% dos nossos valores esperados são superiores ou iguais a 5
Todas os nossos valores esperados (100%) são superiores a 1

c) H0 – não existe correlações entre as variáveis (independentes)


H1 – existe correlações entre as variáveis (dependentes)
d) Existe correlação entre as variáveis (ver p-value)

e) Não. É moderado
f) A análise dos resíduos ajustados revelou que quando a comida foi usada como
recompensa, houve significativamente mais gatos a dançar do que esperado (z=
3.57, p ≤ .05) e significativamente menos gatos a não dançar do que esperado (z
=−2.79, p ≤ .05). Por sua vez, quando o afeto foi usado como recompensa,
houve tantos gatos a dançar (z =−1.73, p > .05) e a não dançar (z = 1.35, p > .05)
como o esperado.

g) Normas APA (ecampus)

Correlações de Pearson e Spearman

Nominal - V de Cramer
Ordinal – Spearman
Quantitativa – Pearson

*Só faço o Spearman quando não dá para fazer o pearson

Medidas de associação

Para que servem?


- Quantificam a intensidade e a direção da associação entre duas ou mais variáveis
- Podem ser bivariadas ou multivariadas

Não servem para inferir relações de causalidade


A–B

Porquê?
- Podem existir outras variáveis medidas ou não medidas que afetam os resultados
- Não podemos inferir a direção de causalidade

Que coeficiente da correlação usar?


- Dependente da natureza das variáveis:

Duas variáveis têm de ser quantitativas relacionadas linearmente (ex: peso, idade) -
Pearson
Duas variáveis qualitativas ordinais e superiores (habilitações literárias; estatuto
socioeconómico) – Spearman

Covariância: variância comum de duas variáveis (X1, X2)

 Cov (X1, X2) < 0 – variação comum em sentido oposto. Quando uma variável
aumenta a outra diminui e vice-versa
 Cov (X1, X2) = 0 – sem variação comum

 Cov (X1, X2) > 0 – variação comum no mesmo sentido. Quando uma variável
aumenta a outra também aumenta
Porque não usamos covariância?
- Porque esta depende da unidade de medida. Não é possível compara covariâncias de
forma objetiva

É então necessário estandardizar (por tudo na mesma escala) a covariância –


coeficiente de correlação

Coeficiente de correlação de Pearson

Para que serve?


- Mede a intensidade e direção da associação de tipo linear entre duas variáveis
quantitativas
- Calculada a partir da estandardização da covariância entre duas variáveis
- Variância entre -1 e +1 (-1< r < +1)

Magnitude da associação entre as variáveis:

- Corresponde ao tamanho do efeito

Fraca: |r| < 0.25


Moderada: 0.25 ≤ |r| < 0.5
Forte: 0.5 ≤ |r| < 0.75
Muito forte: |r| ≥ 0.75

Sentido
O sinal do coeficiente de correlação indica o sentido da associação

Correlação positiva (r > 0) – é no mesmo sentido (quando uma aumenta também


aumenta a outra e vice versa)
Correlação negativa (r < 0) – é o sentido oposto (uma aumenta e a outra diminui e vice
versa)
r = 0 indica que não há qualquer associação entre as variáveis

Pressuposto de aplicação

- 2 variáveis quantitativas (tem de ser as duas)


- Linearidade (tem de haver uma relação linear entre as variáveis) – ver como estão os
pontos; se não há outliers
- Normalidade; as variáveis tem de seguir uma distribuição normal (Shapiro-Will)

JASP

Linearidade
Descritivas
Plots
Sclater plots
(None ; None)
Normalidade
Discritivas
Statistics
Shapiro-will

*Se uma variável não tiver normalidade não fazemos; tem de ter as duas

JASP
Regressão
Correlação
Person´s
Pedir os dois primeiros (importante)
Sample size (importante para normas APA)
Não escolher a opção “Flat significant correlations”

Exemplo de resposta:

(r* (N-2) = 0.368 (pearson´s) ; p < 0.001)

*r – Pearson

Hipóteses:
H0: Não existe correlação significativa entre as variáveis [H0: p=0]
H1: As variáveis estão significativamente correlacionadas [H1: p≠0]

Decisão:
Rejeita-se a H0 se o p-value ≤ α [ou seja se o p-value ≤0.05]

Conclusão:
Existe (p ≤ 0.05) / Não Existe (p > 0.05) uma correlação significativa entre as variáveis

Coeficiente de correlação de Spearman

Para que serve?


- Igual ao Pearson mas com ordens
- Mede a intensidade e direção da associação entre duas variáveis medidas numa
escala ordinal ou quantitativa (intervalar ou razão)
- Varia entre -1 e +1 (-1 < rs < +1)

Quando usar?
- Quando os pressupostos da linearidade e/ou da normalidade não se verifiquem ou
quando as variáveis são qualitativas ordinais;
- Alternativa não paramétrica ao Coeficiente de Correlação de Pearson

Pressupostos:
- Variáveis ordinais ou superiores

Hipóteses:
H0: Não existe correlação significativa entre as variáveis [H0: ps=0]
H1: As variáveis estão significativamente correlacionadas [H1: ps≠0]

Decisão:
Rejeita-se a H0 se o p-value ≤ α [ou seja se o p-value ≤0.05]

Conclusão:
Existe (p ≤ 0.05) / Não Existe (p > 0.05) uma correlação significativa entre as variáveis

Exemplo de resposta:

(rs* (N-2) = 0.368 (pearson´s) ; p < 0.001)

*rs – Spearman

JASP

Regressão
Correlação
Spearman´s
2 primeiras opções
Sample size

Exercícios 1

a) As duas variáveis são quantitativas; as variáveis são lineares; as variáveis apresentam


uma distribuição normal

b)
H0 – não existe correlação entre as variáveis
H1 – existe correlação entre as variáveis

c) O coeficiente de correlação de Pearson porque 1) as variáveis são quantitativas; 2)


apresentam uma relação linear; 3) apresentam uma distribuição aproximadamente
normal.

d) Uma vez que o p-value obtido foi < .05, rejeita-se a H0 de que não existe uma
correlação significativa entre as variáveis. Assim sendo, os resultados demonstram
que existe uma correlação significativa entre as variáveis “Neuroticism” e
“Conscientiousness” [r(498)= -.368, p < .001]. A correlação entre as variáveis têm
uma magnitude moderada e sentido negativo. Como tal, valores mais elevados de
“Neuroticism” correspondem a valores mais baixos de “Conscientiousness”
.
e) Normas APA (ecampus)

Exercícios 2

a) As variáveis são quantitativas; as variáveis não aparentam ter uma relação linear;
apenas uma das variáveis apresenta uma distribuição normal

b) H0 - não existe correlação entre as variáveis


H1 – existe correlação entre as variáveis

c) O coeficiente de correlação de Spearman porque 1) as variáveis são quantitativas


mas: 2) a variável [Anxiety] não apresenta uma distribuição normal; 3) as variáveis
não apresentam uma relação linear.

d) Uma vez o p-value obtido foi > .05, não se rejeita H0 de que não existe uma
correlação significativa entre as variáveis. Assim sendo, os resultados demonstram
que a correlação entre as variáveis apresenta uma magnitude moderada, sentido
negativo e não é significativa [rS (49)= -.271, p = .055].

e) Normas APA (ecampus)

Regressão linear simples

- A variável independente prediz, afeta e explica a variável dependente


- A variável dependente só varia por causa da variável independente

Exemplos:

1. Nível de stress em função do tempo que resta para iniciarmos a nossa


apresentação?
2. O efeito do número de anos com Alzheimer sobre o desempenho em tarefas
mnésicas?
3. Efeito da ansiedade social sobre o rendimento no trabalho

Resposta ou Variável dependente


Preditor ou Variável independente

Causalidade

 Apesar de em alguns dos exemplos acima a relação causa-efeito ser aparente,


esta pode ser difícil de estabelecer a não ser em experiências controladas (em
laboratório com randomização)!
 Elaborar um modelo causa-efeito requer fundamentação teórica, ordem temporal
(i.e., as alterações no preditor precedem as alterações observadas na resposta) e,
por vezes, o controlo de outras variáveis que possam estar a afetar a relação entre
a V.I. e a V.D. (i.e., eliminar possíveis causas alternativas)

Princípios gerais e como funciona

Aspeto da regressão linear

Como interpretar esta equação?

Yj = variável dependente (ex: depressão) – vai ser estimada através do B0

B 0 (beta 0) – constante ou ordenada na origem


- Valor da V.D quando a V.I não existe
- Valor isolado da V.D

B1 (beta 1) - impacto da V.I por cada unidade (ex: tabela de chocolate) sobre a V.D –
quando introduzo a minha V.I no modelo, o que acontece à minha V.D quando a V.I
existe
O B1 é que vai definir se é positivo (soma-se) ou negativo (subtraem-se)

Xj – valor do nosso preditor (variável independente)


Ej – erro do modelo (resíduo)

Exemplo

Dep = 35 (-2) x Choc

- Por cada tablete de chocolate (unidade), eu reduzo 2 pontos ao score de depressão

Como estimamos?

Método dos quadrados mínimos

- Encontrar uma linha que vá o mais próximo possível às observações

Ou mais formalmente

- Encontrar a reta que minimize a SQE – soma dos quadrados dos erros (representado
pelo tracejado no gráfico)
Análise de variância do modelo

1º passo: Será que o nosso o modelo é melhor do que um modelo simples?

 Um dos passos a verificar é se o nosso modelo, onde a nossa V.I. está a predizer a
nossa V.D., é melhor que um modelo sem preditores (sem V.I.).
 Dito mais formalmente, queremos verificar se a variância explicada pelo modelo é
significativa face à variância que ainda se encontra por explicar (erro).
 Para calcularmos isto vamos calcular (o JASP calcula) uma ANOVA (uma análise
que vamos explorar a fundo no próximo semestre e têm uma estatística de teste
conhecida como F de Snedecor) que nos irá responder a esta pergunta

- Se o p-value associado ao nosso F for ≤ 0.05, rejeitamos a hipótese nula (H0), e


podemos concluir que a nosso modelo é estatisticamente significativo. Quando temos
apenas uma V.I. isto também quer dizer que a nossa V.I. tem um efeitos significativo
sobre a nossa V.D.

F - Variância da V.D explicada pela V.I (pelo modelo) a dividir por Variância da V.D que
não é explicada pelo modelo
- Se o F for 2 explica 2x maior a que não explica

Coeficiente de determinação

Medida de significância prática

- Além de determinarmos se o modelo é estatisticamente significativo, é útil


determinar a significância prática do mesmo. Nomeadamente, qual a fração da nossa
V.D. que é explicada pelo nosso modelo (neste caso a nossa única V.I.)?

R 2 – dimensão de efeito
Percentagem da variância da variável dependente que consigo explicar
apenas através da V.I

Análise dos coeficientes do modelo

Modelo (o que a minha variável dependente explica) a dividir pelo total


(modelo + o que não explica)

2º Passo: Será que o nosso preditor (i.e., a nossa V.I.) tem influência sobre a nossa
V.D.?

Ao encontrarmos os nossos coeficientes de interesse, particularmente o B1, resta saber


se é esperado que o mesmo também seja diferente de 0 na população. Para tal,
precisamos de usar estatística inferencial!
H 0 :B 1=0 vs H 1: B 1≠ 0

Hipóteses
H 0– o modelo não é estatisticamente significativo (a V.I não é estatisticamente boa
preditora)
H 1- o modelo é estatisticamente significativo (a V.I é estatisticamente boa preditora)

*O modelo é uma V.I

Pressupostos de aplicação:

Pressupostos de aplicação da regressão linear para que a mesma seja válida

1. A variável dependente apresenta uma distribuição normal


2. Homogeneidade da variância – através de um gráfico; padrão de afunilamento
(não é homogéneo nem constante) – PLOTS (3ª opção) – regressão linear
3. Lineariedade – a relação entre X e Y tem de ser aproximadamente linear
STATISTICS (REGRESSÃO LINEAR)
4. Não existem outliers (casewise diagnostic) – standart residual
5. Independência dos resíduos/erros (durbin-watson)* - está entre 1 e 3

*Olhar sempre para o H1 (Statistics) – durbin watson


*É a V.D que tem de seguir distribuição normal

Hipóteses

H 0 – não está relacionada


H 1 – está relacionada

OUTPUT

- Sumário do modelo

R 2 – percentagem da variabilidade da minha v.d explicada pela minha v.i

NORMAS APA

(teste; gl; valor do F; p-value; R2)


F (1º e 2º)
K-1 N-2

K-1 - Nº de variáveis – 1
N-2 - Nº de pessoas – 2

ANOVA do modelo
Regression = Os parâmetros e variância do nosso modelo.
Residual = A variância que se encontra por explicar (erros).
Total = A soma de todos os componentes anteriores dá o total.
Output que vais nos dizer se o modelo é bom ou não

- Os resultados indicam que o modelo é estatisticamente significativo

*Quando o modelo é bom, a V.I também é boa

Intercept (unstandardized) – inicio do modelo ( B 0)

1º R2
2º ANOVA
3º unstandardized (o que acontece á minha V.D quando a V.I aumenta/diminui);
estatística de teste (t) e p-value

Regressão linear múltipla

Regressão Linear Simples vs Regressão Linear Múltipla

 A regressão linear múltipla (RLM) é uma extensão (continuação) da regressão


linear simples para situações em que temos vários preditores (V.Is.). Ou seja, em
vez de estarmos limitados a apenas uma V.I. podemos ter várias V.Is. no modelo
para explicar a nossa V.D.

Exemplos:

1. Satisfação no trabalho em função da carga horária, suporte de supervisores e


percentagem de trabalho automatizado.
2. Como é que o tempo médio de exposição a conteúdo multimédia com teor
violento e os níveis de stress afetam o nível de agressão (medido numa
escala/inventário).
3. Impacto do número de horas de meditação e exercício físico sobre os níveis de
ansiedade.

Resposta ou V.d
Preditor ou V.i

Semelhanças com a regressão linear simples

Soma dos quadrados, R , R 2and Adjusted R 2

 Tal como na regressão linear simples, na regressão linear múltipla temos


igualmente as diferentes somas dos quadrados (SQt,SQr, SQe), a única diferença é
que a computação dessas medidas é mais complexa (mas conceptualmente são
iguais).
 Temos igualmente um valor R, embora o mesmo desta vez se refira a um
coeficiente de correlação múltipla (Multiple R). Neste caso, o R indica a associação
entre os valores da nossa V.D. e os valores da mesma estimados pelo modelo.
 O coeficiente de determinação (R2) é interpretado do mesmo modo que na
regressão linear simples.
 Na regressão linear múltipla, no entanto, é mais útil utilizar o R2 ajustado
(Adjusted R2)*. Isto porque o R2 ajustado penaliza a adição de preditores (i.e.,
penaliza modelos complexos). Ou seja, caso a introdução de uma nova V.I. não
aumente significativamente a capacidade preditiva do modelo, o R2 ajustado irá
diminuir. Tal nunca acontece com o R2 simples.

*R2 ajustado – percentagem da V.D que é explicada pelo modelo

Pressupostos de aplicação

- São os mesmos, com a inclusão de 1 adicional

Multicolinearidade: acontece quando as nossas V.I.s estão fortemente correlacionadas


entre si! Se tal acontecer, a interpretação dos coeficientes de cada fator (i.e., V.I.) pode
ser difícil (pouco fidedigna).

- Idealmente as V.Is. do modelo não estarão correlacionadas (i.e., serão ortogonais), no


entanto, na maioria dos casos existe sempre uma certa correlação entre elas

Exemplo:
Cacau
Chocolate Depressão
Açúcar

- Tenho duas variáveis a estudar o mesmo, uma suprime outra

*Para uma boa multicolinearidade as variáveis não devem estar relacionadas

Como diagnosticar multicolinearidade?

Podemos usar matrizes de correlações bivariadas ou o Fator de Inflação da Variância


(VIF) e/ou o valor de Tolerância. Como têm significados similares, basta apenas saber o
VIF!

 VIF > 5 sinaliza potenciais problemas de multicolinearidade. VIF > 10 sinaliza


graves problemas. Isto pode levar a que as estimativas para os coeficientes
associados a cada V.I. (i.e., o B) possam estar claramente erradas.
 T perto de 0 indica problemas de multicolinearidade. T perto de 1 indica ausência
de multicolinearidade.

*Apago a variável com o VIF maior


Hipóteses

H0: o modelo não é estatisticamente significativo; nenhuma V.I é estatisticamente boa


preditora – B1=B2=B3 = 0
H1: o modelo é estatisticamente significativo; pelo menos 1 V.I é estatisticamente boa
preditora – Bij (variável 1, 2 , 3, ...) ≠ 0

- Saber o que a V.I faz na V.D (ver no unstanartdized) – B1


- Positivo (aumenta); negativo (reduz)

- Saber qual das variáveis tem mais influencia (ver qual o valor mais alto no
Standardized)

*Se ela não é significativa, então não tem influência

Exercício 1

a) V.D – aumento da performace


V.I
Idade
Tempo médio de sono por noite
Níveis médios de stress
Intensidade média dos treinos

b)

Normalidade – 0.006 (não tem distribuição normal)


Linearidade – apresenta lineariedade
Outliers – não existe nenhum
Homonegiedade – está entre 1-3
Multicolinearidade – todas as variáveis apresentam VIF menor que 5

c)

O modelo é estatisticamente significativo. [F(4, 195) = 10.527, p < .001, R2Adj = .161]
O tempo médio de sono e a intensidade dos treinos aumenta a performance do atleta,
enquanto que a idade e os níveis médio de stress diminui a performance do atleta. A
variável que tem mais influência na performance do atleta é os níveis médios de stress
treinos e a variável que tem menos influencia é a idade.

*Não interessa se é negativo ou positivo

B= unstandardized
b= standardized
Exercícios 2

a) Existe um problema de multicolineiradade, visto que duas variáveis apresentam


um VIF superior a 5

c)
Existe normalidade
Existe linearidade entre as variáveis
Multicolinearidade - o VIF é inferior a 5
Homonegiedade – está entre 1-3
Não existe outliers

Exame

- 16 questões teóricas de escolha múltipla (0.5 cada)


- 3 exercícios práticos

*se sair probabilidades, a calculadora pode ser utilizada

Modelo exame

Exercícios teóricos

1. D) Amostragem não-aleatória por bola de neve


2. A) Os elementos da amostra são selecionados completamente ao acaso
3. B) Variável quantitativa de razão

*Zero absoluto significa que não existe; não faz sentido (ex: não consigo ver brócolos
num prato ou não consigo correr 0 Km por hora)

4. D) Variável qualitativa ordinal

*Quando é quantitativa, tenho os valores exatos

5. B) M= 4.965, SD= 1.168

*Uma variável nominal só tem a moda

6. C) O percentil 25 da variável A é 5.800


7. A) A distribuição dos dados é assimétrica à esquerda e leptocúrtica
8. H) As alíneas A, C e E estão corretas
9. A) O valor p é a probabilidade de obter um valor igual ou maior do que a
estatística de teste se H0 foi verdadeira
10. D) O erro tipo I acontece quando o efeito está presente mas não foi detetado
pelo teste de hipóteses

*Erro tipo I - probabilidade de rejeitar H0 quando H0 é verdadeira, ou seja quando não


deveria ter rejeitado – Falso positivo
Erro tipo II – probabilidade de não rejeitar H0 quando na verdade deveria ter rejeitado
– Falso negativo

11. K) As alíneas A, C, E, H estão corretas

*O H1 é que nos indica o caminho e a direção do teste

12. C) O coeficiente de correlação de Pearson deve avaliar uma variável quantitativa


e a outra ordinal
13. D) As variáveis estão significativamente correlacionadas. A correlação é forte.
Quanto maiores os valores da variável A maiores os valores da variável B
14. J) As variáveis estão positivamente correlacionadas
15. A) Os erros não apresentam homogeneidade de variâncias
16. J) As alíneas B, C, E, F estão corretas

Exercícios práticos

1.1 C)
1.2 D)

2.1 B)
2.2 D)

3.1 A)
3.2 B)

4.1 B)

Você também pode gostar