0% acharam este documento útil (0 voto)
79 visualizações22 páginas

6 Módulo - Correlação e Regressão Linear Simples

O documento aborda métodos quantitativos, focando na correlação e regressão linear simples para a análise de relações entre variáveis. A correlação é classificada em simples e múltipla, enquanto a regressão é utilizada para prever comportamentos futuros com base em dados históricos. Exemplos práticos, como a relação entre renda e consumo de pizzas, são apresentados para ilustrar a aplicação desses métodos estatísticos.

Enviado por

Carolina Arruda
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
79 visualizações22 páginas

6 Módulo - Correlação e Regressão Linear Simples

O documento aborda métodos quantitativos, focando na correlação e regressão linear simples para a análise de relações entre variáveis. A correlação é classificada em simples e múltipla, enquanto a regressão é utilizada para prever comportamentos futuros com base em dados históricos. Exemplos práticos, como a relação entre renda e consumo de pizzas, são apresentados para ilustrar a aplicação desses métodos estatísticos.

Enviado por

Carolina Arruda
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 22

AULA 6

PROBABILIDADE E
MÉTODOS QUALI-
QUANTITATIVOS PARA
TOMADA DE DECISÕES

Prof. Nelson Pereira Castanheira


CONVERSA INICIAL

Os métodos quantitativos são caracterizados pelo emprego da


quantificação tanto nas modalidades de coleta de informações quanto no
tratamento delas por meio de técnicas estatísticas: percentual, média, desvio
padrão, coeficiente de correlação, análise de regressão, entre outras.
Um dos maiores problemas para o pesquisador de fenômenos sociais ou
físicos é o estabelecimento de um modelo matemático que descreva e explique
os fenômenos que ocorrem na vida real, com boa aproximação.

Na maioria das vezes, estamos estudando duas variáveis aleatórias,


uma independente e outra dependente, na tentativa de saber se existe
entre elas uma relação. Entretanto, algumas vezes, mais de duas
variáveis aleatórias estão envolvidas no mesmo problema e estamos
interessados em saber como elas estão inter-relacionadas. Ao grau de
relacionamento existente entre essas duas variáveis, denominamos
correlação. (Castanheira, p. 86, 2011)

CONTEXTUALIZANDO

Então, quando surge um problema de correlação?

Esse problema surge quando o pesquisador está interessado, por


exemplo, em saber se há alguma relação entre o fumo e o câncer do
pulmão, entre a sensibilidade para a música e a vocação para a
matemática, entre a beleza e a inteligência, entre o peso e a altura dos
bebês, entre o volume de vendas de um produto e o seu preço, entre a
alimentação da criança e o seu aproveitamento escolar, entre a cotação
do dólar e volume de viagens ao exterior, e assim por diante.
(Castanheira, p. 87, 2011)

E como devemos proceder para estimar a condicional (valor esperado) de


uma variável y, dados os valores das variáveis x?
Para tal, utiliza-se a regressão. Mas o que significa, para a estatística, o
termo regressão?

A regressão linear simples é o método de análise da relação existente


entre duas variáveis: uma dependente e uma independente.
Na matemática, essa dependência é tratada no estudo das funções.
Quando uma variável Y depende de outra variável X, diz-se que Y é
função de X. Na estatística, dizemos regressão de Y sobre X.
Por que o termo linear?
Porque estamos lidando com uma função do primeiro grau, cuja
representação é uma reta.
Por que simples?
Porque, além de tratar-se de uma relação de fácil compreensão, trata-se
de um modelo aplicado a dados cuja dispersão é constante e onde temos
apenas uma variável independente. A outra variável, a que está sendo
calculada, é a dependente.
A Regressão Linear Simples é normalmente utilizada para se estudar a
relação existente entre variáveis, com o propósito de fazer previsões a
partir dos resultados obtidos nas mesmas.
02
[...] Assim, se conhecemos a Correlação entre a colheita de soja em
função da quantidade de agrotóxicos aplicados na plantação da mesma,
podemos estabelecer uma equação que nos permita prever qual a
colheita esperada na próxima safra da soja, em função da quantidade de
agrotóxicos que se pretende utilizar na plantação. (Castanheira, p. 88,
2011)

TEMA 1 – CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

1.1 Correlação

Seja y uma variável que nos interessa estudar (a variável dependente) e


cujo comportamento futuro desejamos prever. É fácil identificarmos uma série de
variáveis independentes xi (x1, x2, x3, ... , xn) que influenciam o comportamento de
y, a variável dependente do modelo.

A correlação pode ser classificada segundo o número de variáveis


envolvidas e segundo a complexidade das funções ajustantes.
Assim, em termos do número de variáveis envolvidas, a correlação é
dita:
a) simples, quando for considerada a variável dependente e uma única
variável independente;
b) múltipla, quando consideradas mais de uma variável independente.
Pode ser total, quando considerar o efeito de todas as variáveis
simultaneamente, ou parcial, quando uma ou mais das variáveis
independentes puder ser controlada ou suposta constante.
(Castanheira, 2011)

1.2 Regressão

Em termos da complexidade das funções ajustantes, a correlação é dita:


a) linear, quando o ajustamento é feito por uma função do primeiro grau,
ou seja, pela equação de uma reta;
b) não linear, quando o ajustamento é feito por uma função de grau
superior a um, ou seja, pela equação exponencial, geométrica,
parábola, etc.
A Regressão é o método de análise da relação existente entre duas
variáveis: uma dependente e uma independente. E para que serve
determinar a relação entre duas variáveis? (Castanheira, p. 87, 2011).

Primeiro, podemos afirmar que serve para realizar previsões do


comportamento futuro de algum fenômeno de nosso interesse, baseando-nos em
dados históricos sobre o mesmo.
Em segundo lugar,

pesquisadores interessados em simular os efeitos sobre uma variável Y


em decorrência de alterações introduzidas nos valores de uma variável
X também usam esse modelo. Por exemplo: de que modo a
produtividade (Y) de uma área agrícola é alterada quando se aplica certa
quantidade (X) de fertilizante sobre a terra? No exemplo acima, o
pesquisador seleciona “n” pedaços de terra x , x , x ,....x , aos quais são
1 2 3 n
aplicadas quantidades definidas de fertilizante. Em seguida, medem-se
as quantidades colhidas em cada pedaço de terra y , y , y , .... , yn,
1 2 3

03
obtendo assim pares de valores (x ,y ) (x ,y ), ......(xn, yn) que podem ser
1 1 2 2
plotados em um gráfico cartesiano chamado de diagrama de dispersão
(Castanheira, p. 96, 2016).

Nós estudaremos, nesta obra, a regressão linear.

1.3 Diagrama de dispersão

Como se chega à relação entre as variáveis x e y através da análise de


regressão?

Vamos analisar o exemplo a seguir para obter a resposta a esta


pergunta.
Para estudar a relação entre duas variáveis, consideremos os dados da
tabela 1, que consiste no consumo de pizzas durante um mês em 10
diferentes bairros de uma cidade e da renda média dos consumidores
dessas pizzas. Observe que, para não trabalharmos com números muito
grandes, tanto a variável Renda quanto a variável Pizza foram divididas
por 100 nas colunas da tabela 1. Assim, por exemplo, sabemos que, no
bairro A, a Renda média dos consumidores de pizza é de R$900,00 e
que a quantidade média de pizzas vendidas mensalmente nessa pizzaria
é de 4.000 pizzas. (Castanheira, p. 97, 2016).

Tabela 1 – Renda versus consumo de pizza durante um mês em 10 bairros de


uma cidade

Bairro Renda . (R$100,00) Pizzas vendidas por mês . 100


A 9 40
B 8 38
C 12 55
D 6 27
E 11 53
F 7 33
G 4 20
H 13 60
I 5 25
J 10 46

Inicialmente, precisamos traçar o diagrama de dispersão correspondente à


Tabela 1 no intuito de verificar se entre as variáveis envolvidas existe uma relação
linear. Vamos ver o que é isso.
A investigação da relação de duas variáveis, tais como essas, usualmente
começa com uma tentativa de descobrir a forma aproximada dessa relação,
representando-se graficamente os dados como pontos no plano (x, y). Tal gráfico
é chamado de diagrama de dispersão. Através da análise, inicialmente visual,
desse diagrama, pode-se imediatamente constatar se existe alguma relação entre

04
as variáveis envolvidas e, em caso positivo, se a relação pode ser tratada como
aproximadamente linear. O diagrama de dispersão para os dez pontos obtidos dos
dados da Tabela 1 é mostrado na Figura 1.

Verifique nesse diagrama de dispersão que há uma tendência para os


pequenos valores de x se associarem aos pequenos valores de y e os
grandes valores de x se associarem aos grandes valores de y. Além
disso, grosseiramente falando, a tendência geral da dispersão é a de
uma linha reta. Para variáveis como essas seria desejável podermos
medir de alguma forma o grau em que as variáveis estão linearmente
relacionadas. (Castanheira, p. 89, 2011).

Cuidado!
Antes de iniciar a construção do gráfico, você deve verificar qual é a
variável independente (x) e qual é a variável dependente (y). Faça a seguinte
associação: y = f (x), que se lê “y é função de x”. Em outras palavras, y depende
de x. Logo, y é a variável dependente. Por exclusão, x é a variável
independente. E daí? A variável dependente é a renda familiar ou são as
pizzas?
Agora entra o seu bom senso. A quantidade de pizzas consumidas
depende da renda de quem as consome ou a renda dos consumidores de pizzas
depende das pizzas que eles comem? Verifica-se com facilidade que a
quantidade de pizzas depende da renda. Então, a variável dependente (o nosso
y) é a quantidade de pizzas, enquanto que a renda (o nosso x) é a variável
independente. (Castanheira, p. 89, 2011).

Figura 1 – Diagrama de dispersão para os dados da Tabela 1

y (pizzas)

55

45

35

25

15

0 3 6 9 12 15 x (renda)

05
Verifica-se, inicialmente, que a relação existente entre as variáveis x e y é
linear, pois se consegue imaginar uma reta que passa pela maioria dos pontos do
diagrama de dispersão.

Quanto maior o número de variáveis explicativas, mais completo será o


modelo. Em consequência, sua solução será também mais difícil e mais
complexa. Em razão disso, limitaremos nossa exposição ao caso em que
apenas duas variáveis intervêm no modelo: a variável dependente y e a
variável independente x. (Castanheira, p. 90, 2011).

Apresentaremos apenas o estudo da função linear (ajustamento de uma


reta), isto é, estudaremos o modelo y = M.x + B, onde M e B são os parâmetros
da função. Recordemos que B é o ponto onde a reta intercepta o eixo y (eixo das
ordenadas) e, por isso, é denominado de intercepto y. Enquanto isso, M é a
tangente do ângulo que a reta forma com o eixo x (eixo das abscissas) e, por isso,
é denominado de coeficiente angular (M = tg ). Veja a Figura 2.

Figura 2 – Representação de uma reta com seu intercepto y

B 

0 x

TEMA 2 – RETA DE REGRESSÃO

A análise de regressão é um método estatístico que permite estudar


conjuntamente o efeito de diversos fatores, medidos através de variáveis
chamadas variáveis explicativas, sobre um determinado fenômeno, medidos
através de outra variável denominada variável explicada. Sua utilização é muito
frequente em estudos nas mais diversas áreas, tais como: administração,
economia, engenharia, sociologia, biologia, medicina, entre outras. Para que a
regressão possa ser útil, é necessário saber construir um modelo, estimar seus
parâmetros a partir dos dados relativos às variáveis e interpretar os resultados.
O objetivo da análise de regressão simples é aproximar por uma linha reta
um conjunto de pontos. No caso das vendas de pizzas (veja a Tabela 1 e a Figura
06
1), não podemos traçar uma reta que passe por todos os pontos, mas podemos
determinar uma reta que passe perto da maioria deles. Este tipo de reta é
chamado de reta de regressão. (Castanheira, p. 91, 2011). Veja a Figura 3.

Figura 3 – Reta de regressão obtida a partir dos dados da tabela 1

y (pizzas)

55

45

35

25

15

0 3 6 9 12 15 x (renda)

“No exemplo das pizzas, já vimos que a renda é a variável independente,


que será medida ao longo do eixo horizontal, e as vendas de pizzas representam
a variável dependente, que será medida ao longo do eixo vertical” (Castanheira, p.
91, 2011).
“Qualquer reta fica definida por dois valores: o coeficiente angular e o
intercepto y. Representaremos o coeficiente angular por M e o intercepto y (ou
coeficiente linear) por B” (Castanheira, p. 92, 2011). A equação da reta pode ser
escrita como:
y=M.x + B
Os resultados de M e B devem satisfazer as equações:
M.X+B–Y=0
e
M . X2 + B . X – X . Y = 0

onde X é o valor médio de X, X2 é o valor médio de X2, Y é o valor médio de Y e


X .Y é o valor médio do produto X . Y
A primeira equação afirma um fato que tem pleno sentido: a melhor reta
deve passar pelo ponto (X , Y), isto é, o ponto localizado nos valores médios de X
e Y.

07
Com as equações anteriores, podemos achar a fórmula do coeficiente
angular:
M = ( X . Y – X . Y ) : [ X2 – ( X )2 ]
Conhecido M, podemos calcular B:
B = Y –M.X
Estamos agora em condições de calcular o coeficiente angular e o
intercepto para o exemplo das pizzas. Admitiremos que as vendas das pizzas
dependam da renda e, assim, a renda será a nossa variável independente (X),
enquanto as vendas das pizzas serão a variável dependente (Y). Devemos
calcular X, Y, X2 e X .Y. Veja a tabela 2.

Tabela 2 – Cálculo das médias de X, Y, X2 e X . Y, a partir dos dados da Tabela 1

X Y X2 X.Y
9 40 81 360
8 38 64 304
12 55 144 660
6 27 36 162
11 53 121 583
7 33 49 231
4 20 16 80
13 60 169 780
5 25 25 125
10 46 100 460
 = 85 397 805 3.745

Vamos então calcular as médias.


X = X
n
X = 85 = 8
10
Y =Y
n
Y = 397 = 39,7
10
X2 =  X2
n
X2 = 805 = 80,5
10
08
X.Y = X.Y
n
X . Y = 3.745 = 374,5
10
Resumindo, X = 8,5 , Y = 39,7 , X2 = 80,5 e X . Y = 374,5.
Podemos então calcular M e B:

M = ( X . Y – X . Y ) : [ X2 – ( X )2 ]
M = 374,5 – 8,5 . 39,7
80,5 – (8,5)2

M = 374,5 – 337,45
80,5 – 72,25

M = 37,05 = 4,49
8,25
B = Y –M.X
B = 39,7 – 4,49 . 8,5
B = 1,535
Assim, a equação da reta de regressão é:

y = 4,49 . x + 1,535

Ótimo. Você acaba de determinar a equação da reta que representa a


correlação entre as variáveis renda e venda das pizzas. Agora, vamos ver para
que serve isso.
Suponhamos que você reside nessa localidade onde foi feita a pesquisa.
Suponhamos ainda que você pretende abrir uma pizzaria em um bairro em que a
renda média dos seus moradores é de R$1.800,00. Sua pizzaria deverá ser
dimensionada para vender quantas pizzas mensalmente?
Inicialmente observe que, para chegarmos à equação anterior, partimos
dos dados da Tabela 1, onde tanto a renda quanto a quantidade de pizzas
vendidas mensalmente estão multiplicadas por 100.
Então, para o caso da renda igual a R$1.800,00, temos que x vale 18.
Qual é o valor de y?
y = 4,49 . x + 1,535
y = 4,49 . 18 + 1,535
y = 82,36

09
“Como esse resultado está dividido por 100, temos que a pizzaria deve ser
preparada para atender a uma demanda de 8.236 pizzas ao mês, ou seja, (82,36.
100 = 8.236)” (Castanheira, p. 102, 2016).

TEMA 3 – COEFICIENTE DE CORRELAÇÃO DE PEARSON PARA REGRESSÃO


LINEAR SIMPLES

Para avaliar o grau de correlação linear entre duas variáveis, ou seja, medir
o grau de ajustamento dos valores em torno de uma reta, usaremos o coeficiente
introduzido por Karl Pearson, ao qual chamaremos de r, que é dado pela fórmula:

r= n.X.Y  X.Y

[n.X2  (X)2] [n.Y2  (Y)2]


onde n é o número de observações.
Pode-se demonstrar que o valor do coeficiente de correlação r sempre
deverá estar entre  1 e + 1. Geralmente multiplicamos o valor encontrado por
100%, dando a resposta em porcentagem. Veja as Figuras de 4 a 10.

Figura 4 – Correlação linear perfeita (positiva)


x
r=1

Figura 5 – Forte correlação positiva

y


010
r0

Figura 6 – Fraca correlação positiva

y


x
r0

Figura 7 – Correlação linear perfeita (negativa)


x
r=1

Figura 8 – Forte correlação negativa


x
r0

011
Figura 9 – Fraca correlação negativa


x
r0

Figura 10 – Ausência de correlação linear


 
 
 
 

x
r=0

Observe que a correlação será tanto mais forte quanto mais próximo estiver
o resultado de  1 e será tanto mais fraca quanto mais próximo estiver do zero.
Entretanto, r = 0 não significa dizer que entre x e y não existe qualquer
relação, mas que não existe entre essas variáveis uma relação linear.
O coeficiente de correlação r, portanto, mede a intensidade da relação
linear entre as variáveis x e y, o que não implica que uma delas tenha efeito direto
ou indireto sobre a outra variável. Pode acontecer de x e y estarem sendo
influenciadas por outra(s) variável(eis) e, em consequência, estabelecer-se entre
elas uma relação matemática.
Por exemplo, suponhamos que se verifica que o coeficiente de correlação
entre a produção automobilística no Brasil e a exportação de automóveis é igual
a 0,97. No mesmo período, observou-se uma grande alta na cotação do dólar, o

012
que motivou o aumento das exportações e, em consequência, o aumento da
produção.
Logo, a alta correlação entre produção e exportação de automóveis é um
reflexo de uma terceira variável: o preço do dólar.
Observe que r é um número adimensional, não dependendo, portanto, das
unidades de medida das variáveis x e y. (Castanheira, p. 105, 2016).
Vamos agora analisar um exemplo para verificar a utilidade do coeficiente
de correlação de Pearson. Mãos à obra!
Exemplo:
Em oito cidades brasileiras, foi feita uma pesquisa para saber se as
pessoas que morriam de câncer de pulmão eram fumantes ou não. Obtiveram-se,
durante o período da pesquisa, os dados da Tabela 3.

Tabela 3 – Número de fumantes versus número de mortes por câncer de pulmão

Cidade Nº de mortes por Nº de fumantes entre os mortos por


câncer de pulmão câncer de pulmão
A 12 9
B 27 20
C 14 10
D 18 15
E 31 24
F 24 19
G 35 30
H 10 8

Com bases nesses dados, determine o coeficiente de correlação de


Pearson entre essas variáveis.
Qual é a variável dependente? A morte depende de quem fuma ou quem
fuma depende da morte? É fácil verificar que a morte depende de quem fuma.
Então, o número de mortes é a variável dependente (y) e, em consequência, o
número de fumantes é a variável independente (x).
Vamos montar a Tabela 4 para a determinação dos valores a utilizar na
fórmula do coeficiente r.

013
Tabela 4 – Número de fumantes versus número de mortes por câncer de pulmão

X Y X.Y X2 Y2
9 12 108 81 144
20 27 540 400 729
10 14 140 100 196
15 18 270 225 324
24 31 744 576 961
19 24 456 361 576
30 35 1.050 900 1.225
8 10 80 64 100
 = 135 171 3.388 2.707 4.255

Vamos agora substituir os valores na fórmula:


r = n.X.Y  X.Y
[n.X2  (X)2] [n.Y2  (Y)2]

Lembre-se que a pesquisa foi feita em oito cidades. Logo, n = 8.


r = 8 . 3.388 – 135 . 171
[8 . 2.707  1352] [8 . 4.255  1712]

r = 27.104 – 23.085
[21.656 – 18.225] [34.040  29.241]

r = 4.019
3.431 . 4.799
r = 4.019 = 0,99
4.057,75
Verifica-se, portanto, que há uma forte correlação entre o câncer de pulmão
como causa mortis e a quantidade de fumantes que morreram com tal doença.
Há, no exemplo, 99% de chance de uma pessoa morrer com câncer no
pulmão em consequência do ato de fumar.
Lembramos que os dados apresentados no exemplo são fictícios.

014
TEMA 4 – CORRELAÇÃO E REGRESSÃO LINEAR MÚLTIPLA

Até agora estudamos a regressão e a correlação linear simples. Linear


porque os fenômenos analisados podem ser explicados por equações
do primeiro grau (uma reta) e simples porque é suficiente uma variável
independente para explicar o fenômeno.
Entretanto, há fenômenos que só são razoavelmente bem explicados por
mais de uma variável independente. Nesse caso, a regressão e a
correlação são múltiplas.
Temos ainda o caso de fenômenos que não ficam bem explicados por
equações do primeiro grau, sendo necessária a utilização de funções de
grau superior. Nesse caso, a regressão e a correlação são não lineares.
(Castanheira, p. 107, 2016).

De modo geral, os métodos de regressão e correlação múltiplas são


extensões dos métodos utilizados na regressão e correlação simples.
Então, quando uma variável dependente está simultaneamente
correlacionada a mais de uma variável independente, a análise será efetuada pela
fórmula:
y = M1 . x1 + M2 . x2 + ... + Mn . xn + B
onde:
y é a variável dependente;
M1,2,...,n são os coeficientes de regressão;
x1,2,...,n são as variáveis independentes;
B é o múltiplo intercepto.

“Observar que pode ocorrer de estarmos preocupados com a correlação


entre duas variáveis em particular e, com isso, supomos que as demais variáveis
são constantes. A este caso particular damos o nome de correlação parcial”
(Castanheira, p. 108, 2016).
No tema 2 desta rota 4, analisamos o consumo de pizzas em função da
renda dos consumidores. Entretanto, outras variáveis devem ser levadas em
consideração, tal como o preço das pizzas. Nesse caso, as variáveis
independentes são duas: a renda e o preço.
A regressão linear múltipla nos fornece dados mais precisos que a
regressão linear simples. No entanto, exige o conhecimento de funções mais
complexas e, portanto, mais trabalhosas. Sua aplicação, na prática, exige a
utilização de computadores.
Entretanto, vamos a alguns exemplos resolvidos com a aplicação de
fórmulas. O modelo de regressão linear múltipla já vimos que é dado por:
y = M1 . x1 + M2 . x2 + ... + Mn . xn + B
Os parâmetros dessa fórmula são determinados pelas expressões:

015
B = Y  M1 . X1  M2 . X2
Sy2  Sy1
S12 S11
M2 =
S22  S12
S12 S11

M1 = Sy2  S22 . M2
S12 S12
onde:
Sy1 é a covariância de y em X1 e vale:
Sy1 =  Y . X1   Y .  X1
n
Sy2 é a covariância de y em X2 e vale:
Sy2 =  Y . X2   Y .  X2
n
S12 é a covariância de X1 em X2 e vale:
S12 =  X1 . X2   X1 .  X2
n
S11 é a variância de X1 e vale:
S11 =  X12  ( X1)2
n
S22 é a variância de X2 e vale:
S22 =  X22  ( X2)2
n

TEMA 5 – COEFICIENTE DE CORRELAÇÃO DE PEARSON PARA REGRESSÃO


LINEAR MÚLTIPLA

Aqui também r está entre 1 e + 1, com os extremos indicando um ajuste


perfeito dos dados e o centro, r = 0, mostrando que a função é
incompatível com os dados.
O coeficiente de correlação é muito importante para os ajustamentos por
funções múltiplas porque é dificílimo construir um diagrama de dispersão
que mostre o comportamento dos dados. (Castanheira, p. 109, 2016)

Para a determinação do coeficiente de correlação, necessitamos da


fórmula:

016
r = M1 . Sy1 + M2 . Sy2
Syy
onde:
Syy é a variância de Y e vale:
Syy =  Y2  ( Y)2
n
Vamos analisar exemplos resolvidos para fixar os conceitos anteriores:

Uma empresa está preocupada em adequar os salários de seus


empregados em valores compatíveis ao grau de instrução e ao nível de
supervisão dos mesmos. Baseando-se nos dados da tabela 5,
estabelecer o modelo de regressão linear múltipla e verificar quais dos
empregados deverão ter salários aumentados. (Castanheira, p. 109,
2016).

Tabela 5 – Cargos dos empregados de uma empresa

Cargo Salário (x 100) Grau de instrução Nível de


supervisão
a. Gerente de Divisão 42 4 4
b. Gerente de Produção 28 4 3
c. Operador de torno 9 3 1
d. Chefe de Almoxarifado 10 3 1
e. Projetista 18 3 3
f. Office boy 8 1 0
g. Assistente social 15 4 2
h. Psicólogo 18 4 2
i. Diretor financeiro 50 5 4
j. Contador 12 2 0

“Como o salário depende tanto do grau de instrução quanto do nível de


supervisão ocupado pelo empregado, o salário é a variável dependente (Y) e as
demais são as variáveis independentes (X1 e X2)” (Castanheira, p. 110, 2016).
Para a determinação dos parâmetros, é necessário elaborar a Tabela 6.

Tabela 6 – Cálculo dos somatórios para a determinação dos parâmetros

Cargo Y X1 X2 Y . X1 Y . X2 X1 . X2 X12 X22


A 42 4 4 168 168 16 16 16
B 28 4 3 112 84 12 16 9
C 9 3 1 27 9 3 9 1
D 10 3 1 30 10 3 9 1
E 18 3 3 54 54 9 9 9

017
F 8 1 0 8 0 0 1 0
G 15 4 2 60 30 8 16 4
H 18 4 2 72 36 8 16 4
I 50 5 4 250 200 20 25 16
J 12 2 0 24 0 0 4 0
 210 33 20 805 591 79 121 60

Para os cálculos dos parâmetros, utilize quatro casas após a vírgula.


Sy1 =  Y . X1   Y .  X1
n
Sy1 = 805  210 . 33 = 112
10
Sy2 =  Y . X2   Y .  X2
n
Sy2 = 591  210 . 20 = 171
10
S12 =  X1 . X2   X1 .  X2
n
S12 = 79  33 . 20 = 13
10
S11 =  X12  ( X1)2
n
S11 = 121  332 = 12,1
10
S22 =  X22  ( X2)2
n
S22 = 60  202 = 20
10
Y = 210 = 21
10
X1 = 33 = 3,3
10
X2 = 20 = 2
10

018
Sy2  Sy1
S12 S11
M2 = S22  S12
S12 S11
171  112
M2 = 13 12,1
20  13
13 12,1
M2 = 13,1538  9,2562
1,5385  1,0744
M2 = 3,8976 = 8,3982
0,4641
M1 = Sy2  S22 . M2
S12 S12
M1 = 171  20 . 8,3982
13 13
M1 = 13,1538  1,5385 . 8,3982
M1 = 0,2332
B = Y  M1 . X1  M2 . X2
B = 21 – 0,2332 . 3,3 – 8,3982 . 2
B = 21 – 0,7696 – 6,7964
B = 3,434

Então, a equação procurada é:

y = M1 . x1 + M2 . x2 + B
y = 0,2332 . x1 + 8,3982 . x2 + 3,434
Precisamos agora verificar quais empregados deverão ter seus salários
aumentados. Para tal, substituímos nesta última fórmula os dados constantes na
Tabela 5.
Empregado A:
y = 0,2332 . 4 + 8,3982 . 4 + 3,434
y = 37,9596
Como o valor encontrado é menor que 42, esse empregado deve
permanecer com o mesmo salário.
Empregado B:

019
y = 0,2332 . 4 + 8,3982 . 3 + 3,434
y = 29,5614
Como o valor encontrado é maior que 28, esse empregado deverá ter o seu
salário aumentado.
Empregado C:
y = 0,2332 . 3 + 8,3982 . 1 + 3,434
y = 12,5318
Como o valor encontrado é maior que 9, esse empregado deverá ter o seu
salário aumentado.
Empregado D:
y = 0,2332 . 3 + 8,3982 . 1 + 3,434
y = 12,5318
Como o valor encontrado é maior que 10, esse empregado deverá ter o seu
salário aumentado.
Empregado E:
y = 0,2332 . 3 + 8,3982 . 3 + 3,434
y = 29,3282
Como o valor encontrado é maior que 18, esse empregado deverá ter o seu
salário aumentado.
Empregado F:
y = 0,2332 . 1 + 8,3982 . 0 + 3,434
y = 3,6672
Como o valor encontrado é menor que 8, esse empregado deve
permanecer com o mesmo salário.
Empregado G:
y = 0,2332 . 4 + 8,3982 . 2 + 3,434
y = 21,1632
Como o valor encontrado é maior que 15, esse empregado deverá ter o seu
salário aumentado.
Empregado H:
y = 0,2332 . 4 + 8,3982 . 2 + 3,434
y = 21,1632
Como o valor encontrado é maior que 18, esse empregado deverá ter o seu
salário aumentado.
Empregado I:
y = 0,2332 . 5 + 8,3982 . 5 + 3,434
020
y = 38,1928
Como o valor encontrado é menor que 50, esse empregado deve
permanecer com o mesmo salário.
Empregado J:
y = 0,2332 . 2 + 8,3982 . 0 + 3,434
y = 3,9004
Como o valor encontrado é menor que 12, esse empregado deve
permanecer com o mesmo salário.
Pela análise feita, verificou-se que os seguintes empregados deverão ter
seus salários aumentados: B, C, D, E, G, H.

FINALIZANDO

Acabamos de estudar a correlação entre duas ou mais variáveis, sendo


uma dependente (a variável y) e uma ou mais independentes (a variável x).
Quando essa correlação existe e pode ser representada por uma equação do
primeiro grau (uma linha reta), aprendemos a desenvolver a equação da reta de
regressão, importante ferramenta para a tomada rápida de decisões. Além disso,
aprendemos, através do coeficiente de correlação linear, a analisar o quanto essa
correlação é forte ou fraca.
Estudamos a correlação entre duas ou mais variáveis independentes.
Aprendemos a obter a equação da reta de regressão para o caso de uma única
variável independente, a regressão linear simples. Aprendemos também a obter
a equação da reta de regressão para o caso de duas variáveis independentes, a
regressão linear múltipla. Verificamos que, pela obtenção do coeficiente de
correlação de Pearson, podemos analisar se a correlação entre duas ou mais
variáveis é forte, fraca ou inexistente.

021
REFERÊNCIAS

CASTANHEIRA, N. P. Métodos quantitativos. Curitiba: InterSaberes, 2013.

_____. Cálculo aplicado à gestão e aos negócios. Curitiba: InterSaberes, 2016.

SIQUEIRA, J. de O. Fundamentos de métodos quantitativos. Rio de Janeiro:


Saraiva, 2013.

022

Você também pode gostar