0% acharam este documento útil (0 voto)
117 visualizações12 páginas

Analise Multivariada Trabalho - 6 - de - Analise - de - Dados - II

1) A pesquisa aborda análise de clusters e discriminante, sendo esta preditiva ao prever resultados futuros ao contrário de clusters. 2) Serão usados agrupamento não hierárquico, distância euclidiana, ANOVA e discriminante para identificar variáveis discriminantes. 3) A variável "Petal Length" contribuiu mais para a formação de clusters e é a mais discriminante entre grupos.

Enviado por

Alex Monito
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
117 visualizações12 páginas

Analise Multivariada Trabalho - 6 - de - Analise - de - Dados - II

1) A pesquisa aborda análise de clusters e discriminante, sendo esta preditiva ao prever resultados futuros ao contrário de clusters. 2) Serão usados agrupamento não hierárquico, distância euclidiana, ANOVA e discriminante para identificar variáveis discriminantes. 3) A variável "Petal Length" contribuiu mais para a formação de clusters e é a mais discriminante entre grupos.

Enviado por

Alex Monito
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 12

Nomes:

Licenciatura em Ensino de Matemática com Habilitação em Estatística

Resumo agrupamentos podem servir de inputs em outras técnicas


multivariadas, tanto exploratórias, quanto confirmatórias.
A Presente pesquisa, visa abordar a análise de clusters e a
análise discriminante. A evolução da capacidade computacional e o
Onde notou-se que enquanto a Análise Discriminante é desenvolvimento de novos softwares com recursos
preditiva (pode ser usada para prever algo futuro), a bastante aprimorados fizeram surgir, nos últimos anos,
análise de Clusters é não apresenta carácter preditivo novas e esmeradas técnicas de análise de agrupamentos
(não pode ser usada para prever algo futuro) para outras que utilizam algoritmos cada vez mais requintados e
observações não presentes inicialmente na amostra, e a voltados à tomada de decisão nos mais diversos campos
inclusão de novas observações no banco de dados torna do conhecimento, sempre com o objectivo principal de
necessária a reaplicação da modelagem, para que, agrupar observações frente a determinados critérios.
eventualmente, sejam gerados novos agrupamentos.
Para a realização do relatório, usou-se a revisão
bibliográfica, para a realização da actividade 4, foi usada Metodologia
a aglomeração não hierárquica, pois já foi dada a Para a realização deste relatório, será usada a
quantidade de grupos formados pelas variáveis e a revisão bibliográfica.
distância euclidiana, por esta ser a que o SPSS fornece,
Para a realização da actividade 4, será usada a
quando se aplica o método de aglomeração não
hierárquica, foi usada também a análise de variância a um aglomeração não hierárquica, pois já foi dada a
factor, testar a diferença entre os clusters e dentro deles. quantidade de grupos formados pelas variáveis e a
No ponto 2.2 será usado o método discriminante para distância euclidiana, por esta ser a que o SPSS
identificar as variáveis que discriminam, o teste de fornece, quando se aplica o método de aglomeração
hipóteses de Lambda de Wilkes, para testar a igualdade não hierárquica.
da média entre os clusters (grupos). Como afirma Fávero & Belfiore (2017), enquanto
Para a actividade 3, será usada a análise de agrupamentos os esquemas hierárquicos permitem a identificação
fazendo uso da medida de distância quadrática euclidiana do ordenamento e da alocação das observações,
e método de encadeamento completo (furthest neighbor-
Vizinho mais distante), devido, a existência de
oferecendo possibilidades para que o pesquisador
observações consideravelmente similares no banco de estude, avalie e decida sobre a quantidade de
dados em relação a todas as variáveis em análise. agrupamentos formados, nos esquemas não
Na análise feita em 2.1 notou-se que os clusters, hierárquicos, parte-se de uma quantidade conhecida
apresentavam uma diferença significativa e a variável de clusters e, a partir de então, é elaborada a
Petal Length in mm é a que mais contribuiu para a alocação das observações nesses clusters, com
formação de pelo menos um dos clusters formados, isto é, posterior avaliação da representatividade de cada
é a mais discriminante dos grupos por possuir maior variável para a formação deles.
estatística Z (F = 1233.690), facto confirmado na análise
discriminante, onde formou-se apenas duas funções
descriminantes e por fim chegou-se a mesma conclusão. Softwares como o SPSS utilizam a distância
Na última análise, notou-se de todas as variáveis contidas euclidiana como padrão de medida de
na Base de Dados da actividade 5, só era possível formar dissimilaridade (Favero & Belfiore, 2017, p.339).
dois grupos discriminantes. Será usada também a análise de variância a um
factor, testar a diferença entre os clusters e dentro
Palavras-chave: Análise discriminante, Análise de
clusters, agrupamento hierárquicos e não hierárquicos. deles.
No ponto 2.2 será usado o método discriminante
para identificar as variáveis que discriminam, o teste
de hipóteses de Lambda de Wilkes, para testar a
igualdade da média entre os clusters (grupos).
Introdução Para a actividade 3, será usada a análise de agrupamentos
fazendo uso da medida de distância quadrática euclidiana
Muitas são as situações em que o pesquisador pode
e método de encadeamento completo (furthest neighbor-
desejar agrupar observações (indivíduos, empresas,
Vizinho mais distante), devido, a existência de
municípios, países, partidos políticos, espécies vegetais,
observações consideravelmente similares no banco de
entre outros exemplos) a partir de determinadas variáveis
dados em relação a todas as variáveis em análise.
métricas ou até mesmo binárias. A criação de
Como afirma Fávero & Belfiore (2017), quando
agrupamentos homogéneos, a redução estrutural dos
existência de observações consideravelmente similares no
dados e a verificação da validade de constructos
banco de dados em relação a todas as variáveis em
previamente estabelecidos são algumas das principais
análise nessas situações, é recomendável que se utilize a
razões que levam o pesquisador a optar por trabalhar com
medida de distância quadrática euclidiana e método de
a análise de agrupamentos.
encadeamento completo (furthest neighbor), a ANOVA,
Esse conjunto de técnicas permite que os mecanismos de a factor e o dendrograma para a identificação dos clusters
tomada de decisão sejam mais bem estruturados e (grupos).
justificados a partir do comportamento e da relação de Isto é, para a actividade 3, foi utilizada
interdependência entre as observações de determinado aglomeração hierárquica, pois não se dispõe a prior
banco de dados. Como a variável que representa os do número de clusters (grupos) o teste de hipóteses
clusters formados é qualitativa, os outputs da análise de de Lambda.
Nomes:
Licenciatura em Ensino de Matemática com Habilitação em Estatística

Resultados
2.1 Resultados do estágio inicial algoritmo k-means
Desenvolvimento Tabela 1. 1: Coordenadas dos Centroides dos três grupos
Centros do cluster iniciais
1.0 Análise discriminante é um método estatístico
Cluster
para classificar indivíduos ou objectos de modo
1 2 3
exaustivo em grupos mutuamente exclusivos, com Sepal Length in mm 58 7 49
base num conjunto de variáveis independentes, 7
sendo para isso determinadas combinações lineares Sepal With in mm 40 3 25
dessas variáveis que discriminam entre grupos A 8
priori, de tal modo que seja minimizada a Petal Length in mm 12 6 45
probabilidade de erro de incorrecta classificação A 7
posteriori. Isto é, emprega se para descobrir as Petal Width in mm 2 2 17
características que distinguem os membros de um 2
grupo de outro, de modo a que, conhecidas as
características de um novo indivíduo, se possa Esta tabela, apresenta os valores propriamente ditos das
variáveis originais para cada Espécie da flor Iris e as
prever a que grupo pertence (Lattin, Caroll &
coordenadas dos centroides dos três grupos, na tabela 1.2
Green, 2011).). pode se verificar, após a primeira iteração do algoritmo,
Análise Discriminante é usada quando o que a mudança de coordenada do centroide do primeiro
pesquisador tem a intenção de utilizar uma técnica cluster é de 10,141, que corresponde exactamente à
para, de fato, confirmar o estabelecimento dos distância euclidiana entre a espécie da flor Íres Setosa,
grupos e tornar a análise preditiva (capaz de prever Versicolor e Virginica. Todavia, ainda é possível Nessa
situações futuras). última figura, ainda é possível verificar a menção, em seu
rodapé, à medida de 38,236., que corresponde à distância
1.1 A análise de Clusters é um conjunto de euclidiana entre as espécies da flor Ires Versicolor e
Virginica, que permanecem isoladas após o procedimento
técnicas exploratórias que podem ser aplicadas iterativo.
quando há a intenção de se verificar a existência de
comportamentos semelhantes entre observações
(indivíduos, empresas, municípios, países, entre Tabela 1. 2: Primeira iteração do algoritmo k-
outros exemplos) em relação a determinadas means e mudança nas coordenadas dos centroides.
variáveis e tem por objectivo principal a alocação
Histórico de iteraçãoa
de observações em uma quantidade relativamente
Mudança em centros do cluster
pequena de agrupamentos homogéneos
Iteração 1 2 3
internamente e heterogéneos entre si e que 1 10.141 12.257 11.415
representem o comportamento conjunto das 2 .000 1.753 1.212
observações a partir de determinadas variáveis 3 .000 .698 .473
(Fávero & Belfiore, 2017, p.309). 4 .000 .497 .328
A análise de clusters procede ao agrupamento dos 5 .000 .000 .000
indivíduos em função da informação existente, de a. Convergência alcançada devido a nenhuma ou pequena
tal modo que os indivíduos pertencentes a um mudança em centros do cluster . A mudança de coordenada
mesmo grupo sejam tão semelhantes quanto absoluta máxima para qualquer centro é .000. A iteração
actual é 5. A distância mínima entre os centros iniciais é
possível e sempre mais semelhantes aos elementos 38.236.
do mesmo grupo do que a elementos dos restantes
grupos.
Resultados do estágio Final de algoritmo k-
Nota: Enquanto a Análise Discriminante é
means
preditiva (pode ser usada para prever algo futuro), a
A Tabela 1.3 apresenta o output Cluster
análise de Clusters é não apresenta carácter
Membership que mostra a alocação de cada Espécie
preditivo (não pode ser usada para prever algo
da flor Iris em cada um dos três clusters (grupos)
futuro) para outras observações não presentes
outrora definidos, bem como as distâncias
inicialmente na amostra, e a inclusão de novas
euclidianas entre cada observação e o centroide do
observações no banco de dados torna necessária a
respectivo cluster (grupo).
reaplicação da modelagem, para que,
Onde pode-se notar que número de casos no cluster
eventualmente, sejam gerados novos agrupamentos.
1 (grupo 1) é de 50 e estas são todas espécies de
Além disso, a inclusão de nova variável também
flor íres Setosa, o número de casos no cluster 2
pode fazer com que haja um rearranjo completo das
(grupo 2) é 38, o número de casos no cluster 3
observações nos grupos (Fávero & Belfiore, 2017,
(grupo 3) é 62 e em ambos, neste incluem-se a
p.309).
espécie Virginica e Versicolor. Vide a tabela 1.4.
Nomes:
Licenciatura em Ensino de Matemática com Habilitação em Estatística

Tabela 1. 3: Estágio final do algoritmo k-means-


Alocação das espécies da Flor Ires e distâncias a
centroides de respectivos clusters.
Nomes:
Licenciatura em Ensino de Matemática com Habilitação em Estatística

Associação de cluster
Número do
caso Iris Specie Cluster Distância
1 Setosa 1 1.496
2 Virginica 3 8.154
3 Versicolor 3 7.094
4 Virginica 2 6.533
5 Virginica 2 3.095
6 Virginica 2 14.779
7 Virginica 3 10.710
8 Versicolor 3 6.841
9 Versicolor 3 8.640
10 Setosa 1 2.569
11 Virginica 2 2.763
12 Virginica 2 13.115
13 Versicolor 3 15.486
14 Virginica 3 7.023
15 Virginica 2 11.213
16 Setosa 1 6.023
17 Setosa 1 1.414
18 Setosa 1 4.720
19 Setosa 1 1.886
20 Versicolor 3 3.450
21 Virginica 2 3.061
22 Versicolor 3 15.839
23 Setosa 1 3.498
24 Versicolor 3 7.558
25 Setosa 1 8.075
26 Setosa 1 4.171
27 Virginica 2 7.313
28 Virginica 3 8.189
29 Setosa 1 3.763
30 Versicolor 3 5.083
31 Versicolor 3 16.606
32 Setosa 1 6.542
33 Versicolor 3 3.967
34 Virginica 2 2.596
35 Setosa 1 12.480
36 Versicolor 3 7.315
37 Setosa 1 3.286
38 Virginica 2 7.773
39 Virginica 2 5.606
40 Setosa 1 4.152
41 Setosa 1 6.403
42 Versicolor 3 7.125
43 Setosa 1 3.826
44 Versicolor 3 7.645
45 Setosa 1 5.269
46 Versicolor 3 4.635
47 Virginica 3 8.975
48 Versicolor 3 5.750
49 Setosa 1 3.868
50 Virginica 3 7.427
51 Virginica 2 5.277
52 Setosa 1 4.870
53 Virginica 2 5.463
54 Versicolor 3 8.731
55 Versicolor 3 4.123
56 Versicolor 3 2.199
57 Virginica 2 9.531
58 Virginica 2 5.943
59 Virginica 2 5.790
60 Versicolor 3 3.856
61 Virginica 2 15.297
62 Versicolor 3 8.598
63 Versicolor 3 15.361
64 Setosa 1 5.253
65 Versicolor 3 3.243
66 Versicolor 3 8.084
67 Versicolor 3 9.270
68 Versicolor 3 6.937
69 Versicolor 3 3.839
Nomes:
Licenciatura em Ensino de Matemática com Habilitação em Estatística

70 Setosa 1 1.442
71 Versicolor 3 8.727
72 Versicolor 3 6.291
73 Virginica 3 8.892
74 Versicolor 3 7.431
75 Setosa 1 2.154
76 Setosa 1 4.049
77 Versicolor 3 6.385
78 Virginica 2 6.840
79 Versicolor 3 3.827
80 Virginica 2 5.099
81 Versicolor 3 2.694
82 Virginica 2 5.094
83 Virginica 2 6.117
84 Setosa 1 4.137
85 Virginica 2 6.829
86 Virginica 2 14.380
87 Versicolor 3 4.919
88 Setosa 1 4.084
89 Setosa 1 4.821
90 Setosa 1 4.521
91 Setosa 1 9.132
92 Virginica 3 6.253
93 Versicolor 3 5.358
94 Versicolor 3 10.244
95 Virginica 2 7.331
96 Setosa 1 4.257
97 Virginica 3 6.101
98 Versicolor 3 4.428
99 Virginica 3 8.262
100 Versicolor 3 6.879
101 Versicolor 3 9.757
102 Virginica 2 2.695
103 Setosa 1 1.148
104 Virginica 2 7.857
105 Versicolor 3 6.146
106 Versicolor 3 4.366
107 Virginica 2 3.846
108 Virginica 2 8.436
109 Versicolor 2 10.190
110 Setosa 1 2.537
111 Setosa 1 8.244
112 Versicolor 3 9.880
113 Virginica 3 12.023
114 Virginica 2 3.893
115 Versicolor 3 6.368
116 Versicolor 3 7.340
117 Virginica 3 8.538
118 Virginica 2 8.357
119 Virginica 2 11.423
120 Versicolor 3 12.270
121 Virginica 3 8.345
122 Setosa 1 2.107
123 Setosa 1 6.690
124 Setosa 1 7.608
125 Versicolor 3 4.879
126 Setosa 1 4.103
127 Setosa 1 3.504
128 Setosa 1 10.141
129 Setosa 1 4.476
130 Setosa 1 2.088
131 Setosa 1 12.048
132 Virginica 3 8.538
133 Setosa 1 7.155
134 Virginica 2 6.529
135 Setosa 1 9.198
136 Setosa 1 6.770
137 Setosa 1 .662
138 Versicolor 3 5.576
139 Versicolor 3 3.724
140 Setosa 1 1.854
141 Virginica 2 6.545
Nomes:
Licenciatura em Ensino de Matemática com Habilitação em Estatística

142 Setosa 1 4.825


143 Versicolor 3 5.459
144 Virginica 2 3.479
145 Virginica 2 7.455
146 Virginica 2 7.529
147 Setosa 1 5.008
148 Setosa 1 3.893
149 Setosa 1 4.634
150 Versicolor 2 8.464

Tabela 1. 4: Número de casos em cada cluster


Número de casos em cada
cluster
Cluster 1 50.000
2 38.000
3 62.000
Válido 150.000 Regra de Rejeição
Omisso .000
Se sig.< 0,05 , Existe pelo menos uma diferença
entre os três grupos para a variável espécies da flor
Tabela 1. 5: Estágio final do algoritmo k-means - íris em análise.
Coordenadas dos centroides dos clusters.
Centros do cluster finais Tabela 1. 7: Análise de variância de um factor no
Cluster procedimento k-means -Variabilidades entre grupos
1 2 3 e dentro dos grupos, estatísticas F e níveis de
Sepal Length in 50 69 59 significância por variável.
mm ANOVA
Sepal With in mm 34 31 27 Cluster Erro
Petal Length in mm 15 57 44 Quadrado Quadrado
Médio Df Médio df Z Sig.
Petal Width in mm 2 21 14 Sepal Length in 3688.765 2 19.315 147 190.979 .000
mm
Tabela 1. 6: Apresenta as distâncias euclidianas Sepal With in 639.881 2 10.551 147 60.649 .000
entre os centroides dos grupos. mm
Petal Length in 21910.877 2 17.760 147 1233.690 .000
Distâncias entre centros do cluster finais mm
Cluster 1 2 3 Petal Width in 3886.435 2 6.014 147 646.184 .000
1 50.176 33.569 mm
2 50.176 17.972 Interpretação
3 33.569 17.972 Como pode-se notar na tabela ANOVA, Existe pelo
menos uma diferença significativa entre os grupos,
Teste de Hipóteses para a espécie de flor Íris em Análise, porque
ambos os sig .< 0,05 .
H0: As Espécie da flor Iris apresentam a mesma Nota: Importa referir que a variável Petal Length
média em todos os 3 grupos formados. in mm é a que mais contribui para a formação de
H1: As Espécie da flor Iris apresentam média pelo menos um dos clusters formados, isto é, é a
diferente em pelo menos um dos 3 grupos em mais discriminante dos grupos por possuir maior
relação aos demais. estatística Z (F = 1233.690).

Estatística do Teste 2.2 Análise Discriminante linear


Tabela 1. 8: Estatísticas da análise discriminante Sepal With in mm 27.70 3.138 50 50.000
ersicol

Petal Length in mm 42.60 4.699 50 50.000


or

para a variável espécie flor íris. Petal Width in mm 13.26 1.978 50 50.000
Sepal Length in mm 65.88 6.359 50 50.000
Virginica

Estatísticas de grupo Sepal With in mm 29.74 3.225 50 50.000


N válido (de lista)
Petal Length in mm 55.52 5.519 50 50.000
Erro Não Ponder
Iris Specie Média Desvio ponderado ado Petal Width in mm 20.26 2.747 50 50.000
Sepal Length in mm 50.06 3.525 50 50.000 Sepal Length in mm 58.43 8.281 150 150.00
Total

Sepal With in mm 30.57 4.359 150 150.00


Setosa

Sepal With in mm 34.28 3.791 50 50.000


Petal Length in mm 14.62 1.737 50 50.000 Petal Length in mm 37.58 17.653 150 150.00
Petal Width in mm 2.46 1.054 50 50.000 Petal Width in mm 11.99 7.622 150 150.00
Sepal Length in mm 59.36 5.162 50 50.000
V

Interpretação Preliminar
Nomes:
Licenciatura em Ensino de Matemática com Habilitação em Estatística

Com base nos dados acima destacados, pode-se notar que Tabela 1. 11: Autovalores
as médias das variáveis em análise revelam uma
diferença, entre os grupos. Todavia, não haja nenhuma Autovalores
variável que permita por sí só, diferenciar (discriminar) Funçã % de % Correlação
os grupos. o Autovalor variância cumulativa canônica
Para poder-se conhecer a variável que permita 1 32.192a 99.1 99.1 .985
discriminar os grupos deve-se recorrer ao teste de 2 .285a .9 100.0 .471
hipóteses de Lambda de Wilkes. a. As primeiras 2 funções discriminantes canônicas
foram usadas na análise.
Segundo Maroco (2007, p.351), o Lambda de Wilkes
testa as seguintes hipóteses. Com base nos resultados acima, pode-se notar que a
primeira função discriminante (a primeira função que
H0: A média dos grupos é igual mais contribui para demonstrar as diferenças entre
H1: A média dos grupos difere grupos) apresenta percentual igual a 99,1% e a outra
apresenta um percentual de 0,9%.
Tabela 1. 9: Testes de igualdade de médias de Tendo as funções descriminantes, resta testar a
grupo significância delas com base no teste de Hipóteses de
Testes de igualdade de médias de grupo lambda de wilks.
Lambda Funções em centroides de grupo
de Wilks Z df1 df2 Sig. Função
Sepal Length in .381 119.265 2 147 .000 Iris Specie 1 2
mm Setosa -7.608 .215
Sepal With in .599 49.160 2 147 .000 Versicolor 1.825 -.728
mm Virginica 5.783 .513
Petal Length in .059 1180.161 2 147 .000 Funções discriminantes canônicas não
mm padronizadas avaliadas em médias de
Petal Width in .071 960.007 2 147 .000 grupo
mm
Tabela 1. 12: Tabela do teste Lambda de Wilks

Interpretação Lambda de Wilks


Como sig em todos grupos é menor que 0.05, rejeita-se a Teste de Lambda de Qui-
H0, isto é, existe diferença entre os grupo. funções Wilks quadrado df Sig.
Vide a Tabela 1.10, que mostra as correlações, onde
encontram-se destacadas as menores correlações.
1 até 2 .023 546.115 8 .000
2 .778 36.530 3 .000

Tabela 1. 10: Matrizes dentro de grupos em pool


Com base na tabela 1.12, pode-se concluir que todas as
Matrizes dentro de grupos em pool funções são altamente discriminantes, porque o sig é
Sepal Sepal Petal Petal menor que 0.05.
Length With in Length Width in
in mm mm in mm mm Vide o mada na saída do SPSS.
Correlação Sepal 1.000 .530 .756 .365
Length 2.3) Com base nos diferentes métdos, chegou-se a mesma
in mm conclusão face a discriminação dos 3 grupo e variável
Sepal .530 1.000 .378 .471 Petal Length in mm é a que mais contribui para a
With in formação de pelo menos um dos clusters formados,
mm isto é, é a mais discriminante dos grupos por
Petal .756 .378 1.000 .484 possuir maior estatística Z (F = 1233.690).
Length
in mm
Actividade 3.
Petal .365 .471 .484 1.000 Para a realização desta actividade será usada a análise de
Width agrupamentos fazendo uso da medida de distância
in mm quadrática euclidiana e método de encadeamento
completo (furthest neighbor-Vizinho mais distante),
Análises dos quão diferentes os grupos são na função devido, a existência de observações consideravelmente
discriminantes. similares no banco de dados em relação a todas as
Segundo os autovalores são uma medida relativa de quão variáveis em análise.
diferentes os grupos são na função discriminante. Isto é, Como afirma Favero (2017), quando existência de
quanto mais afastados de 1 forem os autovalores, maiores observações consideravelmente similares no banco de
serão as variações entre os grupos explicadas pela função dados em relação a todas as variáveis em análisenessas
discriminante (p.43). situações, é recomendável que se utilize a medida de
distância quadrática euclidiana e método de
encadeamento completo (furthest neighbor). Essa
Nomes:
Licenciatura em Ensino de Matemática com Habilitação em Estatística

combinação de critérios é bastante popular em bases de maiores saltos (ponto 15). Neste momento, como
dados com observações muito homogéneas. acontecem duas intercepções com linhas do
dendrograma, pode se identificar duas figuras
Interpretação do dendrograma que consta do correspondentes clusters (grupos), formados,
apêndice respectivamente.
Com base na figura que consta no apêndice, pode-se
notar que, esta apresenta uma linha vertical (tracejada) Nota: Vide a matriz das proximidades/distâncias
que "corta" o dendrograma na região em que ocorrem os Euclidianas na caixa de saída.
Tabela 1. 13: Associação de cluster (grupos)

Associação de cluster
Caso 2 Clusters
1:Amsterdam 1
2:Athens 2
3:Bogota 2
4:Bombay 2
5:Brussels 1
6:Buenos Aires 2
7:Caracas 2
8:Chicago 1
9:Copenhagen 1
10:Dublin 1
11:Dusseldorf 1
12:Frankfurt 1
13:Geneva 1
14:Helsinki 1
15:Hong Kong 2
16:Houston 1
17:Johannesburg 2
18:Kuala Lumpur 2
19:Lagos 2
20:Lisbon 2
21:London 1
22:Los Angeles 1
23:Luxembourg 1
24:Madrid 1
25:Manila 2
26:Mexico City 2
27:Milan 1
28:Montreal 1
29:Nairobi 2
30:New York 1
31:Nicosia 2
32:Oslo 1
33:Panama 2
Nomes:
Licenciatura em Ensino de Matemática com Habilitação em Estatística

34:Paris 1
35:Rio de Janeiro 2
36:Sao Paulo 2
37:Seoul 2
38:Singpore 2
39:Stockholm 1
40:Sydney 1
41:Taipei 2
42:Tel Aviv 2
43:Tokyo 1
44:Toronto 1
45:Vienna 1
46:Zurich 1

A tabela 1.4, apresenta as estatísticas descritivas dos clusters, para cada variável.

Tabela 1. 14: Estatísticas Descritivas dos clusters, para cada variável

Descritivos
Intervalo de confiança de
95% para média
Erro Erro Limite Limite
N Média Desvio Erro inferior superior Mínimo Máximo
Média de 1 2 1789.2400 115.47268 23.09454 1741.5752 1836.9048 1583.00 2068.00
Horas de 5
Trabalho 2 2 1987.8571 172.85031 37.71903 1909.1766 2066.5377 1742.00 2375.00
1
Total 4 1879.9130 174.34255 25.70541 1828.1397 1931.6864 1583.00 2375.00
6
Medida de 1 2 84.9720 15.40597 3.08119 78.6127 91.3313 65.60 115.50
Preços Médios 5
2 2 52.3952 11.78785 2.57232 47.0295 57.7610 30.30 84.30
1
Total 4 70.1000 21.38918 3.15366 63.7482 76.4518 30.30 115.50
6
Medida de 1 2 59.0320 13.96235 2.79247 53.2686 64.7954 39.20 100.00
Salários 5
Médios 2 2 16.3476 10.27052 2.24121 11.6725 21.0227 2.70 34.50
1
Total 4 39.5457 24.75770 3.65032 32.1935 46.8978 2.70 100.00
6
Nomes:
Licenciatura em Ensino de Matemática com Habilitação em Estatística

Neste é possível notar que a mediadas Horas de Trabalho no grupo 1 e 2 são respectivamente 1789.2400 e
1987.8571, a média da Medida de Preços Médios no grupo 1 e 2 é respectivamente 84.9720 e 52.3952, Para os
salários, a média de Medida de Salários Médios 59.0320 e 16.3476.

Tabela 1. 15: Tabela ANOVA

ANOVA
Soma dos Quadrados df Quadrado Médio Z Sig.
Média de Horas de Entre 450230.521 1 450230.521 21.590 .000
Trabalho Grupos
Nos grupos 917559.131 44 20853.617
Total 1367789.652 45
Medida de Preços Médios Entre 12112.040 1 12112.040 62.880 .000
Grupos
Nos grupos 8475.320 44 192.621
Total 20587.360 45
Medida de Salários Médios Entre 20794.067 1 20794.067 134.780 .000
Grupos
Nos grupos 6788.407 44 154.282
Total 27582.474 45

Com base na tabela pode-se notar que as variáveis Média de Horas de Trabalho Medida de Preços Médios e
Medida de Salários Médios, pode-se concluir que todos clusters (grupos) apresentam média estatisticamente
diferente dos demais ao nível de significância de 5%.

Nota: Vide os respectivos gráficos que ilustram a diferença no ficheiro de saída.

Conclusão dados torna necessária a reaplicação da modelagem,


Com base no estudo feito, foi possível notar, a para que, eventualmente, sejam gerados novos
análise de Clusters é um conjunto de técnicas agrupamentos. Além disso, a inclusão de nova
permite que os mecanismos de tomada de decisão variável também pode fazer com que haja um
sejam mais bem estruturados e justificados a partir rearranjo completo das observações nos grupos.
do comportamento e da relação de interdependência Na análise feita em 2.1 notou-se que os clusters,
entre as observações de determinado banco de apresentavam uma diferença significativa e a
dados. Como a variável que representa os clusters variável Petal Length in mm é a que mais
formados é qualitativa, os outputs da análise de contribuiu para a formação de pelo menos um dos
agrupamentos podem servir de inputs em outras clusters formados, isto é, é a mais discriminante dos
técnicas multivariadas, tanto exploratórias, quanto grupos por possuir maior estatística Z (F =
confirmatórias. 1233.690), facto confirmado na análise
Análise Discriminante é usada quando o discriminante, onde formou-se apenas duas funções
pesquisador tem a intenção de utilizar uma técnica descriminantes e por fim chegou-se a mesma
para, de fato, confirmar o estabelecimento dos conclusão.
grupos e tornar a análise preditiva (capaz de prever
situações futuras). Na última análise, notou-se de todas as variáveis
contidas na Base de Dados da actividade 5, só era
Enquanto a Análise Discriminante é preditiva (pode possível formar dois grupos discriminantes.
ser usada para prever algo futuro), a análise de
Clusters é não apresenta carácter preditivo (não Referências Bibliográficas
pode ser usada para prever algo futuro) para outras REIS, Elizabeth (2001). Estatística Multivariada
observações não presentes inicialmente na amostra, Aplicada. 2ª ed., Edições Sílabo.
e a inclusão de novas observações no banco de
Nomes:
Licenciatura em Ensino de Matemática com Habilitação em Estatística

REIS, Elizabeth (2009). Estatística Descritiva. , 7ª FÁVERO, L. P.& BELFIORE, P. (2017). Análise
ed., Edições Sílabo. de Dados: Modelagem Multivariada para Tomada
Silvestre, A. (2007). Análise de Dados e Estatística de Decisões. Campus.
Descritiva. Escolar Editora. LATTIN, J.; CARROLL, J. D. & GREEN, P . E.
BRUNI, A. L. SPSS. (2009). Aplicado à Pesquisa (2011). Análise de Dados Multivariados.
Académica. ATLAS. CENGAGE Learning.
Nomes:
Primeiro Licenciatura em Ensino de Matemática com Habilitação em Estatística
Cluster

Maior Salto ou
distancia
Segundo
Cluster

Você também pode gostar