Exercícios sobre Agrupamentos.
Escreva as respostas em vermelho para facilitar a visualização.
Parte 1: Conceito
1. Descreva de forma sucinta a diferença entre os objetivos das abordagens de
agrupamento e classificação.
No agrupamento o processo de mineração é não-supervisionado, ou seja, os
elementos que fazem parte do processo de entrada não tem um grupo definido, eles são
agrupados conforme vão chegando.
Já a classificação é supervisionada, ou seja, os dados da sua base inicial servem de
teste para que os dados de uma próxima base sejam classificados a partir de determinado
critério pré – estipulado na base de teste.
2. Descreva e agrupe de duas maneiras diferentes os seguintes objetos.
Time Estado Quantidade de títulos BRs
Palmeiras SP 10
Santos SP 8
Corinthians SP 7
São Paulo SP 6
Flamengo RJ 6
Cruzeiro MG 4
Vasco RJ 4
Fluminense RJ 4
Internacional RS 3
Grêmio RS 2
Agrupamento de times por estado:
• SP – Palmeiras, Santos, Corinthians, São Paulo;
• RJ – Flamengo, Vasco, Fluminense;
• RS – Internacional, Grêmio;
• MG – Cruzeiro;
Agrupamento por quantidade de títulos:
• >=6 – Flamengo, São Paulo, Corinthians, Santos, Palmeiras;
• <6 – Cruzeiro, Fluminense, Internacional, Grêmio;
Parte 2: Weka
Abra a base de dados iris.2D, vá para a aba Cluster, escolha o algoritmo
SimpleKMeans e selecione o item Classes to clusters evaluation (Nom) class.
3. Execute o algoritmo para gerar 2, 3, 4 e 5 clusters. Responda qual o “Within cluster sum
of squared errors” e o do “Incorrectly clustered instances” para cada uma das execuções.
• 2 clusters:
o Within clusters sum of squared errors: 5.179687509974783
o Incorrectly clusters instances: 50.0 33.3333 %
• 3 clusters:
o Within clusters sum of squared errors: 1.7050986081225123
o Incorrectly clusters instances: 6.0 4%
• 4 clusters:
o Within clusters sum of squared errors: 1.1859115066688115
o Incorrectly clusters instances: 32.0 21.3333 %
• 5 clusters:
o Within clusters sum of squared errors: 0.8573139727200279
o Incorrectly clusters instances: 51.0 34%
4. Insira os gráficos gerados por cada uma das execuções.
• 2 clusters:
• 3 clusters:
• 4 clusters:
• 5 clusters:
5. O que significa o “Within cluster sum of squared errors” e o “Incorrectly clustered instances”?
• Within clusters sum of squared errors: é a distância média entre os itens da base de
dados;
• Incorrectly clusters instances: é a quantidade de instâncias agrupadas
incorretamente.
6. Ter uma distância entre os itens de um grupo menor sempre gera os resultados mais
corretos? Justifique.
Não, por que os resultados mais corretos se dão quando a quantidade de agrupamentos é a
mesma que àquela que já foi definida na base de dados, pois uma quantidade maior ou menor de
agrupamentos faz com que dados sejam forçados a serem colocados em grupos que não de fato os
representam.