Exercícios de Agrupamento e Weka

O documento apresenta um exercício sobre agrupamentos com o algoritmo K-Means. Nele, são descritos os conceitos de agrupamento e classificação, são mostrados exemplos de agrupamento de times de futebol por estado e títulos, e são apresentados os resultados do K-Means para 2, 3, 4 e 5 clusters na base iris, incluindo os gráficos e métricas de cada execução.

Enviado por

Sabrina Ramos Prado

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

176 visualizações4 páginas

Exercícios de Agrupamento e Weka

Enviado por

Sabrina Ramos Prado

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 4

Exercícios sobre Agrupamentos.

Escreva as respostas em vermelho para facilitar a visualização.

Parte 1: Conceito
1. Descreva de forma sucinta a diferença entre os objetivos das abordagens de
agrupamento e classificação.
No agrupamento o processo de mineração é não-supervisionado, ou seja, os
elementos que fazem parte do processo de entrada não tem um grupo definido, eles são
agrupados conforme vão chegando.
Já a classificação é supervisionada, ou seja, os dados da sua base inicial servem de
teste para que os dados de uma próxima base sejam classificados a partir de determinado
critério pré – estipulado na base de teste.
2. Descreva e agrupe de duas maneiras diferentes os seguintes objetos.
Time Estado Quantidade de títulos BRs
Palmeiras SP 10
Santos SP 8
Corinthians SP 7
São Paulo SP 6
Flamengo RJ 6
Cruzeiro MG 4
Vasco RJ 4
Fluminense RJ 4
Internacional RS 3
Grêmio RS 2

Agrupamento de times por estado:

• SP – Palmeiras, Santos, Corinthians, São Paulo;
• RJ – Flamengo, Vasco, Fluminense;
• RS – Internacional, Grêmio;
• MG – Cruzeiro;

Agrupamento por quantidade de títulos:

• >=6 – Flamengo, São Paulo, Corinthians, Santos, Palmeiras;
• <6 – Cruzeiro, Fluminense, Internacional, Grêmio;
Parte 2: Weka
Abra a base de dados iris.2D, vá para a aba Cluster, escolha o algoritmo
SimpleKMeans e selecione o item Classes to clusters evaluation (Nom) class.
3. Execute o algoritmo para gerar 2, 3, 4 e 5 clusters. Responda qual o “Within cluster sum
of squared errors” e o do “Incorrectly clustered instances” para cada uma das execuções.
• 2 clusters:
o Within clusters sum of squared errors: 5.179687509974783
o Incorrectly clusters instances: 50.0 33.3333 %
• 3 clusters:
o Within clusters sum of squared errors: 1.7050986081225123
o Incorrectly clusters instances: 6.0 4%
• 4 clusters:
o Within clusters sum of squared errors: 1.1859115066688115
o Incorrectly clusters instances: 32.0 21.3333 %
• 5 clusters:
o Within clusters sum of squared errors: 0.8573139727200279
o Incorrectly clusters instances: 51.0 34%

4. Insira os gráficos gerados por cada uma das execuções.

• 2 clusters:
• 3 clusters:

• 4 clusters:

• 5 clusters:
5. O que significa o “Within cluster sum of squared errors” e o “Incorrectly clustered instances”?
• Within clusters sum of squared errors: é a distância média entre os itens da base de
dados;
• Incorrectly clusters instances: é a quantidade de instâncias agrupadas
incorretamente.
6. Ter uma distância entre os itens de um grupo menor sempre gera os resultados mais
corretos? Justifique.
Não, por que os resultados mais corretos se dão quando a quantidade de agrupamentos é a
mesma que àquela que já foi definida na base de dados, pois uma quantidade maior ou menor de
agrupamentos faz com que dados sejam forçados a serem colocados em grupos que não de fato os
representam.

Exercícios de Agrupamento e Weka

Enviado por

Exercícios de Agrupamento e Weka

Enviado por

Exercícios sobre Agrupamentos.

Escreva as respostas em vermelho para facilitar a visualização.

Agrupamento de times por estado:

Agrupamento por quantidade de títulos:

4. Insira os gráficos gerados por cada uma das execuções.

Você também pode gostar