0% acharam este documento útil (0 voto)

15 visualizações4 páginas

KDD

O documento revisa tarefas de Mineração de Dados, incluindo associação, classificação, descoberta de sequências, agrupamento, regressão e sumarização, detalhando suas finalidades e métodos. Apresenta algoritmos principais para cada tarefa, como Apriori para associação e K-Means para agrupamento, além de discutir a avaliação de desempenho e aplicabilidade dos métodos. A aplicação prática é destacada, com grupos designados para explicar e implementar algoritmos específicos.

Enviado por

Cibelle Araujo De Magalhaes

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

15 visualizações4 páginas

KDD

Enviado por

Cibelle Araujo De Magalhaes

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 4

Revisão da Aula Anterior (Tarefas de DM)

Tarefa Finalidade Principal

Associação Identificar padrões do tipo “se X, então Y”.

Classificação Atribuir uma classe/categoria a um novo registro.

Descoberta de
Detectar padrões temporais ou sequenciais nos dados.
Sequências

Agrupamento
Agrupar dados semelhantes sem rótulos pré-definidos.
(Clustering)

Regressão Prever valores numéricos com base em variáveis históricas.

Gerar descrições resumidas e significativas de um conjunto de

Sumarização
dados.

1. Métodos de Mineração de Dados

Divisão Clássica:

• Supervisionado (Preditivo): Algoritmos treinados com dados rotulados,

utilizados para prever classes ou valores.

• Não-Supervisionado (Descritivo): Algoritmos que detectam padrões ocultos ou

grupos em dados sem rótulos.

Método Tipo Objetivo

Classificação Supervisionado Atribuir rótulos a novos dados.

Regressão Supervisionado Prever valores contínuos.

Agrupamento (Clustering) Não-supervisionado Agrupar dados semelhantes.

Associação Não-supervisionado Descobrir relações e padrões frequentes.

2. Principais Algoritmos por Tarefa

2.1 Associação

Algoritmo Descrição

Apriori Gera regras do tipo “se... então...” com base em frequência de itens.

Eclat Usa interseção de conjuntos para buscar padrões frequentes.

Algoritmo Descrição

FP- Utiliza uma árvore compacta (FP-tree) para encontrar padrões sem gerar
Growth candidatos.

Aplicações: análise de cestas de compra, recomendações de produtos, diagnósticos

combinados em saúde.

2.2 Classificação

Algoritmo Descrição

Estrutura em forma de árvore que classifica dados com base

Árvores de Decisão
em atributos.

Baseado em probabilidade condicional, assume independência

Naive Bayes
entre atributos.

KNN (K-Nearest
Classifica um registro com base nos vizinhos mais próximos.
Neighbors)

Aplicações: filtragem de spam, concessão de crédito, diagnósticos médicos,

reconhecimento de padrões.

2.3 Descoberta de Sequências

Algoritmo Descrição

GSP Busca padrões sequenciais frequentes em bases temporais.

Usa prefixos comuns para descobrir sequências frequentes de forma

PrefixSpan
eficiente.

SPADE Explora classes de equivalência para identificar padrões sequenciais.

Aplicações: previsão de comportamento do consumidor, rotinas de usuários, análise de

séries temporais.

2.4 Agrupamento (Clustering)

Algoritmo Descrição

K-Means Agrupa dados com base na proximidade de centróides (pré-definido K).

K-Medoids Usa objetos reais (medoids) como centros de clusters.

DBSCAN Agrupa por densidade, identifica ruído e clusters de formas arbitrárias.

Aplicações: segmentação de mercado, agrupamento genético, análise de imagens,
detecção de fraude.

2.5 Regressão

Algoritmo Descrição

Regressão Linear Modela relação linear entre variáveis.

Regressão Não-
Modela relações mais complexas com funções não-lineares.
Linear

Modela probabilidade de eventos binários (usada também em

Regressão Logística
classificação).

Aplicações: previsão de preços, demanda, lucros, desempenho escolar.

2.6 Sumarização

Algoritmo Descrição

Busca subconjuntos representativos usando seleção

Algoritmos Genéticos
natural e mutação.

Sumarização baseada em Utiliza agrupamentos para representar dados

clusters resumidamente.

Redução de Dimensionalidade
Reduz atributos mantendo a informação essencial.
(ex: PCA)

Aplicações: geração de relatórios automáticos, simplificação para dashboards,

compressão de dados.

3. Avaliação de Desempenho (Precisão e Acurácia)

Métrica Finalidade

Acurácia Percentual de classificações corretas.

Avaliam desempenho em classificação com classes

Precisão e Recall
desbalanceadas.

F1-Score Média harmônica entre precisão e recall.

MSE (Erro Quadrático Usado em regressão para medir a distância entre valores reais
Médio) e previstos.

Silhouette Score Mede a qualidade dos clusters (agrupamento).

4. Aplicabilidade dos Métodos

KDD

Enviado por

KDD

Enviado por

Revisão da Aula Anterior (Tarefas de DM)

Tarefa Finalidade Principal

Associação Identificar padrões do tipo “se X, então Y”.

Classificação Atribuir uma classe/categoria a um novo registro.

Regressão Prever valores numéricos com base em variáveis históricas.

Gerar descrições resumidas e significativas de um conjunto de

1. Métodos de Mineração de Dados

• Supervisionado (Preditivo): Algoritmos treinados com dados rotulados,

• Não-Supervisionado (Descritivo): Algoritmos que detectam padrões ocultos ou

Método Tipo Objetivo

Classificação Supervisionado Atribuir rótulos a novos dados.

Regressão Supervisionado Prever valores contínuos.

Agrupamento (Clustering) Não-supervisionado Agrupar dados semelhantes.

Associação Não-supervisionado Descobrir relações e padrões frequentes.

2. Principais Algoritmos por Tarefa

Eclat Usa interseção de conjuntos para buscar padrões frequentes.

Aplicações: análise de cestas de compra, recomendações de produtos, diagnósticos

Estrutura em forma de árvore que classifica dados com base

Baseado em probabilidade condicional, assume independência

Aplicações: filtragem de spam, concessão de crédito, diagnósticos médicos,

2.3 Descoberta de Sequências

GSP Busca padrões sequenciais frequentes em bases temporais.

Usa prefixos comuns para descobrir sequências frequentes de forma

SPADE Explora classes de equivalência para identificar padrões sequenciais.

Aplicações: previsão de comportamento do consumidor, rotinas de usuários, análise de

2.4 Agrupamento (Clustering)

K-Means Agrupa dados com base na proximidade de centróides (pré-definido K).

K-Medoids Usa objetos reais (medoids) como centros de clusters.

DBSCAN Agrupa por densidade, identifica ruído e clusters de formas arbitrárias.

Regressão Linear Modela relação linear entre variáveis.

Modela probabilidade de eventos binários (usada também em

Aplicações: previsão de preços, demanda, lucros, desempenho escolar.

Busca subconjuntos representativos usando seleção

Sumarização baseada em Utiliza agrupamentos para representar dados

Aplicações: geração de relatórios automáticos, simplificação para dashboards,

3. Avaliação de Desempenho (Precisão e Acurácia)

Acurácia Percentual de classificações corretas.

Avaliam desempenho em classificação com classes

F1-Score Média harmônica entre precisão e recall.

Silhouette Score Mede a qualidade dos clusters (agrupamento).

Tarefa Melhor Usada Quando...

Associação Deseja-se descobrir relacionamentos ocultos entre itens.

Classificação É necessário rotular novos dados com base em conhecimento anterior.

Há dados ordenados temporalmente e busca-se padrões de

Agrupamento Deseja-se entender estruturas e perfis escondidos nos dados.

O objetivo é prever valores numéricos com base em variáveis

Deseja-se resumir ou visualizar dados complexos de forma simples e

5. Aplicação Prática nas Atividades da Aula

Cada grupo foi orientado a:

1. Explicar um algoritmo específico da tarefa atribuída;

2. Detalhar funcionamento, aplicabilidade, precisão e etapas;

3. Criar um exemplo real e implementar o algoritmo;

4. Apresentar o código e os resultados na próxima aula.

Grupo Tarefa Algoritmo Escolhido

2 Classificação Naive Bayes

5 Regressão Regressão Linear

6 Sumarização Algoritmos Genéticos

Você também pode gostar