0% acharam este documento útil (0 voto)
15 visualizações4 páginas

KDD

O documento revisa tarefas de Mineração de Dados, incluindo associação, classificação, descoberta de sequências, agrupamento, regressão e sumarização, detalhando suas finalidades e métodos. Apresenta algoritmos principais para cada tarefa, como Apriori para associação e K-Means para agrupamento, além de discutir a avaliação de desempenho e aplicabilidade dos métodos. A aplicação prática é destacada, com grupos designados para explicar e implementar algoritmos específicos.
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
15 visualizações4 páginas

KDD

O documento revisa tarefas de Mineração de Dados, incluindo associação, classificação, descoberta de sequências, agrupamento, regressão e sumarização, detalhando suas finalidades e métodos. Apresenta algoritmos principais para cada tarefa, como Apriori para associação e K-Means para agrupamento, além de discutir a avaliação de desempenho e aplicabilidade dos métodos. A aplicação prática é destacada, com grupos designados para explicar e implementar algoritmos específicos.
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 4

Revisão da Aula Anterior (Tarefas de DM)

Tarefa Finalidade Principal

Associação Identificar padrões do tipo “se X, então Y”.

Classificação Atribuir uma classe/categoria a um novo registro.

Descoberta de
Detectar padrões temporais ou sequenciais nos dados.
Sequências

Agrupamento
Agrupar dados semelhantes sem rótulos pré-definidos.
(Clustering)

Regressão Prever valores numéricos com base em variáveis históricas.

Gerar descrições resumidas e significativas de um conjunto de


Sumarização
dados.

1. Métodos de Mineração de Dados

Divisão Clássica:

• Supervisionado (Preditivo): Algoritmos treinados com dados rotulados,


utilizados para prever classes ou valores.

• Não-Supervisionado (Descritivo): Algoritmos que detectam padrões ocultos ou


grupos em dados sem rótulos.

Método Tipo Objetivo

Classificação Supervisionado Atribuir rótulos a novos dados.

Regressão Supervisionado Prever valores contínuos.

Agrupamento (Clustering) Não-supervisionado Agrupar dados semelhantes.

Associação Não-supervisionado Descobrir relações e padrões frequentes.

2. Principais Algoritmos por Tarefa

2.1 Associação

Algoritmo Descrição

Apriori Gera regras do tipo “se... então...” com base em frequência de itens.

Eclat Usa interseção de conjuntos para buscar padrões frequentes.


Algoritmo Descrição

FP- Utiliza uma árvore compacta (FP-tree) para encontrar padrões sem gerar
Growth candidatos.

Aplicações: análise de cestas de compra, recomendações de produtos, diagnósticos


combinados em saúde.

2.2 Classificação

Algoritmo Descrição

Estrutura em forma de árvore que classifica dados com base


Árvores de Decisão
em atributos.

Baseado em probabilidade condicional, assume independência


Naive Bayes
entre atributos.

KNN (K-Nearest
Classifica um registro com base nos vizinhos mais próximos.
Neighbors)

Aplicações: filtragem de spam, concessão de crédito, diagnósticos médicos,


reconhecimento de padrões.

2.3 Descoberta de Sequências

Algoritmo Descrição

GSP Busca padrões sequenciais frequentes em bases temporais.

Usa prefixos comuns para descobrir sequências frequentes de forma


PrefixSpan
eficiente.

SPADE Explora classes de equivalência para identificar padrões sequenciais.

Aplicações: previsão de comportamento do consumidor, rotinas de usuários, análise de


séries temporais.

2.4 Agrupamento (Clustering)

Algoritmo Descrição

K-Means Agrupa dados com base na proximidade de centróides (pré-definido K).

K-Medoids Usa objetos reais (medoids) como centros de clusters.

DBSCAN Agrupa por densidade, identifica ruído e clusters de formas arbitrárias.


Aplicações: segmentação de mercado, agrupamento genético, análise de imagens,
detecção de fraude.

2.5 Regressão

Algoritmo Descrição

Regressão Linear Modela relação linear entre variáveis.

Regressão Não-
Modela relações mais complexas com funções não-lineares.
Linear

Modela probabilidade de eventos binários (usada também em


Regressão Logística
classificação).

Aplicações: previsão de preços, demanda, lucros, desempenho escolar.

2.6 Sumarização

Algoritmo Descrição

Busca subconjuntos representativos usando seleção


Algoritmos Genéticos
natural e mutação.

Sumarização baseada em Utiliza agrupamentos para representar dados


clusters resumidamente.

Redução de Dimensionalidade
Reduz atributos mantendo a informação essencial.
(ex: PCA)

Aplicações: geração de relatórios automáticos, simplificação para dashboards,


compressão de dados.

3. Avaliação de Desempenho (Precisão e Acurácia)

Métrica Finalidade

Acurácia Percentual de classificações corretas.

Avaliam desempenho em classificação com classes


Precisão e Recall
desbalanceadas.

F1-Score Média harmônica entre precisão e recall.

MSE (Erro Quadrático Usado em regressão para medir a distância entre valores reais
Médio) e previstos.

Silhouette Score Mede a qualidade dos clusters (agrupamento).


4. Aplicabilidade dos Métodos

Tarefa Melhor Usada Quando...

Associação Deseja-se descobrir relacionamentos ocultos entre itens.

Classificação É necessário rotular novos dados com base em conhecimento anterior.

Há dados ordenados temporalmente e busca-se padrões de


Sequência
comportamento.

Agrupamento Deseja-se entender estruturas e perfis escondidos nos dados.

O objetivo é prever valores numéricos com base em variáveis


Regressão
independentes.

Deseja-se resumir ou visualizar dados complexos de forma simples e


Sumarização
significativa.

5. Aplicação Prática nas Atividades da Aula

Cada grupo foi orientado a:

1. Explicar um algoritmo específico da tarefa atribuída;

2. Detalhar funcionamento, aplicabilidade, precisão e etapas;

3. Criar um exemplo real e implementar o algoritmo;

4. Apresentar o código e os resultados na próxima aula.

Exemplo da Distribuição:

Grupo Tarefa Algoritmo Escolhido

1 Associação Apriori

2 Classificação Naive Bayes

3 Sequência GSP

4 Agrupamento K-Means

5 Regressão Regressão Linear

6 Sumarização Algoritmos Genéticos

Você também pode gostar