Revisão da Aula Anterior (Tarefas de DM)
Tarefa Finalidade Principal
Associação Identificar padrões do tipo “se X, então Y”.
Classificação Atribuir uma classe/categoria a um novo registro.
Descoberta de
Detectar padrões temporais ou sequenciais nos dados.
Sequências
Agrupamento
Agrupar dados semelhantes sem rótulos pré-definidos.
(Clustering)
Regressão Prever valores numéricos com base em variáveis históricas.
Gerar descrições resumidas e significativas de um conjunto de
Sumarização
dados.
1. Métodos de Mineração de Dados
Divisão Clássica:
• Supervisionado (Preditivo): Algoritmos treinados com dados rotulados,
utilizados para prever classes ou valores.
• Não-Supervisionado (Descritivo): Algoritmos que detectam padrões ocultos ou
grupos em dados sem rótulos.
Método Tipo Objetivo
Classificação Supervisionado Atribuir rótulos a novos dados.
Regressão Supervisionado Prever valores contínuos.
Agrupamento (Clustering) Não-supervisionado Agrupar dados semelhantes.
Associação Não-supervisionado Descobrir relações e padrões frequentes.
2. Principais Algoritmos por Tarefa
2.1 Associação
Algoritmo Descrição
Apriori Gera regras do tipo “se... então...” com base em frequência de itens.
Eclat Usa interseção de conjuntos para buscar padrões frequentes.
Algoritmo Descrição
FP- Utiliza uma árvore compacta (FP-tree) para encontrar padrões sem gerar
Growth candidatos.
Aplicações: análise de cestas de compra, recomendações de produtos, diagnósticos
combinados em saúde.
2.2 Classificação
Algoritmo Descrição
Estrutura em forma de árvore que classifica dados com base
Árvores de Decisão
em atributos.
Baseado em probabilidade condicional, assume independência
Naive Bayes
entre atributos.
KNN (K-Nearest
Classifica um registro com base nos vizinhos mais próximos.
Neighbors)
Aplicações: filtragem de spam, concessão de crédito, diagnósticos médicos,
reconhecimento de padrões.
2.3 Descoberta de Sequências
Algoritmo Descrição
GSP Busca padrões sequenciais frequentes em bases temporais.
Usa prefixos comuns para descobrir sequências frequentes de forma
PrefixSpan
eficiente.
SPADE Explora classes de equivalência para identificar padrões sequenciais.
Aplicações: previsão de comportamento do consumidor, rotinas de usuários, análise de
séries temporais.
2.4 Agrupamento (Clustering)
Algoritmo Descrição
K-Means Agrupa dados com base na proximidade de centróides (pré-definido K).
K-Medoids Usa objetos reais (medoids) como centros de clusters.
DBSCAN Agrupa por densidade, identifica ruído e clusters de formas arbitrárias.
Aplicações: segmentação de mercado, agrupamento genético, análise de imagens,
detecção de fraude.
2.5 Regressão
Algoritmo Descrição
Regressão Linear Modela relação linear entre variáveis.
Regressão Não-
Modela relações mais complexas com funções não-lineares.
Linear
Modela probabilidade de eventos binários (usada também em
Regressão Logística
classificação).
Aplicações: previsão de preços, demanda, lucros, desempenho escolar.
2.6 Sumarização
Algoritmo Descrição
Busca subconjuntos representativos usando seleção
Algoritmos Genéticos
natural e mutação.
Sumarização baseada em Utiliza agrupamentos para representar dados
clusters resumidamente.
Redução de Dimensionalidade
Reduz atributos mantendo a informação essencial.
(ex: PCA)
Aplicações: geração de relatórios automáticos, simplificação para dashboards,
compressão de dados.
3. Avaliação de Desempenho (Precisão e Acurácia)
Métrica Finalidade
Acurácia Percentual de classificações corretas.
Avaliam desempenho em classificação com classes
Precisão e Recall
desbalanceadas.
F1-Score Média harmônica entre precisão e recall.
MSE (Erro Quadrático Usado em regressão para medir a distância entre valores reais
Médio) e previstos.
Silhouette Score Mede a qualidade dos clusters (agrupamento).
4. Aplicabilidade dos Métodos
Tarefa Melhor Usada Quando...
Associação Deseja-se descobrir relacionamentos ocultos entre itens.
Classificação É necessário rotular novos dados com base em conhecimento anterior.
Há dados ordenados temporalmente e busca-se padrões de
Sequência
comportamento.
Agrupamento Deseja-se entender estruturas e perfis escondidos nos dados.
O objetivo é prever valores numéricos com base em variáveis
Regressão
independentes.
Deseja-se resumir ou visualizar dados complexos de forma simples e
Sumarização
significativa.
5. Aplicação Prática nas Atividades da Aula
Cada grupo foi orientado a:
1. Explicar um algoritmo específico da tarefa atribuída;
2. Detalhar funcionamento, aplicabilidade, precisão e etapas;
3. Criar um exemplo real e implementar o algoritmo;
4. Apresentar o código e os resultados na próxima aula.
Exemplo da Distribuição:
Grupo Tarefa Algoritmo Escolhido
1 Associação Apriori
2 Classificação Naive Bayes
3 Sequência GSP
4 Agrupamento K-Means
5 Regressão Regressão Linear
6 Sumarização Algoritmos Genéticos