Árboles de Decisión en Minería de Datos

Cargado por

Rosario Maldonado

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

33 vistas8 páginas

Árboles de Decisión en Minería de Datos

Cargado por

Rosario Maldonado

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 8

ÁRBOLES DE DECISIÓN.

VALOR ESPERADO DE LA INFORMACIÓN

PERFECTA.

A través del tiempo se han desarrollado una gran cantidad de métodos

para el análisis de datos, los cuales principalmente están basados en
técnicas estadísticas. Sin embargo, a medida que la información almacenada
crece considerablemente, los métodos estadísticos tradicionales han
empezado a enfrentar problemas de eficiencia y escalabilidad. Debido a que
la mayor parte de esta información es histórica y procede de fuentes
diversas, parece clara la inminente necesidad de buscar métodos
alternativos para el análisis de este tipo de datos y a partir de ellos, poder
obtener información relevante y no explícita.
En la mayoría de los casos, el análisis e interpretación de los datos se
hace de forma manual, es decir, el especialista analiza y elabora un informe
o hipótesis que refleja las tendencias o pautas de los mismos, para poder
presentar sus conclusiones y a partir de ellas poder tomar decisiones
importantes y significativas. Como se puede observar, este proceso es lento,
caro y altamente subjetivo, de hecho, el análisis manual es impracticable en
situaciones en las que el volumen de los datos crece exponencialmente, ya
que la gran cantidad de datos sobrepasa la capacidad humana para
comprenderlos sin la ayuda de una herramienta adecuada. Por lo tanto, en la
mayoría de los casos las decisiones importantes se toman no a partir de los
datos, sino de la intuición y experiencia de los expertos, puesto que carecen
de herramientas idóneas que los apoyen.
La clasificación inicial de las técnicas de minería de datos distingue
entre técnicas predictivas, en las que las variables pueden clasificarse en
dependientes e independientes; técnicas descriptivas, en las que todas las
variables tienen el mismo estatus y técnicas auxiliares, en las que se realiza
un análisis multidimensional de datos. En la figura 1 se muestra una
clasificación de las técnicas de minería de datos donde hallamos los árboles
de decisión (Pérez y Santín, 2008).
F
ig
ur
a
1.

Clasificación de las técnicas de Data Mining (Pérez y Santín, 2008).

Definición de árbol de decisiones.

Un árbol de decisión es un modelo de predicción cuyo objetivo principal

es el aprendizaje inductivo a partir de observaciones y construcciones
lógicas. Son muy similares a los sistemas de predicción basados en reglas,
que sirven para representar y categorizar una serie de condiciones que
suceden de forma sucesiva para la solución de un problema. Constituyen
probablemente el modelo de clasificación más utilizado y popular.
El conocimiento obtenido durante el proceso de aprendizaje inductivo
se representa mediante un árbol. Un árbol gráficamente se representa por un
conjunto de nodos, hojas y ramas. El nodo principal o raíz es el atributo a
partir del cual se inicia el proceso de clasificación; los nodos internos
corresponden a cada una de las preguntas acerca del atributo en particular
del problema. Cada posible respuesta a los cuestionamientos se representa
mediante un nodo hijo. Las ramas que salen de cada uno de estos nodos se
encuentran etiquetadas con los posibles valores del atributo. Los nodos
finales o nodos hoja corresponden a una decisión, la cual coincide con una
de las variables clase del problema a resolver (Ver Figura 2).
La terminología asociada a la técnica de los árboles de decisión recurre
a una terminología específica, por lo que se considera interesante,
clarificarla.
 Nodo de decisión: Nodo que indica que una decisión necesita tomarse
en ese punto del proceso. Está representado por un cuadrado.
 Nodo de probabilidad: indica que en ese punto del proceso ocurre un
evento aleatorio. Probabilidades de que ocurran los eventos posibles
como resultado de las decisiones. Está representado por un círculo.
 Nodo terminal: Nodo en el que todos los casos tienen el mismo valor
para la variable dependiente. Es un nodo homogéneo que no requiere
ninguna división adicional, ya que es “puro”.
 Rama: muestra los distintos caminos que se pueden emprender
cuando se toma
una decisión o
sucede algún
evento aleatorio.
Resultados de
las posibles
interacciones
entre las
alternativas de
decisión y los
eventos.
Figura 2: Estructura de un árbol de decisión.
Un algoritmo de generación de árboles de decisión consta de 2 etapas:
la primera corresponde a la inducción del árbol y la segunda a la
clasificación.
1. En la primera etapa se construye el árbol de decisión a partir del
conjunto de entrenamiento; comúnmente cada nodo interno del árbol
se compone de un atributo de prueba y la porción del conjunto de
entrenamiento presente en el nodo es dividida de acuerdo con los
valores que pueda tomar ese atributo. La construcción del árbol inicia
generando su nodo raíz, eligiendo un atributo de prueba y dividiendo
el conjunto de entrenamiento en dos o más subconjuntos; para cada
partición se genera un nuevo nodo y así sucesivamente. Cuando en
un nodo se tienen objetos de más de una clase se genera un nodo
interno; cuando contiene objetos de una clase solamente, se forma
una hoja a la que se le asigna la etiqueta de la clase.
2. En la segunda etapa del algoritmo cada objeto nuevo es clasificado
por el árbol construido; después se recorre el árbol desde el nodo raíz
hasta una hoja, a partir de la que se determina la membresía del
objeto a alguna clase. El camino a seguir en el árbol lo determinan las
decisiones tomadas en cada nodo interno, de acuerdo con el atributo
de prueba presente en él.
Un árbol de decisión es una forma gráfica y analítica de representar
todos los eventos (sucesos) que pueden surgir a partir de una decisión
asumida en cierto momento. Nos ayudan a tomar la decisión más "acertada",
desde un punto de vista probabilístico, ante un abanico de posibles
decisiones. Estos árboles permiten examinar los resultados y determinar
visualmente cómo fluye el modelo. Los resultados visuales ayudan a buscar
subgrupos específicos y relaciones que tal vez no encontraríamos con
estadísticos más tradicionales
Uso y Utilidad

Los árboles de decisión crean un modelo de clasificación basado en

diagramas de flujo. Clasifican casos en grupos o pronostican valores de una
variable dependiente (criterio) basada en valores de variables independientes
(predictoras).
Los árboles de decisión proveen de una herramienta de clasificación
muy potente. Su uso en el manejo de datos la hace ganar en popularidad
dadas las posibilidades que brinda y la facilidad con que son comprendidos
sus resultados por cualquier usuario. El árbol en sí mismo, al ser obtenidos,
determinan una regla de decisión. Esta técnica permite:
 Segmentación: establecer que grupos son importantes para clasificar
un cierto ítem.
 Clasificación: asignar ítems a uno de los grupos en que está
particionada una población.
 Predicción: establecer reglas para hacer predicciones de ciertos
eventos.
 Reducción de la dimensión de los datos: Identificar que datos son los
importantes para hacer modelos de un fenómeno. Identificación-
interrelación: identificar que variables y relaciones son importantes
para ciertos grupos identificados a partir de analizar los datos.
 Recodificación: discretizar variables o establecer criterios cualitativos
perdiendo la menor cantidad posible de información relevante.

Función

La función árboles de decisión (Tree) en SPSS crea árboles de

clasificación y de decisión para identificar grupos, descubrir las relaciones
entre grupos y predecir eventos futuros. Existen diferentes tipos de árbol:
CHAID, CHAID exhaustivo, CRT y QUEST, según el que mejor se ajuste a
nuestros datos.
a) CHAID (Chi-square automatic interaction detector): Consiste en un
rápido algoritmo de árbol estadístico y multidireccional que explora
datos de forma rápida y eficaz, y crea segmentos y perfiles con
respecto al resultado deseado. Permite la detección automática de
interacciones mediante Chi-cuadrado. En cada paso, CHAID elige la
variable independiente (predictora) que presenta la interacción más
fuerte con la variable dependiente. Las categorías de cada predictor
se funden si no son significativamente distintas respecto a la variable
dependiente.
b) CHAID exhaustivo: Supone una modificación de CHAID que examina
todas las divisiones posibles para cada predictor y trata todas las
variables por igual, independientemente del tipo y el número de
categorías.
c) Árboles de clasificación y regresión (CRT-Classification and regression
trees): Consiste en un algoritmo de árbol binario completo que hace
particiones de los datos y genera subconjuntos precisos y
homogéneos. CRT divide los datos en segmentos para que sean lo
más homogéneos posible respecto a la variable dependiente.
d) QUEST (Quick, unbiased, efficient, statistical tree): Consiste en un
algoritmo estadístico que selecciona variables sin sesgo y crea
árboles binarios precisos de forma rápida y eficaz. Con cuatro
algoritmos tenemos la posibilidad de probar métodos diferentes de
crecimiento de los árboles y encontrar el que mejor se adapte a
nuestros datos. Es un método rápido y que evita el sesgo que
presentan otros métodos al favorecer los predictores con muchas
categorías. Sólo puede especificarse QUEST si la variable
dependiente es nominal.
Según Pérez (2011), las ventajas de un árbol de decisión son:
 Facilita la interpretación de la decisión adoptada.
 Facilita la comprensión del conocimiento utilizado en la toma de
decisiones.
 Explica el comportamiento respecto a una determinada decisión.
 Reduce el número de variables independientes.

Importancia

Tomando en cuenta que las empresas buscan incesantemente alcanzar

una mejor posición competitiva que conlleve a un desempeño superior al de
otras, se puede recurrir a técnicas de minería de datos para predecir los
niveles de competitividad. Esto ha motivado a realizar un estudio utilizando
una de esas técnicas, los árboles de decisión.
Esta técnica ha sido aplicada al conjunto de datos previamente
preparado para analizar cinco indicadores de competitividad empresarial:
productividad, recursos financieros, mercadotecnia, recursos humanos y
tecnología. La técnica de árboles de decisiones, en su tipo de árbol de
regresión, fue aplicada satisfactoriamente al conjunto de datos para analizar
la competitividad empresarial; es decir, permite conocer la manera en que
han incrementado o decrecido los indicadores de competitividad en el
tiempo, para así conocer la competitividad de la empresa. Estos resultados
permites inferir que la técnica seleccionada puede ser una herramienta útil
para tomar decisiones probabilísticas orientadas a optar por las opciones
más convenientes para la empresa.

También podría gustarte

Función y Utilidad de Los Árboles de Decisión
Aún no hay calificaciones
Función y Utilidad de Los Árboles de Decisión
8 páginas
Arbori de Decizie
Aún no hay calificaciones
Arbori de Decizie
15 páginas
Arbol de Decision en Spss
Aún no hay calificaciones
Arbol de Decision en Spss
15 páginas
06 - Berlanga, Silvente, Et Al
Aún no hay calificaciones
06 - Berlanga, Silvente, Et Al
15 páginas
Árboles de Decisión: Análisis y Aplicaciones
Aún no hay calificaciones
Árboles de Decisión: Análisis y Aplicaciones
4 páginas
Árboles de Decision en Spss
Aún no hay calificaciones
Árboles de Decision en Spss
2 páginas
Árboles de Decisión en Bioinformática
Aún no hay calificaciones
Árboles de Decisión en Bioinformática
18 páginas
Arboles de Decisión Probabilidad Sara, Sara, Ilan
Aún no hay calificaciones
Arboles de Decisión Probabilidad Sara, Sara, Ilan
5 páginas
Arbol de Desicion 1
Aún no hay calificaciones
Arbol de Desicion 1
8 páginas
Minería de Datos
Aún no hay calificaciones
Minería de Datos
9 páginas
Arbol de Decisiones
Aún no hay calificaciones
Arbol de Decisiones
3 páginas
Arbol de Decisiones
100% (1)
Arbol de Decisiones
15 páginas
Árboles de Decisión y Reglas
Aún no hay calificaciones
Árboles de Decisión y Reglas
17 páginas
Taller Conceptual - Juan Esteban Alvarez
Aún no hay calificaciones
Taller Conceptual - Juan Esteban Alvarez
16 páginas
Árbol de Decisión
Aún no hay calificaciones
Árbol de Decisión
18 páginas
Marco Teorico Arboles de Decisión
Aún no hay calificaciones
Marco Teorico Arboles de Decisión
5 páginas
Artículo Árboles de Decisión
Aún no hay calificaciones
Artículo Árboles de Decisión
3 páginas
Guía Completa de Árboles de Decisión
Aún no hay calificaciones
Guía Completa de Árboles de Decisión
10 páginas
Who Knows More, My Tree or My Neighbor
Aún no hay calificaciones
Who Knows More, My Tree or My Neighbor
11 páginas
Exposicion de Gestion
Aún no hay calificaciones
Exposicion de Gestion
12 páginas
Árbol de Decisiones.
Aún no hay calificaciones
Árbol de Decisiones.
15 páginas
Guía Completa de Árboles de Decisión
Aún no hay calificaciones
Guía Completa de Árboles de Decisión
11 páginas
Aprendizaje Mediante Construcción de Árboles de Identificación
Aún no hay calificaciones
Aprendizaje Mediante Construcción de Árboles de Identificación
4 páginas
Árbol de Decisión
Aún no hay calificaciones
Árbol de Decisión
8 páginas
Arboles de Desicion
100% (1)
Arboles de Desicion
16 páginas
U2 Arbol Decisión 1
Aún no hay calificaciones
U2 Arbol Decisión 1
8 páginas
7 Modelos Arbol
Aún no hay calificaciones
7 Modelos Arbol
46 páginas
Arboles de Deciones
Aún no hay calificaciones
Arboles de Deciones
5 páginas
Árboles de Decisión
Aún no hay calificaciones
Árboles de Decisión
4 páginas
Tema6 (Diapos)
Aún no hay calificaciones
Tema6 (Diapos)
24 páginas
Trab Estructura de Datos
Aún no hay calificaciones
Trab Estructura de Datos
15 páginas
Arboles Decision - Teoria
Aún no hay calificaciones
Arboles Decision - Teoria
16 páginas
Qué Es Un Árbol de Decisión
Aún no hay calificaciones
Qué Es Un Árbol de Decisión
6 páginas
Diagrama de Árbol de Decisión - Psicologia
Aún no hay calificaciones
Diagrama de Árbol de Decisión - Psicologia
4 páginas
UNIVERSIDAD Arbol de Decision Tarea
Aún no hay calificaciones
UNIVERSIDAD Arbol de Decision Tarea
10 páginas
Arbol de Decision
Aún no hay calificaciones
Arbol de Decision
11 páginas
Qué Es Un Árbol de Decisión
Aún no hay calificaciones
Qué Es Un Árbol de Decisión
8 páginas
Campus Tlalpan: José Antonio Chávez Malagamba Carlos Adán Moctezuma Figueroa
Aún no hay calificaciones
Campus Tlalpan: José Antonio Chávez Malagamba Carlos Adán Moctezuma Figueroa
11 páginas
Pregunta8 PatriciaVillalbaCrucelaegui
Aún no hay calificaciones
Pregunta8 PatriciaVillalbaCrucelaegui
2 páginas
Arboles de Clasificacion y Regresión
Aún no hay calificaciones
Arboles de Clasificacion y Regresión
23 páginas
Diabetes Tree Trabajo Final
Aún no hay calificaciones
Diabetes Tree Trabajo Final
40 páginas
Tema 6
Aún no hay calificaciones
Tema 6
33 páginas
TEMA2
Aún no hay calificaciones
TEMA2
58 páginas
ARBOLES DE DECISION (Modificado)
Aún no hay calificaciones
ARBOLES DE DECISION (Modificado)
22 páginas
Arbol de Decisiones
Aún no hay calificaciones
Arbol de Decisiones
15 páginas
Árboles de Decisión Difusos
Aún no hay calificaciones
Árboles de Decisión Difusos
15 páginas
Árboles de Decisión
Aún no hay calificaciones
Árboles de Decisión
4 páginas
Tema 6
Aún no hay calificaciones
Tema 6
41 páginas
Árbol de Decisiones
Aún no hay calificaciones
Árbol de Decisiones
5 páginas
Arbol de Decisiones
Aún no hay calificaciones
Arbol de Decisiones
3 páginas
Tema V TCG
Aún no hay calificaciones
Tema V TCG
25 páginas
Kovalevski Macat Alternativas No Parametricas
Aún no hay calificaciones
Kovalevski Macat Alternativas No Parametricas
14 páginas
Tema 6. Aprendizaje Supervisado. Regresión y Clasificación Con Árboles de Decisión
Aún no hay calificaciones
Tema 6. Aprendizaje Supervisado. Regresión y Clasificación Con Árboles de Decisión
48 páginas
Contabilidad de Costos
Aún no hay calificaciones
Contabilidad de Costos
4 páginas
Guía Contabilidad de Costos
Aún no hay calificaciones
Guía Contabilidad de Costos
4 páginas
Función de Utilidad
Aún no hay calificaciones
Función de Utilidad
9 páginas
Métodos Cuantitativos en Decisiones Empresariales
Aún no hay calificaciones
Métodos Cuantitativos en Decisiones Empresariales
36 páginas
Valor Esperado de Información Perfecta
Aún no hay calificaciones
Valor Esperado de Información Perfecta
3 páginas
Guía I Ejercicios PPE
Aún no hay calificaciones
Guía I Ejercicios PPE
4 páginas
El Ciclo Contable y La Teoría Del Cargo y Del Abono
Aún no hay calificaciones
El Ciclo Contable y La Teoría Del Cargo y Del Abono
8 páginas
Fusión y Conversión de Las Sociedades Mercantiles
Aún no hay calificaciones
Fusión y Conversión de Las Sociedades Mercantiles
13 páginas
Características de Las Contribuciones Parafiscales
Aún no hay calificaciones
Características de Las Contribuciones Parafiscales
4 páginas
Contabilidad de Agencias y Sucursales
100% (5)
Contabilidad de Agencias y Sucursales
5 páginas
Directorio y Estrategias de Control Social 2018
Aún no hay calificaciones
Directorio y Estrategias de Control Social 2018
1 página
Historia de Control Automatico
Aún no hay calificaciones
Historia de Control Automatico
6 páginas
Curso - BI - 1-2.ppt (Modo de Compatibilidad)
Aún no hay calificaciones
Curso - BI - 1-2.ppt (Modo de Compatibilidad)
31 páginas
Curso Autodesk Inventor 2018
Aún no hay calificaciones
Curso Autodesk Inventor 2018
6 páginas
Temario - Ofimatica Nivel Basico
Aún no hay calificaciones
Temario - Ofimatica Nivel Basico
4 páginas
Semana 4 Tecnologia
Aún no hay calificaciones
Semana 4 Tecnologia
5 páginas
PT Prueba de Electroluminiscencia. Rev.0
Aún no hay calificaciones
PT Prueba de Electroluminiscencia. Rev.0
41 páginas
Curp Actual Alexis
Aún no hay calificaciones
Curp Actual Alexis
1 página
Veh 500500428326 Gy.0952
Aún no hay calificaciones
Veh 500500428326 Gy.0952
3 páginas
Plantilla - Project Charter
Aún no hay calificaciones
Plantilla - Project Charter
16 páginas
Cep 20250516 50110200transbpi96871799
Aún no hay calificaciones
Cep 20250516 50110200transbpi96871799
1 página
Tema 2 Investigación Documental
Aún no hay calificaciones
Tema 2 Investigación Documental
50 páginas
NTSyCS May18
100% (1)
NTSyCS May18
183 páginas
Manual GSM Ac2000
Aún no hay calificaciones
Manual GSM Ac2000
15 páginas
Importancia del Firewall en Empresas
Aún no hay calificaciones
Importancia del Firewall en Empresas
1 página
Ficha Técnica Equipo de Sonido
Aún no hay calificaciones
Ficha Técnica Equipo de Sonido
5 páginas
Proyectos - Sistemas Digitales I
Aún no hay calificaciones
Proyectos - Sistemas Digitales I
3 páginas
24 A 617
Aún no hay calificaciones
24 A 617
76 páginas
Examen de Conocimientos Jurídicos y Matemáticos
Aún no hay calificaciones
Examen de Conocimientos Jurídicos y Matemáticos
8 páginas
Proyecto Radio Enlace IMR NetSystem
Aún no hay calificaciones
Proyecto Radio Enlace IMR NetSystem
54 páginas
Programación No Lineal Mapa Conceptual
Aún no hay calificaciones
Programación No Lineal Mapa Conceptual
1 página
Inbound 8855339461166107004
Aún no hay calificaciones
Inbound 8855339461166107004
5 páginas
CAPÍTULO 2 - Operaciones Combinadas en Q
Aún no hay calificaciones
CAPÍTULO 2 - Operaciones Combinadas en Q
4 páginas
Historias de Usuario Final
Aún no hay calificaciones
Historias de Usuario Final
10 páginas
Guía Completa para Proyectos Grupales
Aún no hay calificaciones
Guía Completa para Proyectos Grupales
15 páginas
Unidad de Trabajo 1 Características Del Hogar Digital
Aún no hay calificaciones
Unidad de Trabajo 1 Características Del Hogar Digital
38 páginas
Tutorial Completo de Hping con Ejemplos
100% (1)
Tutorial Completo de Hping con Ejemplos
12 páginas
Color Champage Beige - Buscar Con Google
Aún no hay calificaciones
Color Champage Beige - Buscar Con Google
1 página
Instructivo de Uso de Bizagi
Aún no hay calificaciones
Instructivo de Uso de Bizagi
14 páginas
(Modelo) Licitación Hospital Chimbote
Aún no hay calificaciones
(Modelo) Licitación Hospital Chimbote
92 páginas