ÁRBOLES DE DECISIÓN.
VALOR ESPERADO DE LA INFORMACIÓN
PERFECTA.
A través del tiempo se han desarrollado una gran cantidad de métodos
para el análisis de datos, los cuales principalmente están basados en
técnicas estadísticas. Sin embargo, a medida que la información almacenada
crece considerablemente, los métodos estadísticos tradicionales han
empezado a enfrentar problemas de eficiencia y escalabilidad. Debido a que
la mayor parte de esta información es histórica y procede de fuentes
diversas, parece clara la inminente necesidad de buscar métodos
alternativos para el análisis de este tipo de datos y a partir de ellos, poder
obtener información relevante y no explícita.
En la mayoría de los casos, el análisis e interpretación de los datos se
hace de forma manual, es decir, el especialista analiza y elabora un informe
o hipótesis que refleja las tendencias o pautas de los mismos, para poder
presentar sus conclusiones y a partir de ellas poder tomar decisiones
importantes y significativas. Como se puede observar, este proceso es lento,
caro y altamente subjetivo, de hecho, el análisis manual es impracticable en
situaciones en las que el volumen de los datos crece exponencialmente, ya
que la gran cantidad de datos sobrepasa la capacidad humana para
comprenderlos sin la ayuda de una herramienta adecuada. Por lo tanto, en la
mayoría de los casos las decisiones importantes se toman no a partir de los
datos, sino de la intuición y experiencia de los expertos, puesto que carecen
de herramientas idóneas que los apoyen.
La clasificación inicial de las técnicas de minería de datos distingue
entre técnicas predictivas, en las que las variables pueden clasificarse en
dependientes e independientes; técnicas descriptivas, en las que todas las
variables tienen el mismo estatus y técnicas auxiliares, en las que se realiza
un análisis multidimensional de datos. En la figura 1 se muestra una
clasificación de las técnicas de minería de datos donde hallamos los árboles
de decisión (Pérez y Santín, 2008).
F
ig
ur
a
1.
Clasificación de las técnicas de Data Mining (Pérez y Santín, 2008).
Definición de árbol de decisiones.
Un árbol de decisión es un modelo de predicción cuyo objetivo principal
es el aprendizaje inductivo a partir de observaciones y construcciones
lógicas. Son muy similares a los sistemas de predicción basados en reglas,
que sirven para representar y categorizar una serie de condiciones que
suceden de forma sucesiva para la solución de un problema. Constituyen
probablemente el modelo de clasificación más utilizado y popular.
El conocimiento obtenido durante el proceso de aprendizaje inductivo
se representa mediante un árbol. Un árbol gráficamente se representa por un
conjunto de nodos, hojas y ramas. El nodo principal o raíz es el atributo a
partir del cual se inicia el proceso de clasificación; los nodos internos
corresponden a cada una de las preguntas acerca del atributo en particular
del problema. Cada posible respuesta a los cuestionamientos se representa
mediante un nodo hijo. Las ramas que salen de cada uno de estos nodos se
encuentran etiquetadas con los posibles valores del atributo. Los nodos
finales o nodos hoja corresponden a una decisión, la cual coincide con una
de las variables clase del problema a resolver (Ver Figura 2).
La terminología asociada a la técnica de los árboles de decisión recurre
a una terminología específica, por lo que se considera interesante,
clarificarla.
Nodo de decisión: Nodo que indica que una decisión necesita tomarse
en ese punto del proceso. Está representado por un cuadrado.
Nodo de probabilidad: indica que en ese punto del proceso ocurre un
evento aleatorio. Probabilidades de que ocurran los eventos posibles
como resultado de las decisiones. Está representado por un círculo.
Nodo terminal: Nodo en el que todos los casos tienen el mismo valor
para la variable dependiente. Es un nodo homogéneo que no requiere
ninguna división adicional, ya que es “puro”.
Rama: muestra los distintos caminos que se pueden emprender
cuando se toma
una decisión o
sucede algún
evento aleatorio.
Resultados de
las posibles
interacciones
entre las
alternativas de
decisión y los
eventos.
Figura 2: Estructura de un árbol de decisión.
Un algoritmo de generación de árboles de decisión consta de 2 etapas:
la primera corresponde a la inducción del árbol y la segunda a la
clasificación.
1. En la primera etapa se construye el árbol de decisión a partir del
conjunto de entrenamiento; comúnmente cada nodo interno del árbol
se compone de un atributo de prueba y la porción del conjunto de
entrenamiento presente en el nodo es dividida de acuerdo con los
valores que pueda tomar ese atributo. La construcción del árbol inicia
generando su nodo raíz, eligiendo un atributo de prueba y dividiendo
el conjunto de entrenamiento en dos o más subconjuntos; para cada
partición se genera un nuevo nodo y así sucesivamente. Cuando en
un nodo se tienen objetos de más de una clase se genera un nodo
interno; cuando contiene objetos de una clase solamente, se forma
una hoja a la que se le asigna la etiqueta de la clase.
2. En la segunda etapa del algoritmo cada objeto nuevo es clasificado
por el árbol construido; después se recorre el árbol desde el nodo raíz
hasta una hoja, a partir de la que se determina la membresía del
objeto a alguna clase. El camino a seguir en el árbol lo determinan las
decisiones tomadas en cada nodo interno, de acuerdo con el atributo
de prueba presente en él.
Un árbol de decisión es una forma gráfica y analítica de representar
todos los eventos (sucesos) que pueden surgir a partir de una decisión
asumida en cierto momento. Nos ayudan a tomar la decisión más "acertada",
desde un punto de vista probabilístico, ante un abanico de posibles
decisiones. Estos árboles permiten examinar los resultados y determinar
visualmente cómo fluye el modelo. Los resultados visuales ayudan a buscar
subgrupos específicos y relaciones que tal vez no encontraríamos con
estadísticos más tradicionales
Uso y Utilidad
Los árboles de decisión crean un modelo de clasificación basado en
diagramas de flujo. Clasifican casos en grupos o pronostican valores de una
variable dependiente (criterio) basada en valores de variables independientes
(predictoras).
Los árboles de decisión proveen de una herramienta de clasificación
muy potente. Su uso en el manejo de datos la hace ganar en popularidad
dadas las posibilidades que brinda y la facilidad con que son comprendidos
sus resultados por cualquier usuario. El árbol en sí mismo, al ser obtenidos,
determinan una regla de decisión. Esta técnica permite:
Segmentación: establecer que grupos son importantes para clasificar
un cierto ítem.
Clasificación: asignar ítems a uno de los grupos en que está
particionada una población.
Predicción: establecer reglas para hacer predicciones de ciertos
eventos.
Reducción de la dimensión de los datos: Identificar que datos son los
importantes para hacer modelos de un fenómeno. Identificación-
interrelación: identificar que variables y relaciones son importantes
para ciertos grupos identificados a partir de analizar los datos.
Recodificación: discretizar variables o establecer criterios cualitativos
perdiendo la menor cantidad posible de información relevante.
Función
La función árboles de decisión (Tree) en SPSS crea árboles de
clasificación y de decisión para identificar grupos, descubrir las relaciones
entre grupos y predecir eventos futuros. Existen diferentes tipos de árbol:
CHAID, CHAID exhaustivo, CRT y QUEST, según el que mejor se ajuste a
nuestros datos.
a) CHAID (Chi-square automatic interaction detector): Consiste en un
rápido algoritmo de árbol estadístico y multidireccional que explora
datos de forma rápida y eficaz, y crea segmentos y perfiles con
respecto al resultado deseado. Permite la detección automática de
interacciones mediante Chi-cuadrado. En cada paso, CHAID elige la
variable independiente (predictora) que presenta la interacción más
fuerte con la variable dependiente. Las categorías de cada predictor
se funden si no son significativamente distintas respecto a la variable
dependiente.
b) CHAID exhaustivo: Supone una modificación de CHAID que examina
todas las divisiones posibles para cada predictor y trata todas las
variables por igual, independientemente del tipo y el número de
categorías.
c) Árboles de clasificación y regresión (CRT-Classification and regression
trees): Consiste en un algoritmo de árbol binario completo que hace
particiones de los datos y genera subconjuntos precisos y
homogéneos. CRT divide los datos en segmentos para que sean lo
más homogéneos posible respecto a la variable dependiente.
d) QUEST (Quick, unbiased, efficient, statistical tree): Consiste en un
algoritmo estadístico que selecciona variables sin sesgo y crea
árboles binarios precisos de forma rápida y eficaz. Con cuatro
algoritmos tenemos la posibilidad de probar métodos diferentes de
crecimiento de los árboles y encontrar el que mejor se adapte a
nuestros datos. Es un método rápido y que evita el sesgo que
presentan otros métodos al favorecer los predictores con muchas
categorías. Sólo puede especificarse QUEST si la variable
dependiente es nominal.
Según Pérez (2011), las ventajas de un árbol de decisión son:
Facilita la interpretación de la decisión adoptada.
Facilita la comprensión del conocimiento utilizado en la toma de
decisiones.
Explica el comportamiento respecto a una determinada decisión.
Reduce el número de variables independientes.
Importancia
Tomando en cuenta que las empresas buscan incesantemente alcanzar
una mejor posición competitiva que conlleve a un desempeño superior al de
otras, se puede recurrir a técnicas de minería de datos para predecir los
niveles de competitividad. Esto ha motivado a realizar un estudio utilizando
una de esas técnicas, los árboles de decisión.
Esta técnica ha sido aplicada al conjunto de datos previamente
preparado para analizar cinco indicadores de competitividad empresarial:
productividad, recursos financieros, mercadotecnia, recursos humanos y
tecnología. La técnica de árboles de decisiones, en su tipo de árbol de
regresión, fue aplicada satisfactoriamente al conjunto de datos para analizar
la competitividad empresarial; es decir, permite conocer la manera en que
han incrementado o decrecido los indicadores de competitividad en el
tiempo, para así conocer la competitividad de la empresa. Estos resultados
permites inferir que la técnica seleccionada puede ser una herramienta útil
para tomar decisiones probabilísticas orientadas a optar por las opciones
más convenientes para la empresa.