0% encontró este documento útil (0 votos)
30 vistas8 páginas

Deber 5 Arboles

Cargado por

dellumiquinga4
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
30 vistas8 páginas

Deber 5 Arboles

Cargado por

dellumiquinga4
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 8

DEPARTAMENTO DE CIENCIAS DE LA COMPUTACIÓN

MINERÍA DE DATOS
NOMBRE: DAYANA LLUMIQUINGA
NRC: 16506
FECHA: 6/06/2024

INTRODUCCIÓN
Los árboles de decisión o de clasificación son modelos predictivos formados por reglas binarias
con las que se consigue repartir las observaciones en función de sus atributos y predecir así el
valor de la variable respuesta.
Muchos métodos predictivos generan modelos globales en los que una única ecuación se aplica
a todo el espacio muestral. Cuando el caso de uso implica múltiples predictores, que
interaccionan entre ellos de forma compleja y no lineal, es muy difícil encontrar un único
modelo global que sea capaz de reflejar la relación entre las variables. Los métodos estadísticos
basados en árboles engloban a un conjunto de técnicas supervisadas no paramétricas que
consiguen segmentar el espacio de los predictores en regiones simples, dentro de las cuales es
más sencillo manejar las interacciones. Es esta característica la que les proporciona gran parte
de su potencial. (Ayala, 2023)
DESARROLLO
Ejercicio 1: Construcción de un Árbol de Decisión Simple
 Preparación de los Datos
 Cargamos el conjunto de datos de Titanic desde un repositorio en línea utilizando la
función read.csv.
 Seguido de una inspección inicial con str para comprender la estructura y sus tipos de
variables.
 A continuación, se eliminan las filas con valores faltantes mediante complete.cases y las
columnas irrelevantes como "Name", "Ticket", "Cabin" y "Home.Dest", que no aportan
valor predictivo directo al modelo. Este paso asegura que el conjunto de datos esté
limpio y que solo se consideren las variables pertinentes para el análisis.

#Ejercicio 1
library(rpart)
library(rpart.plot)

set.seed(678)
path <- 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
titanic <- read.csv(path)
str(titanic)
 División del Conjunto de Datos
 Teniendo ya la reproducibilidad y la equidad en la evaluación del modelo, se establece
una semilla aleatoria con set.seed.
 Mostraremos un conjunto de datos se divide en dos partes: el 70% se utiliza para el
entrenamiento del modelo y el 30% restante se reserva para pruebas. Esta división se
realiza utilizando la función sample, que selecciona aleatoriamente los índices de las
filas que formarán cada subconjunto.
 Construcción del Modelo
 Considerando ya los datos divididos, se entrena un modelo de árbol de decisión
utilizando la función rpart con la fórmula Survived
 La variable objetivo es Survived y todas las demás variables se utilizarán como
predictoras. El parámetro method se establece en 'class' para especificar que se trata de
un problema de clasificación.
 Evaluación del Modelo
 Una vez entrenado el modelo, se evalúara el rendimiento en el conjunto de datos de
prueba.
 Se utilizan las predicciones generadas por el modelo sobre los datos de prueba, que
luego se comparan con los valores reales de supervivencia.

 Ajuste del Modelo


 Se define una función llamada precisión del modelo que evalúa la precisión del modelo
ajustando para mejorar su precisión de. Varios parámetros del modelo (minsplit,
minbucket, maxdepth y cp) se ajustan para maximizar su rendimiento. El modelo
ajustado se entrena nuevamente con rpart usando estos parámetros específicos y su
precisión se calcula nuevamente.
Ejercicio 2:
Modelo Ajustado con Diferente Proporción de Entrenamiento
Preparación de los Datos
Aquí en este ejercicio es parecido al anterior por lo tanto realizamos pasos parecidos.
 Se carga el conjunto de datos del Titanic y se inspecciona su estructura inicial. Se
eliminan las filas con valores faltantes y las columnas no relevantes ("Name", "Ticket",
"Cabin", "Home.Dest"), asegurando que el conjunto de datos esté limpio y listo para el
análisis.
 División del Conjunto de Datos
 Se establece una nueva semilla aleatoria con set.seed para garantizar la reproducibilidad
y se divide el conjunto de datos en 65% para entrenamiento y 35% para prueba,
diferente de la proporción utilizada en el primer ejercicio.
 Esta variación en la división permite evaluar cómo cambia el rendimiento del modelo
con diferentes tamaños de conjunto de entrenamiento y prueba

 Construcción del Modelo


 El modelo de árbol de decisión se entrena de la misma manera que en el ejercicio
anterior, utilizando rpart y especificando la fórmula Survived.
 El objetivo sigue siendo predecir la supervivencia basándose en todas las demás
variables disponibles.
 Evaluación del Modelo
 Utilizando el conjunto de datos de prueba para evaluar la precisión del modelo, de
forma similar al primer ejercicio.
 Se generan predicciones para los datos de prueba y se comparan con los valores reales
de supervivencia, calculando la precisión del modelo.
 Ajuste del Modelo
 Ajustamos los parámetros del modelo utilizando la función rpart.control para mejorar su
rendimiento.
 Se exploran diferentes configuraciones de minsplit, minbucket, maxdepth y cp para
encontrar la mejor combinación que maximice la precisión del modelo.

CONCLUSIÓN
 Los modelos de árboles de decisión, como el implementado usando la librería rpart, han
demostrado ser efectivos para predecir la supervivencia de los pasajeros del Titanic. La
precisión inicial del modelo, medida a través de la matriz de confusión. Está precisión
es indicativa de la capacidad del modelo para clasificar correctamente las instancias de
prueba.
 Para crear un modelo de árbol de decisión sólido, es necesario preparar los datos. Los
pasos como la limpieza de datos y la división en conjuntos de entrenamiento y prueba
se detallan en el trabajo.

BIBLIOGRAFÍA
Ayala, J. (17 de Marzo de 2023). Árboles de decisión. Obtenido de
https://rpubs.com/JairoAyala/AD

También podría gustarte