Deber 5 Arboles

Cargado por

dellumiquinga4

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

30 vistas8 páginas

Deber 5 Arboles

Cargado por

dellumiquinga4

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 8

DEPARTAMENTO DE CIENCIAS DE LA COMPUTACIÓN

MINERÍA DE DATOS
NOMBRE: DAYANA LLUMIQUINGA
NRC: 16506
FECHA: 6/06/2024

INTRODUCCIÓN
Los árboles de decisión o de clasificación son modelos predictivos formados por reglas binarias
con las que se consigue repartir las observaciones en función de sus atributos y predecir así el
valor de la variable respuesta.
Muchos métodos predictivos generan modelos globales en los que una única ecuación se aplica
a todo el espacio muestral. Cuando el caso de uso implica múltiples predictores, que
interaccionan entre ellos de forma compleja y no lineal, es muy difícil encontrar un único
modelo global que sea capaz de reflejar la relación entre las variables. Los métodos estadísticos
basados en árboles engloban a un conjunto de técnicas supervisadas no paramétricas que
consiguen segmentar el espacio de los predictores en regiones simples, dentro de las cuales es
más sencillo manejar las interacciones. Es esta característica la que les proporciona gran parte
de su potencial. (Ayala, 2023)
DESARROLLO
Ejercicio 1: Construcción de un Árbol de Decisión Simple
 Preparación de los Datos
 Cargamos el conjunto de datos de Titanic desde un repositorio en línea utilizando la
función read.csv.
 Seguido de una inspección inicial con str para comprender la estructura y sus tipos de
variables.
 A continuación, se eliminan las filas con valores faltantes mediante complete.cases y las
columnas irrelevantes como "Name", "Ticket", "Cabin" y "Home.Dest", que no aportan
valor predictivo directo al modelo. Este paso asegura que el conjunto de datos esté
limpio y que solo se consideren las variables pertinentes para el análisis.

#Ejercicio 1
library(rpart)
library(rpart.plot)

set.seed(678)
path <- 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
titanic <- read.csv(path)
str(titanic)
 División del Conjunto de Datos
 Teniendo ya la reproducibilidad y la equidad en la evaluación del modelo, se establece
una semilla aleatoria con set.seed.
 Mostraremos un conjunto de datos se divide en dos partes: el 70% se utiliza para el
entrenamiento del modelo y el 30% restante se reserva para pruebas. Esta división se
realiza utilizando la función sample, que selecciona aleatoriamente los índices de las
filas que formarán cada subconjunto.
 Construcción del Modelo
 Considerando ya los datos divididos, se entrena un modelo de árbol de decisión
utilizando la función rpart con la fórmula Survived
 La variable objetivo es Survived y todas las demás variables se utilizarán como
predictoras. El parámetro method se establece en 'class' para especificar que se trata de
un problema de clasificación.
 Evaluación del Modelo
 Una vez entrenado el modelo, se evalúara el rendimiento en el conjunto de datos de
prueba.
 Se utilizan las predicciones generadas por el modelo sobre los datos de prueba, que
luego se comparan con los valores reales de supervivencia.

 Ajuste del Modelo

 Se define una función llamada precisión del modelo que evalúa la precisión del modelo
ajustando para mejorar su precisión de. Varios parámetros del modelo (minsplit,
minbucket, maxdepth y cp) se ajustan para maximizar su rendimiento. El modelo
ajustado se entrena nuevamente con rpart usando estos parámetros específicos y su
precisión se calcula nuevamente.
Ejercicio 2:
Modelo Ajustado con Diferente Proporción de Entrenamiento
Preparación de los Datos
Aquí en este ejercicio es parecido al anterior por lo tanto realizamos pasos parecidos.
 Se carga el conjunto de datos del Titanic y se inspecciona su estructura inicial. Se
eliminan las filas con valores faltantes y las columnas no relevantes ("Name", "Ticket",
"Cabin", "Home.Dest"), asegurando que el conjunto de datos esté limpio y listo para el
análisis.
 División del Conjunto de Datos
 Se establece una nueva semilla aleatoria con set.seed para garantizar la reproducibilidad
y se divide el conjunto de datos en 65% para entrenamiento y 35% para prueba,
diferente de la proporción utilizada en el primer ejercicio.
 Esta variación en la división permite evaluar cómo cambia el rendimiento del modelo
con diferentes tamaños de conjunto de entrenamiento y prueba

 Construcción del Modelo

 El modelo de árbol de decisión se entrena de la misma manera que en el ejercicio
anterior, utilizando rpart y especificando la fórmula Survived.
 El objetivo sigue siendo predecir la supervivencia basándose en todas las demás
variables disponibles.
 Evaluación del Modelo
 Utilizando el conjunto de datos de prueba para evaluar la precisión del modelo, de
forma similar al primer ejercicio.
 Se generan predicciones para los datos de prueba y se comparan con los valores reales
de supervivencia, calculando la precisión del modelo.
 Ajuste del Modelo
 Ajustamos los parámetros del modelo utilizando la función rpart.control para mejorar su
rendimiento.
 Se exploran diferentes configuraciones de minsplit, minbucket, maxdepth y cp para
encontrar la mejor combinación que maximice la precisión del modelo.

CONCLUSIÓN
 Los modelos de árboles de decisión, como el implementado usando la librería rpart, han
demostrado ser efectivos para predecir la supervivencia de los pasajeros del Titanic. La
precisión inicial del modelo, medida a través de la matriz de confusión. Está precisión
es indicativa de la capacidad del modelo para clasificar correctamente las instancias de
prueba.
 Para crear un modelo de árbol de decisión sólido, es necesario preparar los datos. Los
pasos como la limpieza de datos y la división en conjuntos de entrenamiento y prueba
se detallan en el trabajo.

BIBLIOGRAFÍA
Ayala, J. (17 de Marzo de 2023). Árboles de decisión. Obtenido de
https://rpubs.com/JairoAyala/AD

También podría gustarte

TEMA2
Aún no hay calificaciones
TEMA2
58 páginas
Articulo 4
Aún no hay calificaciones
Articulo 4
4 páginas
Diabetes Tree Trabajo Final
Aún no hay calificaciones
Diabetes Tree Trabajo Final
40 páginas
L-CDM 23 001068 01
Aún no hay calificaciones
L-CDM 23 001068 01
10 páginas
Arboles de Decisión
Aún no hay calificaciones
Arboles de Decisión
6 páginas
R Presentación
Aún no hay calificaciones
R Presentación
4 páginas
Arboles de Decisión
100% (1)
Arboles de Decisión
10 páginas
AlgoritmosClasificación - RandomForest
100% (1)
AlgoritmosClasificación - RandomForest
25 páginas
Taller Conceptual - Juan Esteban Alvarez
Aún no hay calificaciones
Taller Conceptual - Juan Esteban Alvarez
16 páginas
Clase 14 - Aprendizaje Supervisado
Aún no hay calificaciones
Clase 14 - Aprendizaje Supervisado
68 páginas
44 Aprendizaje Supervisado Modelos de Clasificación Autor Hugo Franco
Aún no hay calificaciones
44 Aprendizaje Supervisado Modelos de Clasificación Autor Hugo Franco
32 páginas
3 - Algoritmos de Aprendizaje Automático
Aún no hay calificaciones
3 - Algoritmos de Aprendizaje Automático
123 páginas
4 Grupo 04 Machine Learning
Aún no hay calificaciones
4 Grupo 04 Machine Learning
56 páginas
Árboles de Decisión
Aún no hay calificaciones
Árboles de Decisión
7 páginas
Guia Arboles Decision
Aún no hay calificaciones
Guia Arboles Decision
6 páginas
Telco SL
Aún no hay calificaciones
Telco SL
9 páginas
Modelos de Aprendizaje Automatico Mediante Arboles de Decision
Aún no hay calificaciones
Modelos de Aprendizaje Automatico Mediante Arboles de Decision
22 páginas
Deber 2
Aún no hay calificaciones
Deber 2
8 páginas
Actividad
Aún no hay calificaciones
Actividad
6 páginas
Ejercicio 2
Aún no hay calificaciones
Ejercicio 2
7 páginas
Clase 08 - Modelos Analíticos para DS II - Modelos Analíticos para DS III
Aún no hay calificaciones
Clase 08 - Modelos Analíticos para DS II - Modelos Analíticos para DS III
168 páginas
Tarea3 ClavijoDaniel
Aún no hay calificaciones
Tarea3 ClavijoDaniel
37 páginas
Trabajo Final Python
Aún no hay calificaciones
Trabajo Final Python
3 páginas
Sesion 5 y 6
Aún no hay calificaciones
Sesion 5 y 6
39 páginas
C4.5 Algorithm
Aún no hay calificaciones
C4.5 Algorithm
8 páginas
TEMA3
Aún no hay calificaciones
TEMA3
61 páginas
Predicción Supervivencia Titanic MATLAB
Aún no hay calificaciones
Predicción Supervivencia Titanic MATLAB
4 páginas
CART - Análisis Multivariado (2023-II)
Aún no hay calificaciones
CART - Análisis Multivariado (2023-II)
11 páginas
MUIAEI AA 2024 11 17 Tema 3
Aún no hay calificaciones
MUIAEI AA 2024 11 17 Tema 3
30 páginas
Sesion 3
Aún no hay calificaciones
Sesion 3
45 páginas
Árboles de Decisión en IA: Ventajas y Desafíos
Aún no hay calificaciones
Árboles de Decisión en IA: Ventajas y Desafíos
3 páginas
Machine Learning - Arboles - Python
Aún no hay calificaciones
Machine Learning - Arboles - Python
4 páginas
Clase 08 - Parte I - Modelos Analíticos para DS II
Aún no hay calificaciones
Clase 08 - Parte I - Modelos Analíticos para DS II
15 páginas
7 Modelos Arbol
Aún no hay calificaciones
7 Modelos Arbol
46 páginas
Presentacion - Random Forest
Aún no hay calificaciones
Presentacion - Random Forest
15 páginas
Sesion 2
Aún no hay calificaciones
Sesion 2
5 páginas
Sensores
Aún no hay calificaciones
Sensores
4 páginas
Taller 4-Arboles y Random Forest
Aún no hay calificaciones
Taller 4-Arboles y Random Forest
4 páginas
Tree-Based Machine Learning Algorithms: Algoritmos de Aprendizaje Automático Basados en Árboles
Aún no hay calificaciones
Tree-Based Machine Learning Algorithms: Algoritmos de Aprendizaje Automático Basados en Árboles
33 páginas
Resolución de Problemas Matemáticos o Técnicos
Aún no hay calificaciones
Resolución de Problemas Matemáticos o Técnicos
14 páginas
Arboles de Decisión Probabilidad Sara, Sara, Ilan
Aún no hay calificaciones
Arboles de Decisión Probabilidad Sara, Sara, Ilan
5 páginas
Clase14-Arboles y Random Forest
Aún no hay calificaciones
Clase14-Arboles y Random Forest
25 páginas
Random Forest
Aún no hay calificaciones
Random Forest
7 páginas
TP IA Marketin
Aún no hay calificaciones
TP IA Marketin
17 páginas
Modelos Predictivos
Aún no hay calificaciones
Modelos Predictivos
20 páginas
Marco Teorico Arboles de Decisión
Aún no hay calificaciones
Marco Teorico Arboles de Decisión
5 páginas
RiveroF v19 p39 - 46
Aún no hay calificaciones
RiveroF v19 p39 - 46
8 páginas
Who Knows More, My Tree or My Neighbor
Aún no hay calificaciones
Who Knows More, My Tree or My Neighbor
11 páginas
Clase 14 - Modelos Analíticos para DS II
Aún no hay calificaciones
Clase 14 - Modelos Analíticos para DS II
90 páginas
Free Hyperparameter Selection
Aún no hay calificaciones
Free Hyperparameter Selection
6 páginas
ATD - Sesion 15-16 Supervised Models - NEW Format
Aún no hay calificaciones
ATD - Sesion 15-16 Supervised Models - NEW Format
49 páginas
Semana2 Ensamble
Aún no hay calificaciones
Semana2 Ensamble
30 páginas
Random Forest en Python: Guía Completa
Aún no hay calificaciones
Random Forest en Python: Guía Completa
72 páginas
VALLEJO ALMEIDA ROBETO PATRICIO Actividad 1
Aún no hay calificaciones
VALLEJO ALMEIDA ROBETO PATRICIO Actividad 1
4 páginas
Semana1b - Modelo de Aprendizaje Automático Simple Que Realiza Una Tarea de Clasificación
Aún no hay calificaciones
Semana1b - Modelo de Aprendizaje Automático Simple Que Realiza Una Tarea de Clasificación
8 páginas
Clase 2 Aprendizaje Supervisado - Arboles
Aún no hay calificaciones
Clase 2 Aprendizaje Supervisado - Arboles
56 páginas
Qué Es Un Árbol de Decisión
Aún no hay calificaciones
Qué Es Un Árbol de Decisión
6 páginas
Ciencia de Datos
Aún no hay calificaciones
Ciencia de Datos
4 páginas
Dercas
Aún no hay calificaciones
Dercas
11 páginas
Check List de Prueba - Equipos Laser
Aún no hay calificaciones
Check List de Prueba - Equipos Laser
12 páginas
Numeros Reales. Racionalizacion
Aún no hay calificaciones
Numeros Reales. Racionalizacion
15 páginas
Electricidad
Aún no hay calificaciones
Electricidad
5 páginas
Guia Rapida de Uso Esterilizador de Baja Temperatura Pl130
Aún no hay calificaciones
Guia Rapida de Uso Esterilizador de Baja Temperatura Pl130
2 páginas
Uso Del SIDE en El Día de La Elección-CLV
Aún no hay calificaciones
Uso Del SIDE en El Día de La Elección-CLV
23 páginas
Estudio de Mercado
Aún no hay calificaciones
Estudio de Mercado
13 páginas
Manual Mettler Toledo Seven2go
Aún no hay calificaciones
Manual Mettler Toledo Seven2go
60 páginas
Manual - Excel (Básico)
100% (2)
Manual - Excel (Básico)
52 páginas
Dokumen - Tips Guia Digimon World 2003
Aún no hay calificaciones
Dokumen - Tips Guia Digimon World 2003
56 páginas
Hoja de Vida
Aún no hay calificaciones
Hoja de Vida
31 páginas
Mbda P02 G02 2020 02
Aún no hay calificaciones
Mbda P02 G02 2020 02
2 páginas
LAB 26.1.7 - Snort-and-Firewall-Rules - 1956760
Aún no hay calificaciones
LAB 26.1.7 - Snort-and-Firewall-Rules - 1956760
16 páginas
Tarea 1, Tablas de Frecuencia Puntos 4a y 9a
Aún no hay calificaciones
Tarea 1, Tablas de Frecuencia Puntos 4a y 9a
10 páginas
HP Designjet t2600
Aún no hay calificaciones
HP Designjet t2600
2 páginas
Azure Parte 1 Traducido
Aún no hay calificaciones
Azure Parte 1 Traducido
300 páginas
Política de Seguridad de Datalatina
100% (1)
Política de Seguridad de Datalatina
21 páginas
Introduccion A IOT
Aún no hay calificaciones
Introduccion A IOT
4 páginas
Compact Touch Manual Servicio Traduccion
100% (1)
Compact Touch Manual Servicio Traduccion
31 páginas
Unidad Didactica Nº2º Ept 2 º
Aún no hay calificaciones
Unidad Didactica Nº2º Ept 2 º
5 páginas
Adgg0208 Actividades Admon. Rr. Con El Cliente. Ed. 1
Aún no hay calificaciones
Adgg0208 Actividades Admon. Rr. Con El Cliente. Ed. 1
3 páginas
Currículum Vitae: Datos Personales
Aún no hay calificaciones
Currículum Vitae: Datos Personales
11 páginas
? (AC-S04) Semana 04 - Tema 01 Tarea - Tarea Académica 1 - Informatica Aplicada
Aún no hay calificaciones
? (AC-S04) Semana 04 - Tema 01 Tarea - Tarea Académica 1 - Informatica Aplicada
4 páginas
Conceptos Básicos de GIMP y Terminología
Aún no hay calificaciones
Conceptos Básicos de GIMP y Terminología
11 páginas
Implementación Del Área de Control de Calidad Pruebas Agiles
Aún no hay calificaciones
Implementación Del Área de Control de Calidad Pruebas Agiles
160 páginas
Visualización 3D Con VTK (Visualization Toolkit)
Aún no hay calificaciones
Visualización 3D Con VTK (Visualization Toolkit)
5 páginas
Samsung Galaxy A52 - Celulares - Tigo Colombia
Aún no hay calificaciones
Samsung Galaxy A52 - Celulares - Tigo Colombia
4 páginas
Actividad de La Lección 2 - Lección 2. Ingreso y Gasto Público - Material Del Curso CEEP23036X - MéxicoX
Aún no hay calificaciones
Actividad de La Lección 2 - Lección 2. Ingreso y Gasto Público - Material Del Curso CEEP23036X - MéxicoX
7 páginas
Manual de Instalación Angular
Aún no hay calificaciones
Manual de Instalación Angular
8 páginas
Ejercicios Uah
Aún no hay calificaciones
Ejercicios Uah
5 páginas