0% encontró este documento útil (0 votos)

13 vistas7 páginas

Tarea 5 - GeovannyPinoCastillo

El proyecto analiza datos del Titanic utilizando algoritmos de Machine Learning para predecir la supervivencia de los pasajeros. Se identificaron problemas como valores atípicos, desbalance en la variable objetivo y un rendimiento subóptimo de los modelos entrenados. Se proponen recomendaciones para mejorar el filtrado de datos, manejar el desbalance de clases y evaluar otros modelos.

Cargado por

oyarelispaola

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

13 vistas7 páginas

Tarea 5 - GeovannyPinoCastillo

Cargado por

oyarelispaola

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 7

Tarea 5 - Proyecto Análisis de Datos

Estudiante:

Geovanny Pino Castillo

Grupo:

202016908_6

Entregado a:

Tutor: Ferley Medina

Universidad Nacional Abierta y a Distancia (UNAD)

Programa: Ingeniería de Sistemas

Valledupar/ Cesar

Mayo – 2024
Introducción

Aplicar algoritmos de Machine Learning supervisado según el problema,

empleando métodos de modelado predictivo como regresión y
clasificación.

El análisis de datos es un componente esencial en la ciencia de datos y el

aprendizaje automático, permitiendo descubrir patrones y relaciones
ocultas en grandes volúmenes de información. En este contexto,
utilizamos un conjunto de datos muy famosos la base de datos del Titanic.
Este dataset contiene información sobre los pasajeros del Titanic,
incluyendo detalles como la edad, el sexo, la clase de billete, y si
sobrevivieron o no al naufragio. A través de técnicas de análisis
exploratorio y modelado predictivo, intentaremos construir un modelo que
pueda predecir la supervivencia de los pasajeros basándose en las
características disponibles.
Objetivos

1. Realizar un Análisis Exploratorio de Datos (EDA):

• Identificar relaciones entre variables.
• Detectar valores atípicos y tendencias.
• Evaluar la distribución de las variables y la presencia de datos
faltantes.

2. Preprocesar los Datos:

• Limpiar los datos y manejar valores atípicos y faltantes.
• Seleccionar las características más relevantes para el análisis.

3. Entrenar Modelos Predictivos:

• Utilizar algoritmos de machine learning para entrenar modelos que
puedan predecir la supervivencia de los pasajeros.
• Evaluar el rendimiento de los modelos mediante métricas
adecuadas como precisión, recall y F1-score.

4. Visualizar Resultados:
• Generar visualizaciones que ayuden a interpretar los resultados y el
rendimiento de los modelos.
• Utilizar matrices de confusión y curvas ROC para evaluar las
predicciones.
Enlace de GitHub donde se pueda consultar el código del modelo
diseñado.

https://github.com/GeovannyPino/TAREA--5/tree/main

✓ Interpretación de los resultados del modelo

Conclusión del Análisis y Modelado Predictivo El análisis exploratorio y el

modelado predictivo realizados sobre el dataset del Titanic han revelado
varios puntos importantes.

1. Identificación de Valores Atípicos:

Se detectaron valores atípicos en las variables Fare, Pclass, Parch y Age.

La presencia de estos valores puede distorsionar el análisis y afectar
negativamente la precisión del modelo. Es fundamental abordar estos
valores atípicos adecuadamente, ya sea mediante su eliminación o
transformación.

2. Distribución de la Variable Objetivo:

La variable objetivo Survived mostró un desbalance significativo, con más

registros de pasajeros que no sobrevivieron en comparación con los que
sí lo hicieron. Este desbalance puede llevar a un modelo sesgado que
favorezca la clase mayoritaria. Técnicas como el sobremuestreo o
submuestreo, y el uso de métricas adecuadas, pueden ayudar a mitigar
este problema.

3. Problemas con el Filtrado de Datos:

La lógica incorrecta utilizada para filtrar los datos resultó en un DataFrame

vacío, lo que impidió cualquier análisis posterior. Es crucial revisar y
corregir este tipo de errores para mantener la integridad del conjunto de
datos.

4. Rendimiento del Modelo Predictivo:

Se entrenaron y evaluaron modelos de Random Forest y Regresión

Logística. Ambos modelos mostraron dificultades para predecir
correctamente la clase de los supervivientes, con bajas métricas de recall
y precisión. Esto sugiere que los modelos no están capturando bien los
patrones subyacentes en los datos.

5. Visualización de Resultados:

La matriz de confusión y la curva ROC indicaron que el modelo tiene un

rendimiento subóptimo, especialmente en la predicción de la clase
minoritaria (supervivientes). Estas visualizaciones ayudan a entender
mejor dónde el modelo falla y pueden guiar la mejora de su desempeño.
• Recomendaciones Revisión y Corrección del Filtrado de
Datos: Es fundamental revisar y corregir la lógica de filtrado para
evitar la eliminación de datos importantes y asegurar que solo se
eliminen los valores atípicos pertinentes.
• Manejo del Desbalance de Clases: Implementar técnicas para
manejar el desbalance de clases, como el uso de métodos de
sobremuestreo, submuestreo o el ajuste de los pesos de las clases
durante el entrenamiento del modelo.
• Mejora en la Selección de Características: Evaluar y seleccionar
características que sean más predictivas, utilizando técnicas de
selección de características o ingeniería de características.
• Evaluación de Otros Modelos: Probar con diferentes algoritmos
de machine learning y realizar validación cruzada para identificar
modelos que puedan ofrecer un mejor desempeño.
Conclusiones

El análisis exploratorio reveló la presencia de valores atípicos en las

variables Fare, Pclass, Parch y Age, y destacó un desbalance significativo
en la variable objetivo Survived, con una mayoría de pasajeros que no
sobrevivieron. Estos factores pueden impactar negativamente en el
rendimiento del modelo predictivo.

Durante el proceso de modelado, se probaron algoritmos de Random

Forest y Regresión Logística, pero ambos mostraron dificultades para
predecir correctamente la supervivencia, en especial para la clase
minoritaria de los supervivientes. Las visualizaciones, como la matriz de
confusión y la curva ROC, confirmaron que los modelos tenían un
rendimiento subóptimo.

Para mejorar los resultados, es esencial abordar adecuadamente el

filtrado de datos, manejar el desbalance de clases y mejorar la selección
de características. Evaluar otros modelos y ajustar los hiperparámetros
también puede conducir a mejoras significativas. Estos pasos contribuirán
a desarrollar un modelo más preciso y robusto para predecir la
supervivencia de los pasajeros del Titanic.
Referentes bibliográficos

• Carlos Véliz. (2020). Aprendizaje automático. Introducción al

aprendizaje profundo. El Fondo Editorial de la Pontificia Universidad
Católica del
Perú.https://bibliotecavirtual.unad.edu.co/login?url=https://searc
h.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=2600876
&lang=es&site=eds-live&scope=site&ebv=EB&ppid=pp_I Cap 3, 4,
5y 6
• David Julian. (2016). Designing Machine Learning Systems with
Python. Packt
Publishing. https://bibliotecavirtual.unad.edu.co/login?url=https://
search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=121
8065&lang=es&site=eds-
live&scope=site&ebv=EB&ppid=pp_Cover. Cap 2
• Giuseppe Bonaccorso. (2018). Machine Learning Algorithms :
Popular Algorithms for Data Science and Machine Learning, 2nd
Edition: Vol. 2nd ed. Packt
Publishing. https://bibliotecavirtual.unad.edu.co/login?url=https://
search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=188
1497&lang=es&site=eds-
live&scope=site&ebv=EB&ppid=pp_Cover Cap 3, 4, 5 y 8
• Minguillón, J. Casas, J. y Minguillón, J. (2017). Minería de datos:
modelos y algoritmos. Editorial UOC. https://elibro-
net.bibliotecavirtual.unad.edu.co/es/ereader/unad/58656. Cap 4,
5, 13
• Pratap Dangeti. (2017). Statistics for Machine Learning : Build
Supervised, Unsupervised, and Reinforcement Learning Models
Using Both Python and R. Packt
Publishing. https://bibliotecavirtual.unad.edu.co/login?url=https://
search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=156
0931&lang=es&site=eds-
live&scope=site&ebv=EB&ppid=pp_Cover Cap 2, 3 y 4
• Romero Villafranca, R. y Zúnica Ramajo, L. (2020). Métodos
estadísticos para ingenieros. Editorial de la Universidad Politécnica
de Valencia. https://elibro-
net.bibliotecavirtual.unad.edu.co/es/ereader/unad/129644. Cap 12

También podría gustarte

Comparacion de Modelos de Machine Learning Aplicados Al Riesgo de Credito
Aún no hay calificaciones
Comparacion de Modelos de Machine Learning Aplicados Al Riesgo de Credito
105 páginas
1 - Angela Arteaga
Aún no hay calificaciones
1 - Angela Arteaga
11 páginas
Tarea5 - Emel Pedrozo
Aún no hay calificaciones
Tarea5 - Emel Pedrozo
10 páginas
Predicción de Fuga de Clientes de Empresas de Telefonía Móvil
Aún no hay calificaciones
Predicción de Fuga de Clientes de Empresas de Telefonía Móvil
112 páginas
MEDA CasoTitanic
Aún no hay calificaciones
MEDA CasoTitanic
19 páginas
Ejercicio Evaluable SIE 2022
Aún no hay calificaciones
Ejercicio Evaluable SIE 2022
12 páginas
Bombas 3
Aún no hay calificaciones
Bombas 3
91 páginas
Deber 2
Aún no hay calificaciones
Deber 2
8 páginas
Tarea5 - Emel Pedrozo
Aún no hay calificaciones
Tarea5 - Emel Pedrozo
10 páginas
Análisis Multivariado
Aún no hay calificaciones
Análisis Multivariado
10 páginas
Entregable 3 - COMPONENTE PRÁCTICO - PRÁCTICAS SIMULADAS
Aún no hay calificaciones
Entregable 3 - COMPONENTE PRÁCTICO - PRÁCTICAS SIMULADAS
23 páginas
Codigos Minería Datos R
Aún no hay calificaciones
Codigos Minería Datos R
8 páginas
Modelo de Clasificacion
Aún no hay calificaciones
Modelo de Clasificacion
17 páginas
Sesión 4 - Supervisado + Regresion PDF
Aún no hay calificaciones
Sesión 4 - Supervisado + Regresion PDF
35 páginas
TFG Hugo Tomas Febles Romon
Aún no hay calificaciones
TFG Hugo Tomas Febles Romon
87 páginas
Ejemplos Adicionales CRISP-DM
Aún no hay calificaciones
Ejemplos Adicionales CRISP-DM
10 páginas
K Vecinos
Aún no hay calificaciones
K Vecinos
13 páginas
Trabajo Final-Comparación Modelos
Aún no hay calificaciones
Trabajo Final-Comparación Modelos
68 páginas
Modelos de Analítica-F
Aún no hay calificaciones
Modelos de Analítica-F
68 páginas
Método de Predicción
Aún no hay calificaciones
Método de Predicción
35 páginas
CD - M5 AE9 Ejercicio 2023
Aún no hay calificaciones
CD - M5 AE9 Ejercicio 2023
4 páginas
Clasificador
Aún no hay calificaciones
Clasificador
36 páginas
Tarea 5 - Proyecto Análisis de Datos
Aún no hay calificaciones
Tarea 5 - Proyecto Análisis de Datos
34 páginas
Análisis de Supervivencia Del Titanic Con Una Red Neuronal en TensorFlow Keras
Aún no hay calificaciones
Análisis de Supervivencia Del Titanic Con Una Red Neuronal en TensorFlow Keras
4 páginas
Clase6 - Procesamiento de Señales y Aprendizaje de Máquinas en Mantenimiento Predictivo
Aún no hay calificaciones
Clase6 - Procesamiento de Señales y Aprendizaje de Máquinas en Mantenimiento Predictivo
70 páginas
Plantilla Uveg Sdes 2021
Aún no hay calificaciones
Plantilla Uveg Sdes 2021
42 páginas
Mii702 - S4grupo 5N
Aún no hay calificaciones
Mii702 - S4grupo 5N
22 páginas
Tarea3 Grupo 202016908 84
Aún no hay calificaciones
Tarea3 Grupo 202016908 84
23 páginas
Aca 3 Machine Learning
Aún no hay calificaciones
Aca 3 Machine Learning
30 páginas
Tarea 3 Algoritmos de Aprendizaje. Emel Pedrozo
Aún no hay calificaciones
Tarea 3 Algoritmos de Aprendizaje. Emel Pedrozo
21 páginas
Tareea1 Daniel Clavijo
Aún no hay calificaciones
Tareea1 Daniel Clavijo
23 páginas
Fase 3 - Componente Practico - Practicas Simuladas - Melanie Rivera
Aún no hay calificaciones
Fase 3 - Componente Practico - Practicas Simuladas - Melanie Rivera
8 páginas
Tarea3-Grupo - 202016908 - 40
Aún no hay calificaciones
Tarea3-Grupo - 202016908 - 40
20 páginas
Inteligencia Artificial Módulo Básico
Aún no hay calificaciones
Inteligencia Artificial Módulo Básico
18 páginas
Regresion Logistica
Aún no hay calificaciones
Regresion Logistica
40 páginas
Fase4 ModelaciónDatos
Aún no hay calificaciones
Fase4 ModelaciónDatos
9 páginas
TFG Alejandro Perez Blasco
Aún no hay calificaciones
TFG Alejandro Perez Blasco
94 páginas
Análisis de Datos Del Titanic Predicción de Supervivencia Mateo Llugcha
Aún no hay calificaciones
Análisis de Datos Del Titanic Predicción de Supervivencia Mateo Llugcha
4 páginas
Semana 9 Sumativa Hilary Leiva Yariza Muñoz
Aún no hay calificaciones
Semana 9 Sumativa Hilary Leiva Yariza Muñoz
14 páginas
Ds2 g1 Tarea Titanic Knime 10set21
Aún no hay calificaciones
Ds2 g1 Tarea Titanic Knime 10set21
8 páginas
0822 Mateo
Aún no hay calificaciones
0822 Mateo
55 páginas
Tema 3 - Estimacion de Costos - 1
Aún no hay calificaciones
Tema 3 - Estimacion de Costos - 1
82 páginas
1 - Angela Arteaga
Aún no hay calificaciones
1 - Angela Arteaga
15 páginas
PDF Trabajo Final
Aún no hay calificaciones
PDF Trabajo Final
8 páginas
Ia Basico S5
Aún no hay calificaciones
Ia Basico S5
11 páginas
Resolución de Problemas Matemáticos o Técnicos
Aún no hay calificaciones
Resolución de Problemas Matemáticos o Técnicos
14 páginas
Ejercicio Resuelto de Modelo Con 3 Variables
Aún no hay calificaciones
Ejercicio Resuelto de Modelo Con 3 Variables
7 páginas
Actividad 1 Moises Chiari
Aún no hay calificaciones
Actividad 1 Moises Chiari
4 páginas
Sensores
Aún no hay calificaciones
Sensores
4 páginas
Mineria
Aún no hay calificaciones
Mineria
19 páginas
Ia Basico S4
Aún no hay calificaciones
Ia Basico S4
10 páginas
Sal en El Crudo PDF
Aún no hay calificaciones
Sal en El Crudo PDF
12 páginas
1 Tipos Modelo
Aún no hay calificaciones
1 Tipos Modelo
23 páginas
Sensores
Aún no hay calificaciones
Sensores
4 páginas
Ejercicio 6
Aún no hay calificaciones
Ejercicio 6
10 páginas
Informe
Aún no hay calificaciones
Informe
2 páginas
Evaluación de La Aplicabilidad de Modelos de Machine Learning para Predecir Riesgos de Impago.
Aún no hay calificaciones
Evaluación de La Aplicabilidad de Modelos de Machine Learning para Predecir Riesgos de Impago.
43 páginas
Laboratorio 2
Aún no hay calificaciones
Laboratorio 2
23 páginas
ADC Estudio de Mercado
Aún no hay calificaciones
ADC Estudio de Mercado
55 páginas
Tarea 3 Emel Pedrozo
Aún no hay calificaciones
Tarea 3 Emel Pedrozo
20 páginas
Analisis de Regresion Lineal Entre Variables Meteorologicas y Trazado de Graficos e Isolineas
Aún no hay calificaciones
Analisis de Regresion Lineal Entre Variables Meteorologicas y Trazado de Graficos e Isolineas
5 páginas
Data Mining 1
Aún no hay calificaciones
Data Mining 1
61 páginas
2024-II - I0349 Estadistica Aplicada A La Psicologia II
Aún no hay calificaciones
2024-II - I0349 Estadistica Aplicada A La Psicologia II
19 páginas
Trabajo (Heteroscedasticidad)
Aún no hay calificaciones
Trabajo (Heteroscedasticidad)
53 páginas
ARIMAX
Aún no hay calificaciones
ARIMAX
8 páginas
Actividad 1 Analisis de Datos
Aún no hay calificaciones
Actividad 1 Analisis de Datos
9 páginas
Entregable 3 - Lorena Sánchez
Aún no hay calificaciones
Entregable 3 - Lorena Sánchez
15 páginas
Explorador M2
Aún no hay calificaciones
Explorador M2
43 páginas
Telco SL
Aún no hay calificaciones
Telco SL
9 páginas
Ejercicio 2
Aún no hay calificaciones
Ejercicio 2
7 páginas
Regresion Logistica para Respuesta Politomica
Aún no hay calificaciones
Regresion Logistica para Respuesta Politomica
17 páginas
Ejercicio de RLM - 2402
Aún no hay calificaciones
Ejercicio de RLM - 2402
11 páginas
Manual Calculadorea Casio fx-350MS PDF
100% (1)
Manual Calculadorea Casio fx-350MS PDF
2 páginas
Solucionario Curso Ingenieria de Valuaciones
Aún no hay calificaciones
Solucionario Curso Ingenieria de Valuaciones
20 páginas
Regresión Lineal Múltiple
Aún no hay calificaciones
Regresión Lineal Múltiple
3 páginas
Guía Taller Correlación y Regresión - CORE 2023
Aún no hay calificaciones
Guía Taller Correlación y Regresión - CORE 2023
13 páginas
Enunciados Supuestos Tema 1 (2023-24)
Aún no hay calificaciones
Enunciados Supuestos Tema 1 (2023-24)
7 páginas
Inteligencia Artificial Senati
Aún no hay calificaciones
Inteligencia Artificial Senati
35 páginas
Evaluación de Riesgo Crediticio
Aún no hay calificaciones
Evaluación de Riesgo Crediticio
9 páginas
Econometria UNMSM Economia
Aún no hay calificaciones
Econometria UNMSM Economia
8 páginas
Metódos Cuantitativos
Aún no hay calificaciones
Metódos Cuantitativos
9 páginas
Analisis de Correlación y Regresión Múltiple
Aún no hay calificaciones
Analisis de Correlación y Regresión Múltiple
9 páginas
Ecuación de Regresión Múltiple
Aún no hay calificaciones
Ecuación de Regresión Múltiple
5 páginas
Guia MAFIN 4074
100% (1)
Guia MAFIN 4074
38 páginas
2-Curso de Métodos Multivariados
Aún no hay calificaciones
2-Curso de Métodos Multivariados
3 páginas
Resumen Capitulo 13 Estadística Avanzada
100% (1)
Resumen Capitulo 13 Estadística Avanzada
7 páginas
Determinacion de Umbral
Aún no hay calificaciones
Determinacion de Umbral
4 páginas
Práctica Regresión Lineal Múltiple
Aún no hay calificaciones
Práctica Regresión Lineal Múltiple
2 páginas
Ejercicios Regresión Múltiple 2023
Aún no hay calificaciones
Ejercicios Regresión Múltiple 2023
4 páginas