0% encontró este documento útil (0 votos)
13 vistas7 páginas

Tarea 5 - GeovannyPinoCastillo

El proyecto analiza datos del Titanic utilizando algoritmos de Machine Learning para predecir la supervivencia de los pasajeros. Se identificaron problemas como valores atípicos, desbalance en la variable objetivo y un rendimiento subóptimo de los modelos entrenados. Se proponen recomendaciones para mejorar el filtrado de datos, manejar el desbalance de clases y evaluar otros modelos.

Cargado por

oyarelispaola
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
13 vistas7 páginas

Tarea 5 - GeovannyPinoCastillo

El proyecto analiza datos del Titanic utilizando algoritmos de Machine Learning para predecir la supervivencia de los pasajeros. Se identificaron problemas como valores atípicos, desbalance en la variable objetivo y un rendimiento subóptimo de los modelos entrenados. Se proponen recomendaciones para mejorar el filtrado de datos, manejar el desbalance de clases y evaluar otros modelos.

Cargado por

oyarelispaola
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 7

Tarea 5 - Proyecto Análisis de Datos

Estudiante:

Geovanny Pino Castillo

Grupo:

202016908_6

Entregado a:

Tutor: Ferley Medina

Universidad Nacional Abierta y a Distancia (UNAD)

Programa: Ingeniería de Sistemas

Valledupar/ Cesar

Mayo – 2024
Introducción

Aplicar algoritmos de Machine Learning supervisado según el problema,


empleando métodos de modelado predictivo como regresión y
clasificación.

El análisis de datos es un componente esencial en la ciencia de datos y el


aprendizaje automático, permitiendo descubrir patrones y relaciones
ocultas en grandes volúmenes de información. En este contexto,
utilizamos un conjunto de datos muy famosos la base de datos del Titanic.
Este dataset contiene información sobre los pasajeros del Titanic,
incluyendo detalles como la edad, el sexo, la clase de billete, y si
sobrevivieron o no al naufragio. A través de técnicas de análisis
exploratorio y modelado predictivo, intentaremos construir un modelo que
pueda predecir la supervivencia de los pasajeros basándose en las
características disponibles.
Objetivos

1. Realizar un Análisis Exploratorio de Datos (EDA):


• Identificar relaciones entre variables.
• Detectar valores atípicos y tendencias.
• Evaluar la distribución de las variables y la presencia de datos
faltantes.

2. Preprocesar los Datos:


• Limpiar los datos y manejar valores atípicos y faltantes.
• Seleccionar las características más relevantes para el análisis.

3. Entrenar Modelos Predictivos:


• Utilizar algoritmos de machine learning para entrenar modelos que
puedan predecir la supervivencia de los pasajeros.
• Evaluar el rendimiento de los modelos mediante métricas
adecuadas como precisión, recall y F1-score.

4. Visualizar Resultados:
• Generar visualizaciones que ayuden a interpretar los resultados y el
rendimiento de los modelos.
• Utilizar matrices de confusión y curvas ROC para evaluar las
predicciones.
Enlace de GitHub donde se pueda consultar el código del modelo
diseñado.

https://github.com/GeovannyPino/TAREA--5/tree/main

✓ Interpretación de los resultados del modelo

Conclusión del Análisis y Modelado Predictivo El análisis exploratorio y el


modelado predictivo realizados sobre el dataset del Titanic han revelado
varios puntos importantes.

1. Identificación de Valores Atípicos:

Se detectaron valores atípicos en las variables Fare, Pclass, Parch y Age.


La presencia de estos valores puede distorsionar el análisis y afectar
negativamente la precisión del modelo. Es fundamental abordar estos
valores atípicos adecuadamente, ya sea mediante su eliminación o
transformación.

2. Distribución de la Variable Objetivo:

La variable objetivo Survived mostró un desbalance significativo, con más


registros de pasajeros que no sobrevivieron en comparación con los que
sí lo hicieron. Este desbalance puede llevar a un modelo sesgado que
favorezca la clase mayoritaria. Técnicas como el sobremuestreo o
submuestreo, y el uso de métricas adecuadas, pueden ayudar a mitigar
este problema.

3. Problemas con el Filtrado de Datos:

La lógica incorrecta utilizada para filtrar los datos resultó en un DataFrame


vacío, lo que impidió cualquier análisis posterior. Es crucial revisar y
corregir este tipo de errores para mantener la integridad del conjunto de
datos.

4. Rendimiento del Modelo Predictivo:

Se entrenaron y evaluaron modelos de Random Forest y Regresión


Logística. Ambos modelos mostraron dificultades para predecir
correctamente la clase de los supervivientes, con bajas métricas de recall
y precisión. Esto sugiere que los modelos no están capturando bien los
patrones subyacentes en los datos.

5. Visualización de Resultados:

La matriz de confusión y la curva ROC indicaron que el modelo tiene un


rendimiento subóptimo, especialmente en la predicción de la clase
minoritaria (supervivientes). Estas visualizaciones ayudan a entender
mejor dónde el modelo falla y pueden guiar la mejora de su desempeño.
• Recomendaciones Revisión y Corrección del Filtrado de
Datos: Es fundamental revisar y corregir la lógica de filtrado para
evitar la eliminación de datos importantes y asegurar que solo se
eliminen los valores atípicos pertinentes.
• Manejo del Desbalance de Clases: Implementar técnicas para
manejar el desbalance de clases, como el uso de métodos de
sobremuestreo, submuestreo o el ajuste de los pesos de las clases
durante el entrenamiento del modelo.
• Mejora en la Selección de Características: Evaluar y seleccionar
características que sean más predictivas, utilizando técnicas de
selección de características o ingeniería de características.
• Evaluación de Otros Modelos: Probar con diferentes algoritmos
de machine learning y realizar validación cruzada para identificar
modelos que puedan ofrecer un mejor desempeño.
Conclusiones

El análisis exploratorio reveló la presencia de valores atípicos en las


variables Fare, Pclass, Parch y Age, y destacó un desbalance significativo
en la variable objetivo Survived, con una mayoría de pasajeros que no
sobrevivieron. Estos factores pueden impactar negativamente en el
rendimiento del modelo predictivo.

Durante el proceso de modelado, se probaron algoritmos de Random


Forest y Regresión Logística, pero ambos mostraron dificultades para
predecir correctamente la supervivencia, en especial para la clase
minoritaria de los supervivientes. Las visualizaciones, como la matriz de
confusión y la curva ROC, confirmaron que los modelos tenían un
rendimiento subóptimo.

Para mejorar los resultados, es esencial abordar adecuadamente el


filtrado de datos, manejar el desbalance de clases y mejorar la selección
de características. Evaluar otros modelos y ajustar los hiperparámetros
también puede conducir a mejoras significativas. Estos pasos contribuirán
a desarrollar un modelo más preciso y robusto para predecir la
supervivencia de los pasajeros del Titanic.
Referentes bibliográficos

• Carlos Véliz. (2020). Aprendizaje automático. Introducción al


aprendizaje profundo. El Fondo Editorial de la Pontificia Universidad
Católica del
Perú.https://bibliotecavirtual.unad.edu.co/login?url=https://searc
h.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=2600876
&lang=es&site=eds-live&scope=site&ebv=EB&ppid=pp_I Cap 3, 4,
5y 6
• David Julian. (2016). Designing Machine Learning Systems with
Python. Packt
Publishing. https://bibliotecavirtual.unad.edu.co/login?url=https://
search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=121
8065&lang=es&site=eds-
live&scope=site&ebv=EB&ppid=pp_Cover. Cap 2
• Giuseppe Bonaccorso. (2018). Machine Learning Algorithms :
Popular Algorithms for Data Science and Machine Learning, 2nd
Edition: Vol. 2nd ed. Packt
Publishing. https://bibliotecavirtual.unad.edu.co/login?url=https://
search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=188
1497&lang=es&site=eds-
live&scope=site&ebv=EB&ppid=pp_Cover Cap 3, 4, 5 y 8
• Minguillón, J. Casas, J. y Minguillón, J. (2017). Minería de datos:
modelos y algoritmos. Editorial UOC. https://elibro-
net.bibliotecavirtual.unad.edu.co/es/ereader/unad/58656. Cap 4,
5, 13
• Pratap Dangeti. (2017). Statistics for Machine Learning : Build
Supervised, Unsupervised, and Reinforcement Learning Models
Using Both Python and R. Packt
Publishing. https://bibliotecavirtual.unad.edu.co/login?url=https://
search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=156
0931&lang=es&site=eds-
live&scope=site&ebv=EB&ppid=pp_Cover Cap 2, 3 y 4
• Romero Villafranca, R. y Zúnica Ramajo, L. (2020). Métodos
estadísticos para ingenieros. Editorial de la Universidad Politécnica
de Valencia. https://elibro-
net.bibliotecavirtual.unad.edu.co/es/ereader/unad/129644. Cap 12

También podría gustarte