0% encontró este documento útil (0 votos)
82 vistas12 páginas

Práctica de Análisis de Datos en R

Este documento presenta las instrucciones para la quinta práctica dirigida del curso de Analytics 2. Los estudiantes deben realizar análisis de regresión lineal y logística utilizando dos conjuntos de datos. En el Problema 1, los estudiantes modelarán factores que afectan el valor promedio de viviendas utilizando datos de Boston. En el Problema 2, los estudiantes identificarán segmentos de clientes elegibles para préstamos usando datos de solicitudes de préstamos.

Cargado por

Claudia Gianela
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
82 vistas12 páginas

Práctica de Análisis de Datos en R

Este documento presenta las instrucciones para la quinta práctica dirigida del curso de Analytics 2. Los estudiantes deben realizar análisis de regresión lineal y logística utilizando dos conjuntos de datos. En el Problema 1, los estudiantes modelarán factores que afectan el valor promedio de viviendas utilizando datos de Boston. En el Problema 2, los estudiantes identificarán segmentos de clientes elegibles para préstamos usando datos de solicitudes de préstamos.

Cargado por

Claudia Gianela
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ

FACULTAD DE CIENCIAS E INGENIERÍA

ANALYTICS 2
Quinta Práctica Dirigida
(Segundo Semestre 2023)

Indicaciones generales:
- Duración de la prueba: 100 minutos.
Hora de inicio 08:10
Hora de final: 09:50
- Tiempo límite para subir los archivos al PAIDEIA: 10:00
- La evaluación es individual. Adjuntar los archivos de R (P1<CodigoAlumno>.R y
P2<CodigoAlumno>.R) con el programa desarrollado en R y los archivos de Word
(S1<CodigoAlumno>.DOCX y S2<CodigoAlumno>.DOCX) con la solución de cada pregunta.

============================================================================

Problema 1
El conjunto de datos "Boston Housing" contiene información sobre 506 zonas censales de Boston del censo de 1970.
Como aspirante a científico de datos, comprender cómo modelar datos como este es de gran importancia para Usted. En
este problema, se utilizarán los datos sobre viviendas de Boston proporcionados por Harrison y Rubinfeld (1979) y
explorará qué factores afectan el valor promedio de las viviendas. Realizará un análisis de regresión lineal.

Los datos son parte del paquete 'MASS'. Las variables tienen las siguientes características:
• crim. Crimen per cápita por ciudad.
• zn. Proporción de terrenos residenciales divididos en zonas para lotes de más de 25000 pies cuadrados.
• indus. Proporción de acres de negocios no minoristas por ciudad.
• chas. Variable ficticia de Charles River (= 1 si el tramo limita el río, 0 de lo contrario).
• nox. Concentración de óxidos nítricos (partes por 10 millones).
• rm. Número promedio de habitaciones por vivienda.
• age. Proporción de unidades ocupadas por sus propietarios construidas antes de 1940.
• dis. Distancias desproporcionadas a cinco centros de empleo de Boston.
• rad. Índice de accesibilidad a las autopistas radiales.
• tax. Tasa de impuesto a la propiedad de valor completo por USD 10,000.
• ptratio. Colegios por localidad.
• b. b = 1000 (B - 0.63)^ 2, donde B es la proporción de negros por ciudad.
• lstat. Porcentaje de estado inferior de la población.
• medv. Valor promedio de las viviendas ocupadas por sus propietarios en USD 1000. Variable de resultado.

Se pide:

a) Cargar y explorar el conjunto de datos "Boston".

Página 1 de 12
b) Identificar valores faltantes.

c) Presentar un resumen de los estadísticos de las variables. Comente.

Página 2 de 12
d) Graficar los diagramas de caja y bigotes de las variables relevantes. Comente.

Página 3 de 12
e) Reemplazar los valores atípicos.

Página 4 de 12
# se realiza el reemplazo de valores atipicos de las variables que en el apartado anterior se
seleccionaron

f) Analizar la correlacion entre todas las variables. Comente.

Página 5 de 12
g) Graficar la variable de resultado. Comente.

Página 6 de 12
h) Graficar las variables de entrada versus la variable de resultado. Comente.

Página 7 de 12
i) Dividir el conjunto de datos en 75% para entrenamiento y 25% para prueba.

j) Construir un primer modelo de regresión lineal utilizando todas las variables de entrada. Identificar las
variables significativas para el modelo.

Página 8 de 12
k) Construir un segundo modelo de regresión lineal utilizando las variables significativas. Identificar las
variables significativas para el modelo.

Página 9 de 12
l) Comparar los resultados de ambos modelos usando Sigma y R-cuadrado ajustado.
# Al comparar R2 cuadrado ajustado se observa que el segundo tiene mejor valor (0.6594) y R (5..33)
relativamente mayor

m) Realizar un diagnostico del modelo elegido usando los gráficos Residuales vs. Ajustados, Q-Q normal,
Escala-Ubicación y Residuales vs. Apalancamiento.

Página 10 de 12
n) Hacer predicciones con los datos de prueba.

o) Evaluar el modelo usando RMSE.

p) ¿Cual es su conclusión?

Problema 2
Un banco desea automatizar el proceso de elegibilidad del préstamo (en tiempo real) en función de los detalles
proporcionados por el cliente al completar el formulario de solicitud en línea. Estos detalles son género, estado civil,
educación, número de dependientes, ingresos, monto del préstamo, historial crediticio y otros. Para automatizar este
proceso, han planteado el problema de identificar los segmentos de clientes que son elegibles para recibir el monto del
préstamo para que puedan dirigirse específicamente a estos clientes. Aquí han proporcionado el conjunto de datos
"Loan".

Las variables del conjunto de datos "Loan" tienen las siguientes características:
 Loan_ID. Código de solicitud (correlativo).
 Gender. Género ("Male" o "Female").
 Married. Casado ("Yes" o "No").

Página 11 de 12
 Dependents. Cantidad de dependientes (0, 1, 2, 3+).
 Education. Indicador de nivel educativo.
 Self_Employed. Indicador de trabajador independiente.
 ApplicantIncome / CoapplicantIncome. Ingresos ($) del solicitante o co-solicitante.
 LoanAmount. Monto solicitado de préstamo (miles $).
 Loan_Amount_Term. Plazo de préstamo (en meses).
 Credit_History. Indicador si el cliente ha pagado todas sus tarjetas sin retraso en los últimos 2 años (1) o no (0).
 Property_Area. Localización de vivienda.
 DebtRatio. Porcentaje de los ingresos del cliente destinados a pagos mensuales de deudas de todo el sistema
financiero.
 Loan_Status. Estado del crédito ("Y" = aprobado, "N" = rechazado). Variable de resultado.

Se pide:

a) Cargar y explorar el conjunto de datos "Loan".


b) Convertir las variables cualitativas en factores.
c) Imputar los valores faltantes.
d) Presentar un resumen de los estadísticos de las variables. Comente.
e) Mostrar gráficos de violín para cada variable numérica. Comente.
f) Mostrar gráficos de barras para cada variable categórica. Comente.
g) Analizar la correlacion entre todas las variables numéricas. Comente.
h) Dividir el conjunto de datos en 80% para entrenamiento y 20% para prueba.
i) Revisar el balance de los datos de entrenamiento.
j) Construir un primer modelo de regresión logística utilizando todas las variables de entrada.
k) Evaluar el primer modelo usando la matriz de confusión.
l) Identificar las variables significativas para el modelo utilizando la prueba de ANOVA.
m) Construir un segundo modelo de regresión logística utilizando las variables significativas.
n) Evaluar el segundo modelo usando la matriz de confusión.
o) Construir un tercer modelo de regresión logística utilizando algoritmos de optimizaciòn para identificar el
mejor modelo.
p) Evaluar el tercer modelo usando la matriz de confusión.
q) Comparar los resultados de los tres modelos usando la métrica AIC y la tasa de precisión de la matriz de
confusión. Comente.
r) Mostrar la curva ROC y el área bajo la curva del mejor modelo.
s) Mostrar los coeficientes del mejor modelo. Interpretar el impacto del coeficiente de cada variable en el
modelo.

Los profesores del curso


San Miguel, 20 de octubre de 2023

Página 12 de 12

También podría gustarte