0% encontró este documento útil (0 votos)

82 vistas12 páginas

Práctica de Análisis de Datos en R

Este documento presenta las instrucciones para la quinta práctica dirigida del curso de Analytics 2. Los estudiantes deben realizar análisis de regresión lineal y logística utilizando dos conjuntos de datos. En el Problema 1, los estudiantes modelarán factores que afectan el valor promedio de viviendas utilizando datos de Boston. En el Problema 2, los estudiantes identificarán segmentos de clientes elegibles para préstamos usando datos de solicitudes de préstamos.

Cargado por

Claudia Gianela

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

82 vistas12 páginas

Práctica de Análisis de Datos en R

Cargado por

Claudia Gianela

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ

FACULTAD DE CIENCIAS E INGENIERÍA

ANALYTICS 2
Quinta Práctica Dirigida
(Segundo Semestre 2023)

Indicaciones generales:
- Duración de la prueba: 100 minutos.
Hora de inicio 08:10
Hora de final: 09:50
- Tiempo límite para subir los archivos al PAIDEIA: 10:00
- La evaluación es individual. Adjuntar los archivos de R (P1<CodigoAlumno>.R y
P2<CodigoAlumno>.R) con el programa desarrollado en R y los archivos de Word
(S1<CodigoAlumno>.DOCX y S2<CodigoAlumno>.DOCX) con la solución de cada pregunta.

============================================================================

Problema 1
El conjunto de datos "Boston Housing" contiene información sobre 506 zonas censales de Boston del censo de 1970.
Como aspirante a científico de datos, comprender cómo modelar datos como este es de gran importancia para Usted. En
este problema, se utilizarán los datos sobre viviendas de Boston proporcionados por Harrison y Rubinfeld (1979) y
explorará qué factores afectan el valor promedio de las viviendas. Realizará un análisis de regresión lineal.

Los datos son parte del paquete 'MASS'. Las variables tienen las siguientes características:
• crim. Crimen per cápita por ciudad.
• zn. Proporción de terrenos residenciales divididos en zonas para lotes de más de 25000 pies cuadrados.
• indus. Proporción de acres de negocios no minoristas por ciudad.
• chas. Variable ficticia de Charles River (= 1 si el tramo limita el río, 0 de lo contrario).
• nox. Concentración de óxidos nítricos (partes por 10 millones).
• rm. Número promedio de habitaciones por vivienda.
• age. Proporción de unidades ocupadas por sus propietarios construidas antes de 1940.
• dis. Distancias desproporcionadas a cinco centros de empleo de Boston.
• rad. Índice de accesibilidad a las autopistas radiales.
• tax. Tasa de impuesto a la propiedad de valor completo por USD 10,000.
• ptratio. Colegios por localidad.
• b. b = 1000 (B - 0.63)^ 2, donde B es la proporción de negros por ciudad.
• lstat. Porcentaje de estado inferior de la población.
• medv. Valor promedio de las viviendas ocupadas por sus propietarios en USD 1000. Variable de resultado.

Se pide:

a) Cargar y explorar el conjunto de datos "Boston".

Página 1 de 12
b) Identificar valores faltantes.

c) Presentar un resumen de los estadísticos de las variables. Comente.

Página 2 de 12
d) Graficar los diagramas de caja y bigotes de las variables relevantes. Comente.

Página 3 de 12
e) Reemplazar los valores atípicos.

Página 4 de 12
# se realiza el reemplazo de valores atipicos de las variables que en el apartado anterior se
seleccionaron

f) Analizar la correlacion entre todas las variables. Comente.

Página 5 de 12
g) Graficar la variable de resultado. Comente.

Página 6 de 12
h) Graficar las variables de entrada versus la variable de resultado. Comente.

Página 7 de 12
i) Dividir el conjunto de datos en 75% para entrenamiento y 25% para prueba.

j) Construir un primer modelo de regresión lineal utilizando todas las variables de entrada. Identificar las
variables significativas para el modelo.

Página 8 de 12
k) Construir un segundo modelo de regresión lineal utilizando las variables significativas. Identificar las
variables significativas para el modelo.

Página 9 de 12
l) Comparar los resultados de ambos modelos usando Sigma y R-cuadrado ajustado.
# Al comparar R2 cuadrado ajustado se observa que el segundo tiene mejor valor (0.6594) y R (5..33)
relativamente mayor

m) Realizar un diagnostico del modelo elegido usando los gráficos Residuales vs. Ajustados, Q-Q normal,
Escala-Ubicación y Residuales vs. Apalancamiento.

Página 10 de 12
n) Hacer predicciones con los datos de prueba.

o) Evaluar el modelo usando RMSE.

p) ¿Cual es su conclusión?

Problema 2
Un banco desea automatizar el proceso de elegibilidad del préstamo (en tiempo real) en función de los detalles
proporcionados por el cliente al completar el formulario de solicitud en línea. Estos detalles son género, estado civil,
educación, número de dependientes, ingresos, monto del préstamo, historial crediticio y otros. Para automatizar este
proceso, han planteado el problema de identificar los segmentos de clientes que son elegibles para recibir el monto del
préstamo para que puedan dirigirse específicamente a estos clientes. Aquí han proporcionado el conjunto de datos
"Loan".

Las variables del conjunto de datos "Loan" tienen las siguientes características:
 Loan_ID. Código de solicitud (correlativo).
 Gender. Género ("Male" o "Female").
 Married. Casado ("Yes" o "No").

Página 11 de 12
 Dependents. Cantidad de dependientes (0, 1, 2, 3+).
 Education. Indicador de nivel educativo.
 Self_Employed. Indicador de trabajador independiente.
 ApplicantIncome / CoapplicantIncome. Ingresos ($) del solicitante o co-solicitante.
 LoanAmount. Monto solicitado de préstamo (miles $).
 Loan_Amount_Term. Plazo de préstamo (en meses).
 Credit_History. Indicador si el cliente ha pagado todas sus tarjetas sin retraso en los últimos 2 años (1) o no (0).
 Property_Area. Localización de vivienda.
 DebtRatio. Porcentaje de los ingresos del cliente destinados a pagos mensuales de deudas de todo el sistema
financiero.
 Loan_Status. Estado del crédito ("Y" = aprobado, "N" = rechazado). Variable de resultado.

Se pide:

a) Cargar y explorar el conjunto de datos "Loan".

b) Convertir las variables cualitativas en factores.
c) Imputar los valores faltantes.
d) Presentar un resumen de los estadísticos de las variables. Comente.
e) Mostrar gráficos de violín para cada variable numérica. Comente.
f) Mostrar gráficos de barras para cada variable categórica. Comente.
g) Analizar la correlacion entre todas las variables numéricas. Comente.
h) Dividir el conjunto de datos en 80% para entrenamiento y 20% para prueba.
i) Revisar el balance de los datos de entrenamiento.
j) Construir un primer modelo de regresión logística utilizando todas las variables de entrada.
k) Evaluar el primer modelo usando la matriz de confusión.
l) Identificar las variables significativas para el modelo utilizando la prueba de ANOVA.
m) Construir un segundo modelo de regresión logística utilizando las variables significativas.
n) Evaluar el segundo modelo usando la matriz de confusión.
o) Construir un tercer modelo de regresión logística utilizando algoritmos de optimizaciòn para identificar el
mejor modelo.
p) Evaluar el tercer modelo usando la matriz de confusión.
q) Comparar los resultados de los tres modelos usando la métrica AIC y la tasa de precisión de la matriz de
confusión. Comente.
r) Mostrar la curva ROC y el área bajo la curva del mejor modelo.
s) Mostrar los coeficientes del mejor modelo. Interpretar el impacto del coeficiente de cada variable en el
modelo.

Los profesores del curso

San Miguel, 20 de octubre de 2023

Página 12 de 12

También podría gustarte

Modelos de Regresión Múltiple en R
Aún no hay calificaciones
Modelos de Regresión Múltiple en R
4 páginas
Predicción de biomas con Python
Aún no hay calificaciones
Predicción de biomas con Python
3 páginas
Modelo de Regresión para Precios de Viviendas
Aún no hay calificaciones
Modelo de Regresión para Precios de Viviendas
3 páginas
Análisis de Regresión y Estadísticas en R
Aún no hay calificaciones
Análisis de Regresión y Estadísticas en R
13 páginas
Análisis de Regresión y Predicciones Económicas
Aún no hay calificaciones
Análisis de Regresión y Predicciones Económicas
14 páginas
Introducción a la Regresión Logística
Aún no hay calificaciones
Introducción a la Regresión Logística
18 páginas
Análisis de Regresión y Diseño de Experimentos
Aún no hay calificaciones
Análisis de Regresión y Diseño de Experimentos
6 páginas
Modelos de Analítica en Negocios
Aún no hay calificaciones
Modelos de Analítica en Negocios
68 páginas
Análisis de Asociación y Modelos Estadísticos en R
Aún no hay calificaciones
Análisis de Asociación y Modelos Estadísticos en R
25 páginas
Practica 5 2006
Aún no hay calificaciones
Practica 5 2006
23 páginas
Predicción de Precios de Viviendas en Boston
Aún no hay calificaciones
Predicción de Precios de Viviendas en Boston
25 páginas
Análisis de Regresión en Datos de Automóviles y Viviendas
Aún no hay calificaciones
Análisis de Regresión en Datos de Automóviles y Viviendas
10 páginas
Tarea 4: Regresión en Ingeniería Industrial
Aún no hay calificaciones
Tarea 4: Regresión en Ingeniería Industrial
4 páginas
Modelos de Scoring en Riesgo de Crédito
Aún no hay calificaciones
Modelos de Scoring en Riesgo de Crédito
2 páginas
Modelo de regresión para precios de autos
Aún no hay calificaciones
Modelo de regresión para precios de autos
10 páginas
Análisis de Modelos de Regresión en Estadística
Aún no hay calificaciones
Análisis de Modelos de Regresión en Estadística
22 páginas
CASAS Econometria Moderna
50% (2)
CASAS Econometria Moderna
108 páginas
Análisis de Regresión Lineal en Datos
Aún no hay calificaciones
Análisis de Regresión Lineal en Datos
26 páginas
Modelo de Generación de Viajes RLM
Aún no hay calificaciones
Modelo de Generación de Viajes RLM
8 páginas
(05-4) MatClase 01 - AG - Agentes Inteligentes
Aún no hay calificaciones
(05-4) MatClase 01 - AG - Agentes Inteligentes
53 páginas
Modelo de Regresión Múltiple en Ingeniería
Aún no hay calificaciones
Modelo de Regresión Múltiple en Ingeniería
9 páginas
Modelos de Regresión en Credit Scoring
Aún no hay calificaciones
Modelos de Regresión en Credit Scoring
240 páginas
Regresión Lineal Simple en Python
Aún no hay calificaciones
Regresión Lineal Simple en Python
9 páginas
Ejercicios de Estadística y Regresión
Aún no hay calificaciones
Ejercicios de Estadística y Regresión
13 páginas
Implementación de Regresión Lineal
100% (1)
Implementación de Regresión Lineal
21 páginas
Ejemplos de regresión lineal múltiple
Aún no hay calificaciones
Ejemplos de regresión lineal múltiple
12 páginas
Análisis de Regresión en Automóviles y Casas
100% (1)
Análisis de Regresión en Automóviles y Casas
29 páginas
Ejercicios de Regresión Lineal en R
Aún no hay calificaciones
Ejercicios de Regresión Lineal en R
13 páginas
Tarea 2: Econometría Aplicada 2023
Aún no hay calificaciones
Tarea 2: Econometría Aplicada 2023
7 páginas
Modelación Estadística de Precios de Venta
100% (1)
Modelación Estadística de Precios de Venta
11 páginas
Análisis de Econometría Financiera
Aún no hay calificaciones
Análisis de Econometría Financiera
6 páginas
Análisis de Regresión y Correlación en Datos Automotrices y de Vivienda
Aún no hay calificaciones
Análisis de Regresión y Correlación en Datos Automotrices y de Vivienda
26 páginas
Análisis de Regresión y Proporciones en MegaStat
Aún no hay calificaciones
Análisis de Regresión y Proporciones en MegaStat
3 páginas
Informe Ejecutivo Caso Monopoly - Dormmamu
Aún no hay calificaciones
Informe Ejecutivo Caso Monopoly - Dormmamu
10 páginas
Aporte del Quinto Predictor en Regresión
Aún no hay calificaciones
Aporte del Quinto Predictor en Regresión
13 páginas
Clasificación de Variables en Análisis Estadístico
Aún no hay calificaciones
Clasificación de Variables en Análisis Estadístico
18 páginas
Modelación de Viajes en Las Condes
Aún no hay calificaciones
Modelación de Viajes en Las Condes
9 páginas
Análisis de Regresión en Ventas y Accidentes
Aún no hay calificaciones
Análisis de Regresión en Ventas y Accidentes
12 páginas
Modelos de Clasificación y Predicción en Datos
Aún no hay calificaciones
Modelos de Clasificación y Predicción en Datos
16 páginas
Proyecto de Bioestadística en Marketing
Aún no hay calificaciones
Proyecto de Bioestadística en Marketing
11 páginas
Análisis Discriminante y Clasificación de Clientes
Aún no hay calificaciones
Análisis Discriminante y Clasificación de Clientes
14 páginas
Aplicaciones de Clasificación en Negocios
Aún no hay calificaciones
Aplicaciones de Clasificación en Negocios
9 páginas
Análisis de Regresión en Hotelería y Ventas
Aún no hay calificaciones
Análisis de Regresión en Hotelería y Ventas
8 páginas
Fundamentos de Regresión Lineal en Python
Aún no hay calificaciones
Fundamentos de Regresión Lineal en Python
38 páginas
Estadística Descriptiva de Tarjetas de Crédito
Aún no hay calificaciones
Estadística Descriptiva de Tarjetas de Crédito
25 páginas
Wa0073.
Aún no hay calificaciones
Wa0073.
25 páginas
Análisis de Gasto en Transporte Bogotá
Aún no hay calificaciones
Análisis de Gasto en Transporte Bogotá
4 páginas
Relación entre precio y consumo de vino
Aún no hay calificaciones
Relación entre precio y consumo de vino
8 páginas
Modelo Predictivo de Arrestos en NY
Aún no hay calificaciones
Modelo Predictivo de Arrestos en NY
4 páginas
Practica 5 2006
Aún no hay calificaciones
Practica 5 2006
23 páginas
Desafío de Regresión en Econometría
Aún no hay calificaciones
Desafío de Regresión en Econometría
4 páginas
Regresión Lineal en R para Negocios
Aún no hay calificaciones
Regresión Lineal en R para Negocios
14 páginas
Ejercicios de Análisis Cuantitativo para Decisiones
Aún no hay calificaciones
Ejercicios de Análisis Cuantitativo para Decisiones
5 páginas
Análisis de Regresión Lineal Simple
Aún no hay calificaciones
Análisis de Regresión Lineal Simple
5 páginas
Optimización de Campañas de Plazos Fijos
Aún no hay calificaciones
Optimización de Campañas de Plazos Fijos
36 páginas
Curso de Restauración de Ecosistemas 2025-2026
Aún no hay calificaciones
Curso de Restauración de Ecosistemas 2025-2026
3 páginas
Árboles de Clasificación con Carseats en R
Aún no hay calificaciones
Árboles de Clasificación con Carseats en R
28 páginas
Árbol de regresión para precios en Boston
Aún no hay calificaciones
Árbol de regresión para precios en Boston
25 páginas
Perfil de Delegado Comercial en Bolumbia
Aún no hay calificaciones
Perfil de Delegado Comercial en Bolumbia
30 páginas
Análisis de regresión en salud y enfermedades
Aún no hay calificaciones
Análisis de regresión en salud y enfermedades
31 páginas
Análisis de Ventas Anuales y Variables
Aún no hay calificaciones
Análisis de Ventas Anuales y Variables
12 páginas
Prueba de Hipótesis: Veleros y Accidentes
Aún no hay calificaciones
Prueba de Hipótesis: Veleros y Accidentes
5 páginas
Análisis de Varianza: Suposiciones y Diseño
Aún no hay calificaciones
Análisis de Varianza: Suposiciones y Diseño
18 páginas
Correlación entre Evaluaciones Médicas y Enfermeras
Aún no hay calificaciones
Correlación entre Evaluaciones Médicas y Enfermeras
21 páginas
Ejercicios de Estadística Empresarial
Aún no hay calificaciones
Ejercicios de Estadística Empresarial
3 páginas
Probabilidades en Distribuciones Binomiales y Normales
Aún no hay calificaciones
Probabilidades en Distribuciones Binomiales y Normales
9 páginas
Ejercicios de ANOVA en Diseño 2k
Aún no hay calificaciones
Ejercicios de ANOVA en Diseño 2k
14 páginas
Libros de Estadistica Descriptiva
Aún no hay calificaciones
Libros de Estadistica Descriptiva
9 páginas
Teoría de Decisión y Utilidad Esperada
Aún no hay calificaciones
Teoría de Decisión y Utilidad Esperada
53 páginas
Análisis de Covarianza y Covariables
Aún no hay calificaciones
Análisis de Covarianza y Covariables
7 páginas
Taller de Prueba de Hipótesis en Estadística
100% (3)
Taller de Prueba de Hipótesis en Estadística
8 páginas
Taller de Estadística Inferencial: T-Student
50% (2)
Taller de Estadística Inferencial: T-Student
36 páginas
Interés Compuesto y Amortización en Finanzas
Aún no hay calificaciones
Interés Compuesto y Amortización en Finanzas
4 páginas
Diseño Completamente al Azar en Experimentos
Aún no hay calificaciones
Diseño Completamente al Azar en Experimentos
6 páginas
Ejemplos de Control Estadístico de Calidad
Aún no hay calificaciones
Ejemplos de Control Estadístico de Calidad
62 páginas
Optimización del Vuelo de Helicópteros de Papel
Aún no hay calificaciones
Optimización del Vuelo de Helicópteros de Papel
6 páginas
Análisis de Regresión Lineal Simple
Aún no hay calificaciones
Análisis de Regresión Lineal Simple
11 páginas
Optimización de Fertilización en Maíz
Aún no hay calificaciones
Optimización de Fertilización en Maíz
7 páginas
Comparaciones Múltiples con Bonferroni
Aún no hay calificaciones
Comparaciones Múltiples con Bonferroni
4 páginas
Eficacia de nuevo medicamento para tensión
Aún no hay calificaciones
Eficacia de nuevo medicamento para tensión
18 páginas
ANOVA de Dos Factores: Modalidad y Educación
Aún no hay calificaciones
ANOVA de Dos Factores: Modalidad y Educación
5 páginas
Pregunta Dinamizadora Unidad 2 Estadística II
100% (1)
Pregunta Dinamizadora Unidad 2 Estadística II
5 páginas
Comparación de terapias en bloques al azar
Aún no hay calificaciones
Comparación de terapias en bloques al azar
22 páginas
Análisis de Notas: Hombres vs Mujeres
Aún no hay calificaciones
Análisis de Notas: Hombres vs Mujeres
5 páginas
Análisis de Regresión a la Media
Aún no hay calificaciones
Análisis de Regresión a la Media
38 páginas
Pronósticos de Demanda Semanal
Aún no hay calificaciones
Pronósticos de Demanda Semanal
2 páginas
Análisis de Sensibilidad en Proyectos
Aún no hay calificaciones
Análisis de Sensibilidad en Proyectos
4 páginas
Intervalos de Confianza para la Media Poblacional
Aún no hay calificaciones
Intervalos de Confianza para la Media Poblacional
9 páginas
Intervalos de Confianza en Estadística
Aún no hay calificaciones
Intervalos de Confianza en Estadística
48 páginas