Taller – 1 – House-price-predection
Para esta practica de regresión con weka se uso un dataset tomado de:
[Link]
A este dataset se le elimino la variable clase y se pasaron las variables mainrod, guestroom,
basement, hotwaterhe, airconditioning y prefarea a numérico, estos atributos con datos
inicialmente (yes/no) fueron convertidos a binario (0/1) con un filtro de weka.
1. Análisis gráfico
Imagen 1: Diagrama de dispersión área vs Price.
A partir del gráfico de dispersión de Weka, se concluye una correlación positiva entre el área y el
precio de las viviendas, aunque con notable dispersión que indica la influencia de otros factores.
La coloración por número de dormitorios sugiere que más habitaciones se asocian generalmente
con propiedades más grandes y caras. La mayoría de los datos se concentran en viviendas de
tamaño y precio moderados, siendo menos frecuentes las de alto valor. Finalmente, la presencia
de variabilidad y puntos atípicos resalta la importancia de atributos adicionales para explicar el
precio final de una propiedad.
Imagen 2: Diagrama de dispersión bedrooms vs Price.
El gráfico muestra una débil correlación positiva entre el número de dormitorios y el precio de
las viviendas, ya que, aunque el precio tiende a subir con más habitaciones, existe una amplia
dispersión de precios para cada categoría de dormitorios. La mayoría de las propiedades en el
dataset tienen entre 2 y 4 dormitorios, y la presencia de numerosos outliers (casas con un
número moderado de dormitorios pero precios muy elevados) subraya que otros atributos no
visualizados son mucho más determinantes en el valor final de una propiedad.
Imagen 3: Diagrama de dispersión bathrooms vs Price.
Este gráfico de dispersión muestra una correlación positiva entre el número de baños y el precio
de las viviendas, con precios generalmente más altos para propiedades con más baños. Sin
embargo, la relación no es fuerte debido a la considerable dispersión de precios para cada
cantidad de baños. La mayoría de las viviendas tienen entre 1 y 2 baños, y la presencia de valores
atípicos (casas con pocos baños pero precios muy elevados) sugiere que otros atributos son
cruciales para determinar su valor real.
Imagen 4: Diagrama de dispersión stories vs Price.
Este gráfico muestra una correlación positiva entre el número de pisos (stories) y el precio,
donde las casas con más pisos tienden a ser más caras. Sin embargo, esta relación es moderada
debido a la gran dispersión de precios observada para cada número de pisos. La mayoría de las
propiedades son de un solo piso, y la presencia de valores atípicos de alto precio en viviendas con
pocos pisos sugiere fuertemente que otros factores no visualizados son determinantes clave en la
valoración de las propiedades.
Imagen 5: Diagrama de dispersión mainroad vs Price
Este gráfico analiza la variable binaria "mainroad=no" (donde 0 es sí, 1 es no) frente al precio,
revela que la mayoría de las propiedades están conectadas a una carretera principal (X=0). Las
casas en una carretera principal presentan un rango de precios mucho más amplio y alcanzan los
valores más altos, mientras que las casas que no están en una carretera principal (X=1) tienden a
tener precios generalmente más bajos. Esto sugiere que la conexión a una carretera principal es
un factor que contribuye significativamente a la posibilidad de alcanzar precios más elevados en el
mercado inmobiliario.
Imagen 6: Diagrama de dispersión stories vs Price.
Este gráfico relaciona la presencia de una habitación de invitados ("guestroom=yes", donde 0 es
no y 1 es sí) con el precio, indica que la mayoría de las propiedades no poseen una habitación de
invitados (X=0) y exhiben un amplio rango de precios. Sin embargo, las casas con una habitación
de invitados (X=1) tienden a tener precios generalmente más elevados, aunque también
presentan una dispersión de valores. Esto sugiere que la existencia de una habitación de invitados
contribuye positivamente al valor de la propiedad, situándolas en un segmento de precio superior,
aunque no garantiza el valor más alto por sí misma.
Imagen 7: Diagrama de dispersión basemnt vs Price.
Este compara la presencia de sótano ("basement=yes", donde 0 es no y 1 es sí) con el precio,
muestra que las casas sin sótano (X=0) son más numerosas y presentan un amplio rango de
precios, incluyendo algunas de las más caras. Sin embargo, las propiedades con sótano (X=1)
tienden a concentrarse en rangos de precio generalmente más altos, con menos casos en el
extremo inferior. Esto sugiere que, aunque un sótano añade valor a una propiedad, no es el factor
exclusivo que determina los precios más elevados, ya que ambas categorías incluyen viviendas de
alto valor.
Imagen 8: Diagrama de dispersión hotwaterheating vs Price
Este gráfico examina la relación entre la presencia de calefacción por agua caliente
("hotwaterheating=yes", donde 0 es no y 1 es sí) y el precio, muestra que la gran mayoría de las
propiedades no cuentan con este sistema (X=0) y, a pesar de ello, abarcan todo el rango de
precios, incluyendo los más altos. Las casas con calefacción por agua caliente (X=1) son una
minoría muy pequeña en el dataset, y si bien algunas están en el rango de precios medio-alto, su
escasa representación dificulta establecer una clara influencia directa o significativa de esta
característica en los precios más elevados del mercado.
Imagen 9: Diagrama de dispersión airconditioning vs Price
Este gráfico relaciona la presencia de aire acondicionado ("airconditioning=no", donde 0 es sí y 1
es no) con el precio, indica que las propiedades con aire acondicionado (X=0) son las que
alcanzan los precios más altos y muestran una mayor concentración de valores en el rango medio-
alto. En contraste, las casas sin aire acondicionado (X=1) tienden a agruparse en los rangos de
precio más bajos y medios, con ausencia de las propiedades más caras. Esto sugiere que el aire
acondicionado es un factor importante que contribuye significativamente a un mayor valor de la
vivienda en este dataset.
Imagen 10: Diagrama de dispersión parking vs Price
Este gráfico examina la relación entre el número de plazas de aparcamiento y el precio de las
viviendas, muestra una clara correlación positiva: a mayor número de plazas, mayor suele ser el
precio de la propiedad. La mayoría de las casas tienen 0 o 1 plaza de aparcamiento,
concentrándose en rangos de precios bajos a medios. Sin embargo, las viviendas con 2 o 3 plazas
de aparcamiento son menos numerosas pero alcanzan consistentemente los precios más altos
del dataset, indicando que el espacio de aparcamiento es un factor importante que añade valor
significativo a la propiedad.
Imagen 11: Diagrama de dispersión prefarea vs Price
Este gráfico relaciona si una propiedad está en un área preferida ("prefarea=no", donde 0 es sí y 1
es no) con el precio, indica una fuerte influencia de la ubicación en el valor. Las casas en áreas
preferidas (X=0) alcanzan los precios más altos y muestran una distribución más amplia de
valores, mientras que las propiedades fuera de estas áreas (X=1) se concentran
predominantemente en rangos de precios más bajos a medios, con muy pocas alcanzando los
valores máximos. Esto sugiere que estar en un área preferida es un factor crucial y un gran
impulsor del precio de la vivienda en este dataset.
2. Dividir el dataset en entrenamiento y prueba
Se dividio el dataset en entrenamiento y prueba usando el filtro removePorcentage
3. Ajustar el modelo de regresión
Para el ajuste del modelo de regresión, se procedió a entrenar un modelo de Regresión Lineal
utilizando el conjunto de datos de entrenamiento. Reconociendo que las variables price y area
presentaban una distribución sesgada y la presencia de valores atípicos (outliers) que podían
afectar negativamente el rendimiento del modelo lineal, se aplicó un filtro de transformación
logarítmica (NumericTransform con methodName=log) a ambas variables. Esta transformación
fue fundamental, ya que los modelos de regresión lineal asumen relaciones lineales y
distribuciones de errores más simétricas; el logaritmo ayuda a cumplir estos supuestos, mitiga la
influencia desproporcionada de los outliers y facilita una relación lineal más robusta entre las
variables. Una vez transformados los datos de entrenamiento y pruebas de manera consistente, se
reajustó el modelo, permitiendo así una predicción más precisa.
Time taken to test model on supplied test set: 0 seconds
=== Summary ===
Correlation coefficient 0.4739
Mean absolute error 2122021.2573
Root mean squared error 2520334.2364
Relative absolute error 64.6275 %
Root relative squared error 69.5541 %
Total Number of Instances 164
Estos fueron los resultados arrojados por el primer modelo, como se puede ver los datos estaban
muy sesgados y los errores muy altos, esto debido a los outliers, debido a la importancia de estos
mismos en el atributo precio se opto por usar el filtro mencionado anteriormente sobre los
dataset de entrenamiento y prueba en lugar de solo eliminar los otliers.
Time taken to test model on supplied test set: 0 seconds
=== Summary ===
Correlation coefficient 0.482
Mean absolute error 0.3098
Root mean squared error 0.3582
Relative absolute error 48.8948 %
Root relative squared error 54.027 %
Total Number of Instances 164
Una vez hecho o aplicado este filtro se ve una mejora en el modelo.
4. Evaluar gráficamente y con métricas
Evalúa la calidad de las predicciones del modelo:
Gráficamente:
Gráfica real vs. predicho para ambos conjuntos (entrenamiento y prueba).
Con métricas
Error medio absoluto (MAE): 0.31
Error cuadrático medio (RMSE). 0.36
R² (coeficiente de determinación). -2.36
El gráfico de "Comparación de Valores Reales y Predichos" revela que, si bien el modelo de
regresión lineal logra capturar una tendencia general decreciente en los datos (en escala
logarítmica), presenta un sesgo notable a la subestimación, con las predicciones (línea azul)
manteniéndose consistentemente por debajo de los valores reales (línea verde). Además, se
observa que las predicciones son considerablemente más volátiles y ruidosas que los valores
reales, indicando que el modelo no logra ajustarse con precisión a las fluctuaciones y la suavidad
del comportamiento observado, lo que sugiere que aún hay un margen significativo para mejorar
su capacidad de predicción y reducir el error.
Este segundo gráfico, que compara los valores reales y predichos del precio en su escala original,
amplifica visualmente las limitaciones ya observadas en la escala logarítmica. Demuestra un
sesgo de subestimación aún más pronunciado en términos absolutos, especialmente para las
propiedades de mayor valor, donde el modelo predice consistentemente precios mucho menores
que los reales (la línea azul queda muy por debajo de la línea verde). La línea de predicciones sigue
siendo altamente volátil y no logra replicar la tendencia suave de los precios reales, lo que subraya
la magnitud significativa de los errores absolutos y la necesidad de un modelo con mayor
capacidad para capturar la verdadera escala de los valores de las propiedades.
5. Interpretar y comentar
¿Qué observas en las gráficas?
¿Qué tan bien se ajusta el modelo?
¿Qué variables influyen más?
¿Qué tan buenas son las predicciones?
¿Qué observas en las gráficas?
Las gráficas muestran un claro sesgo a la subestimación en las predicciones, que son más
volátiles que los valores reales, y esto se magnifica en la escala original del precio.
¿Qué tan bien se ajusta el modelo?
El ajuste del modelo mejoró significativamente con las transformaciones logarítmicas
(errores relativos del 49-54%), siendo ahora aceptable/moderado, pero aún no es "bueno" o
"muy bueno".
¿Qué variables influyen más?
La variable area (transformada) es la de mayor influencia positiva. Las más influyentes
negativamente son prefarea=no y airconditioning=no.
¿Qué tan buenas son las predicciones?
Las predicciones son de calidad moderada/aceptable tras las mejoras, pero sufren de un
sesgo de subestimación importante y fallan en capturar la magnitud real, especialmente
para precios altos.