PRÁCTICA 01 DE APRENDIZAJE PROFUNDO, 10 DE FEBRERO DE 2025 1
Aprendizaje Profundo - Reporte
de Práctica 01
Oscar Avila, T035676, Student, CETYS,
Daniel Nuño, T035859, Student, CETYS,
Edgar De La Torre, T034887, Student, CETYS,
Ulises Orozco Rosas, Dr, Maestro, CETYS
Ingenierı́a en Ciencias Computacionales
CENTRO DE ENSEÑANZA TÉCNICA Y SUPERIOR
Resumen—Este reporte documenta un poco sobre las bases II. F UNDAMENTOS
principales del uso de TensorBoard y herramientas de visual-
ización de datos aplicadas al conjunto de datos de California Comenzando con los fundamentos, hay un punto que debe-
Housing. Se implementó un modelo de regresión lineal utilizando mos de tener claro y bien conceptualizado, que es la regresión
la ecuación normal y se analizaron los datos mediante histogra- lineal. La regresión lineal es una técnica de análisis de datos
mas y diagramas de dispersión. Los resultados buscan subrayar que predice el valor de datos desconocidos mediante el uso de
las correlaciones entre caracterı́sticas clave y su influencia en el
otro valor de datos relacionado y conocido [1]. Para nuestro
precio de la vivienda, nuestra variable de salida.
caso, en donde haremos uso de la regresión lineal múltiple, la
Palabras clave—TensorFlow, TensorBoard, regresión, apren- ecuación se representa/expresa de la siguiente manera:
dizaje profundo, visualización de datos.
θ = (X T X)−1 X T y (1)
I. I NTRODUCCI ÓN donde:
• X representa la matriz de caracterı́sticas con un término
El aprendizaje profundo conocido mundialmente como
de sesgo (bias)
Deep Learning, ha crecido bastante y nos ha permitido
• y es el vector de valores objetivo (precios de las vivien-
moldear y facilitar la manera en que tratamos y resolvemos
das).
problemas complejos con el uso de la inteligencia artificial,
• θ son los coeficientes óptimos de la regresión.
resaltando en su rendimiento al momento de realizar la
predicción de datos, al igual que en la toma de decisiones Ahora, tratando sobre la contextualización de nuestro con-
de forma automatizada. Entre las herramientas/tecnologı́as junto de datos. El conjunto de datos California Housing se
más destacadas para el desarrollo de modelos de aprendizaje originó a través del censo de 1990 en California y contiene
automático se encuentra TensorFlow, en pocas palabras es una información sobre una gran variedad de caracterı́sticas de las
biblioteca que permite construir y entrenar redes neuronales viviendas. Entre las variables que se consideran dentro del
con gran eficiencia. Cabe recalcar que TensorFlow no es conjunto de datos se encuentran:
particularmente para redes neuronales, pero tiene una gran • Ubicación geográfica (latitud y longitud).
comunidad que aporta sobre esta área del Machine Learning. • Edad promedio de la casa.
Una de las principales ventajas de TensorFlow son sus • Número promedio de habitaciones por hogar.
herramientas de visualización de las salidas de los modelos • Ingreso medio de los habitantes en la zona.
a través de TensorBoard, una plataforma, un estilo de WebUI • Valor medio de la vivienda.
en consola que facilita el análisis de modelos al representar Un detalle importante a recalcar es que este conjunto de
de forma gráfica su estructura y comportamiento. Asimismo, datos se utiliza con bastante frecuencia en problemas de
con TensorBoard,también se puede ver la representación de aprendizaje automático para predecir el precio de las casas
la salida a través de histogramas, gráficos computacionales, en función de estas caracterı́sticas. En este caso, la regresión
métricas de entrenamiento, etc..., lo que mejora significativa- lineal nos va a permitir modelar esta relación y obtener
mente la comprensión del rendimiento del modelo. predicciones a partir de los datos que se encuentran dentro
Enfocándonos un poco en la práctica, aquı́ se emplea de nuestro conjunto de datos.
TensorBoard para el análisis del conjunto de datos California Además, se planea implementar el uso de TensorBoard
Housing, utilizando un modelo de regresión basado en la como herramienta de visualización para analizar (como se
ecuación normal. Asimismo, se busca analizar y observar comentó anteriormente) el comportamiento del modelo. Con
cómo es que las distintas caracterı́sticas del conjunto de datos esta tecnologı́a, podremos realizar y generar gráficos que
influyen y afectan el precio de las viviendas, para lo cual se reflejen la estructura del modelo, analizar distribuciones de
generarán histogramas y diagramas representativos (depende datos y evaluar la precisión de nuestras predicciones de manera
de la métrica a evaluar). gráfica.
PRÁCTICA 01 DE APRENDIZAJE PROFUNDO, 10 DE FEBRERO DE 2025 2
III. I MPLEMENTACI ÓN variables, lo que a su vez ayuda en la toma de decisiones para
Para llevar a cabo la práctica, se consideraron estos sigu- el preprocesamiento de datos.
ientes pasos (a grandes rasgos): El procedimiento consistió en:
• Cargar el conjunto de datos California Housing y conver-
• Primero, nos encargamos de cargar el conjunto de datos
tirlo en un formato adecuado para su manipulación.
California Housing de Scikit-Learn.
• Seleccionar todas las variables numéricas del conjunto de
• Segundo, se implementó un modelo de regresión lineal
datos.
utilizando la ecuación normal.
• Configurar un esquema visual donde cada variable tuviera
• Tercero, se realizó la configuración TensorBoard para
su propio histograma, facilitando la interpretación de su
visualizar el gráfico computacional del modelo.
distribución.
• Cuarto, se generaron histogramas para cada una de las
• Ajustar parámetros como el número de divisiones o
caracterı́sticas numéricas del conjunto de datos.
intervalos que agrupan los datos para representar su
• Quinto, se crearon diagramas de dispersión para analizar
distribución y los bordes de los histogramas para una
la correlación entre las variables relevantes.
mejor visualización.
Ahora desarrollaremos la teorı́a sobre la implementación
Con esta implementación, se logró generar una
que se llevó a cabo en cada uno de los ejercicios. Este
representación gráfica de cada variable, lo que servirá
pensamiento y planeación sobre los aspectos teóricos nos
como base para las siguientes fases del estudio. Este paso
permitieron posteriormente poder desarrollar las soluciones
es de bastante importancia, visto que permite obtener una
en código.
visión más estructurada de los datos antes de pasar a modelos
predictivos o cualquier otra transformación.
Ejercicio 1: Gráfico Conceptual con la Ecuación Normal
El primero ejercicio no solicitó modelar como tal la relación
Ejercicio 3: Diagramas de Dispersión
entre las caracterı́sticas del conjunto de datos California Hous-
Luego de la visualización individual de cada caracterı́stica
ing y el precio medio de las viviendas, por esta razón se tuvo
mediante histogramas, se llevó a cabo la generación de 13
que llevar la implementación de un modelo de regresión lineal
diagramas de dispersión. Este proceso tiene el objetivo de
basado en la ecuación normal.
analizar cómo se relacionan entre sı́ distintas variables del
El cálculo de los coeficientes óptimos se realizó con la
conjunto de datos California Housing.
siguiente ecuación (Estos detalles ya se definieron en la
Los diagramas de dispersión permiten visualizar si existe
introducción, pero no esta de más volver a personalizarlos
algún tipo de tendencia o estructura entre dos variables. Para
para este ejercicio):
la implementación, se realizaron los siguientes pasos:
• Seleccionar los pares de variables a comparar.
θ = (X T X)−1 X T y (2)
• Configurar cada diagrama con sus respectivos ejes y
donde: etiquetas para una mejor visualización.
• Ajustar parámetros gráficos como el tamaño de los puntos
• X recordemos que representa la matriz de caracterı́sticas
con una columna adicional de unos para el término de y su nivel de transparencia.
sesgo. A continuación, se detallan los diagramas generados:
• y de nuevo, representa el vector de precios medios de las
viviendas. A. Latitude vs Longitude
• θ contiene los coeficientes que minimizan el error
Este diagrama fue implementado para representar la ubi-
cuadrático medio. cación geográfica de las viviendas dentro del estado de Cali-
Este método proporciona una solución cerrada sin necesidad fornia. Se configuraron los ejes con las coordenadas de latitud
de iteraciones, lo que lo hace eficiente para conjuntos de y longitud, permitiendo una visualización estructurada de la
datos de tamaño mediano o moderado. Aquı́ también se hizo distribución de los datos en el espacio geográfico.
uso de TensorFlow, obteniendo ası́ los coeficientes óptimos
del modelo de regresión, los cuales indican la influencia B. Median Income vs Median House Value
relativa de cada caracterı́stica en la predicción del precio de
Se generó un diagrama de dispersión entre el ingreso medio
las viviendas.
de los habitantes y el precio medio de las viviendas. La
implementación consistió en configurar el eje x con los valores
Ejercicio 2: Histogramas de Caracterı́sticas
de ingreso medio y el eje y con los valores de las viviendas,
Para este segundo ejercicio, se llevó a cabo la generación
estableciendo una representación visual que puede ayudar a
de histogramas con el fin de visualizar la distribución de
identificar posibles tendencias.
las caracterı́sticas numéricas dentro del conjunto de datos
California Housing.
Antes de seguir con cualquier análisis o modelado, es impor- C. Average Rooms vs Median House Value
tante realizar un análisis visual de los datos. Los histogramas Aquı́ se comparó el número promedio de habitaciones por
para este ejercicio nos permitirán tener una idea más clara hogar con el valor medio de la vivienda. Se estructuró el
sobre cómo están estructurados los valores en cada una de las gráfico con los valores de Average Rooms en el eje x y Median
PRÁCTICA 01 DE APRENDIZAJE PROFUNDO, 10 DE FEBRERO DE 2025 3
House Value en el eje y, configurando adecuadamente los K. Median House Value vs House Age
estilos de los puntos para una mejor diferenciación de los
Para este diagrama, se comparó el precio medio de la
datos.
vivienda con su antigüedad. Se organizaron las variables en los
ejes correspondientes y se aplicaron configuraciones gráficas
D. House Age vs Median House Value para facilitar la interpretación visual.
Para este caso, se implementó un diagrama donde se com-
paró la antigüedad de la vivienda con su precio medio. Se L. Median Income vs House Age
asignaron los valores de House Age al eje x y los valores de
En esta visualización, se graficó la relación entre el ingreso
Median House Value al eje y, ajustando parámetros gráficos
medio y la antigüedad de la vivienda. Se realizó una con-
para optimizar la visualización.
figuración adecuada de los ejes y se ajustaron los niveles de
transparencia para evitar sobrecarga visual.
E. Median House Value vs Median Income
Este gráfico invierte el orden de comparación del segundo M. Average Rooms vs House Age
diagrama, ubicando el valor medio de la vivienda en el eje x
y el ingreso medio en el eje y. Se configuraron aspectos como Finalmente, se implementó un diagrama para observar la
el nivel de transparencia de los puntos para evitar sobrecargas relación entre la antigüedad de la vivienda y el número prome-
visuales. dio de habitaciones. Se establecieron los ejes correctamente
y se optimizaron los estilos de los puntos para asegurar una
representación visual clara.
F. Average Rooms vs Median Income
Se llevó a cabo la implementación de un diagrama de IV. R ESULTADOS
dispersión para analizar la relación entre el número de habita-
ciones promedio y el ingreso medio de los habitantes. Se Como se puede apreciar, al aplicar la ecuación normal,
estructuró con Average Rooms en el eje x y Median Income en se logró calcular directamente los coeficientes óptimos del
el eje y, aplicando escalas adecuadas para una representación modelo de regresión lineal sin necesidad de iteraciones. Esto
clara. permitió identificar la influencia de cada caracterı́stica en el
precio medio de las viviendas de manera eficiente. Además, el
uso de TensorFlow facilitó el proceso, asegurando un cálculo
G. House Age vs Median Income preciso y rápido para este conjunto de datos.
Aquı́ se representó gráficamente la relación entre la
antigüedad de la vivienda y el ingreso medio de la zona. La
implementación siguió la misma estructura, con House Age
en el eje x y Median Income en el eje y, asegurando que la
distribución de los puntos fuera lo suficientemente clara para
su interpretación.
Fig. 1. Relación entre las caracterı́sticas del conjunto de datos y el precio
medio de las viviendas.
H. Median House Value vs Average Rooms
Para este diagrama, se comparó el precio medio de la Como se puede apreciar, la generación de histogramas per-
vivienda con el número promedio de habitaciones. Se ubicaron mitió visualizar la distribución de las caracterı́sticas numéricas
las variables en los ejes correspondientes y se aplicaron del conjunto de datos California Housing. Esto facilitó la iden-
configuraciones gráficas para evitar solapamiento de datos. tificación de patrones, posibles valores atı́picos y la estructura
general de los datos. Este análisis gráfico es clave para la toma
de decisiones en el preprocesamiento, asegurando una mejor
I. Median Income vs Average Rooms preparación antes de aplicar modelos predictivos o realizar
Se generó una visualización entre el ingreso medio y el transformaciones adicionales.
número promedio de habitaciones por vivienda. Se ajustaron
las escalas de los ejes y se optimizó la distribución de los
puntos para una mejor diferenciación entre valores.
J. House Age vs Average Rooms
Aquı́ se implementó la comparación entre la antigüedad
de la vivienda y la cantidad promedio de habitaciones. Se
ajustaron los parámetros de visualización y se mantuvo la Fig. 2. Histogramas de AveBedroms, AveOccup, AveRooms, del conjunto de
coherencia en la estructura de los gráficos anteriores. datos California Housing, mostrando su distribución y patrones.
PRÁCTICA 01 DE APRENDIZAJE PROFUNDO, 10 DE FEBRERO DE 2025 4
Fig. 3. Histogramas de HouseAge, Latitude, Longitude, del conjunto de datos
California Housing, mostrando su distribución y patrones
Fig. 7. Comparación entre el número promedio de habitaciones y el precio
medio de las viviendas.
Fig. 4. Histogramas de MedHouseVal, MedInc, Population, del conjunto de
datos California Housing, mostrando su distribución y patrones
En este ejercicio, los diagramas de dispersión permitieron Fig. 8. Relación entre la antigüedad de las viviendas y su precio medio.
analizar la relación entre distintas variables del conjunto de
datos California Housing. Gracias a estas visualizaciones,
fue posible identificar patrones, correlaciones y estructuras
dentro de los datos. En particular, algunos diagramas revelaron
posibles tendencias, como la relación entre el ingreso medio y
el valor medio de la vivienda. Este análisis gráfico es crucial
para la exploración de datos, ya que proporciona información
valiosa que puede influir en las decisiones de preprocesamiento
y en la selección de modelos predictivos.
Fig. 9. Relación entre el precio medio de las viviendas y el ingreso medio
de los habitantes.
Fig. 5. Distribución geográfica de las viviendas en California.
Fig. 10. Relación entre el número promedio de habitaciones y el ingreso
Fig. 6. Relación entre ingreso medio y precio medio de viviendas. medio de los habitantes.
PRÁCTICA 01 DE APRENDIZAJE PROFUNDO, 10 DE FEBRERO DE 2025 5
Fig. 16. Relación entre el ingreso medio y la antigüedad de las viviendas.
Fig. 11. Relación entre la antigüedad de las viviendas y el ingreso medio de
la zona.
Fig. 17. Relación entre el número promedio de habitaciones y la antigüedad
de las viviendas.
Fig. 12. Comparación entre el precio medio de las viviendas y el número
promedio de habitaciones.
V. C ONCLUSI ÓN
A lo largo de esta práctica, vimos cómo es que diferentes
variables pueden realmente afectar el valor de las viviendas
en California y cómo la regresión lineal nos ayuda a modelar
estas relaciones. Desde el uso de la ecuación normal hasta
la visualización de datos con histogramas y diagramas de
dispersión, cada paso aportó una pieza clave en el análisis
del conjunto de datos.
Uno de las cosas más interesantes que encontramos o más
evidentes fue la fuerte correlación entre el ingreso medio y el
Fig. 13. Relación entre el ingreso medio y el número promedio de habita- precio de la vivienda. Esto reafirma algo que, intuitivamente,
ciones por vivienda.
ya sabemos, que viene siendo que las zonas con mayores in-
gresos tienden a tener propiedades más costosas. Sin embargo,
también encontramos algunas anomalı́as, como viviendas con
precios muy altos en zonas de ingresos medios, lo que asegura
que pueden existir propiedades de lujo o factores externos que
afectan el [Link]́n fueron útiles para identificar posibles
tendencias y relaciones importantes que no eran evidentes a
simple vista, lo que permitió una mejor toma de decisiones
para los modelos predictivos.
En el futuro, una posible mejora a este estudio serı́a incorpo-
rar modelos más avanzados, como redes neuronales o árboles
Fig. 14. Relación entre la antigüedad de las viviendas y el número promedio de decisión, para poder encontrar relaciones más complejas
de habitaciones.
entre las variables. También serı́a interesante analizar cómo
otros factores, como la proximidad a centros urbanos o la
oferta y demanda del mercado inmobiliario, pueden influir en
los precios de las viviendas.
En conclusión, esta práctica no solo sirvió para aplicar
la ecuación normal en regresión lineal, sino que también
nos sirvió para identificar y reconocer la importancia de
analizar los datos con detalle antes de hacer predicciones y en
adicional también resaltó la importancia de herramientas como
TensorFlow y TensorBoard para realizar un análisis detallado y
preciso. La visualización y el entendimiento de la información
Fig. 15. Relación entre el precio medio de las viviendas y su antigüedad. son pasos fundamentales para cualquier modelo de aprendizaje
PRÁCTICA 01 DE APRENDIZAJE PROFUNDO, 10 DE FEBRERO DE 2025 6
automático, y esta práctica fue un excelente recordatorio de
ello.
VI. URL
El lugar donde se realizaron los ejercicios puede consultarse
en el siguiente enlace: [Link]
19cotBgsrDA2YkzTHKuicEOFwkpncRCUj?usp=sharing.
R EFERENCIAS
[1] Amazon Web Services (AWS), ”What is Linear Regression?” Available:
[Link] Accessed: Febru-
ary 7, 2025.