Bases de Datos 2
Teoría 10
Federico Orlando
Data warehouse
Data warehouse
Motivación
¿Qué fuentes de datos existen en una organización?
¿Cómo obtenemos información esencial para el negocio de estas fuentes
tan diversas?
Data warehouse
Historia
Según W. H. Inmon (considerado por muchos el padre del concepto), un
data warehouse es un conjunto de datos orientados por temas, integrados,
variantes en el tiempo y no volátiles, que tienen por objetivo dar soporte a
la toma de decisiones.
Según Ralph Kimball (considerado el principal promotor del enfoque
dimensional para el diseño de almacenes de datos), un data warehouse es
una copia de los datos transaccionales específicamente estructurada para
la consulta y el análisis.
Data warehouse
Definición
¿Qué es un Data Warehouse? ¿Es un tipo de Base de Datos?
Un Data Warehouse (almacén de datos) es un sistema que se utiliza para almacenar en
un único repositorio grandes volúmenes de datos que provienen de múltiples fuentes de
datos de la organización. A su vez, se encuentra altamente estructurado proporcionando
una visión global, común e integrada de los datos, independientemente de cómo se vayan
a utilizar posteriormente los mismos.
Está diseñado específicamente para el análisis y la generación de informes, no para el
procesamiento de transacciones del día a día.
Data warehouse
Características
• Integración
• Consistencia
• Variable en el tiempo
• No volátil
• Organización temática
Data warehouse
Funciones y uso
• Buisness Intelligence
• Informes y/o reportes gerenciales
• Decisiones basadas en datos
• Análisis de tendencias y comportamientos
• Data mining
• Machine Learning
Data warehouse
Componentes
• Data Sources
• Herramientas de ETL
• Metadata
• Base de datos
• Herramientas de consulta y análisis
Data warehouse
ETL
• Extracción
• Transformación
• Carga (Load)
Data warehouse
Arquitectura
Data warehouse
Bases de Datos vs Data Warehouse
Bases de Datos Data Warehouse
Orientada a transacciones Orientado a consultas
Operativa Análisis y toma de decisiones
estratégicas
Proceso puntual Proceso batch masivo
Estabilidad Dinámica
Datos desagregados Distintos niveles de agregación
Dato actual Evolución del dato
Usuario de perfil bajo Usuarios de perfil alto
Datos relacionados con lo Datos relacionados con el
operativo negocio
Data warehouse
Tablas
• HECHOS (medidas): Son el objeto de los análisis y están relacionados con las dimensiones. Son
tablas muy grandes y suelen estar desnormalizadas o en 3FN. A menudo incluyen diferentes
agregaciones como máximo, mínimo, media, etc.
Almacena datos cuantitativos o numéricos sobre un proceso de negocio, como ventas, compras, o
incidencias, para su análisis,
Una tabla de hechos suele tener dos tipos de columnas: claves foráneas para tablas de dimensiones
y medidas, que contienen datos numéricos. Una tabla de hechos puede contener datos de hechos a
nivel de detalle o agregado.
Data warehouse
Tablas
• DIMENSIONES: Representan factores por lo que se analiza un determinado área del negocio. Son
pequeñas y usualmente están desnormalizadas.
Las dimensiones contienen los metadatos sobre los hechos.
Si la información necesita disponer de varios niveles de granularidad se crean jerarquías con las
dimensiones. Por ejemplo la jerarquía fecha podría ser «día – semana – mes – trimestre – año».
Las jerarquías de las dimensiones presentan relaciones n-1 de manera que un valor de un nivel sólo
puede ser agrupado por un único valor de cada nivel inmediatamente superior en la jerarquía.
Data warehouse
Modelos
• Estrella
• Copo de Nieve
• Galaxia o Constelación
Data warehouse
Modelo Estrella
Data warehouse
Modelo Estrella
Data warehouse
Modelo Estrella
PROS
• Es el más simple de todos los modelos, esto lo hace muy fácil de integrar en la
organización, ya que es fácilmente comprensible.
• Es un modelo que tiene muy buen rendimiento en las consultas, ya que solamente
involucramos un join entre los datos.
Data warehouse
Modelo Estrella
CONTRAS
• La escalabilidad puede ser peor, ya que existe un uso más ineficiente del
almacenamiento.
• Trabajar con tablas desnormalizadas y redundancia de datos hace que el tamaño
de la tabla pudiera ser grande y se produzca un tiempo relativamente largo de
carga de datos en tablas de dimensiones.
Data warehouse
Modelo Copo de nieve (Snowflake)
Data warehouse
Modelo Copo de nieve (Snowflake)
Data warehouse
Modelo Copo de nieve
PROS
• Permite generar más contexto alrededor de una tabla de hechos.
• Trabajas con tablas normalizadas, se evita la redundancia de datos añadiendo
más capas de contexto.
Data warehouse
Modelo Copo de Nieve
CONTRAS
• El código es mucho más complejo ya que pasamos a dos niveles de join a la hora
de trabajar con una dimensión.
Data warehouse
Modelo Galaxia
Conformada
Data warehouse
Data Mart
Un Data Mart es un subconjunto de los datos del Data Warehouse orientado a un
área específica con el objetivo de responder a determinados análisis o necesidades
de dicha área,como pueden ser ventas o finanzas.
En un Data Mart independiente, los datos pueden recopilarse directamente de las
fuentes. Tiene diversas funciones como organizar la información para posteriormente
analizarla, realizar indicadores (KPI), evaluar los objetivos del sector que se está
analizando, etc. El objetivo es realizar un análisis detallado sobre lo que ocurre en un
negocio.
Data warehouse
Data Lake
• Es un repositorio orientado a almacenar gran cantidad de datos, tanto
estructurados como sin estructurar.
• Permite almacenar los datos tal cual vienen sin necesidad de ser transformados.
• Ejecuta diferentes tipos de análisis, dashboards y visualizaciones, además de
generar procesos de big data, análisis en tiempo real y de Machine Learning que
facilitan la toma de decisiones.