Cesar Guzman
Inteligencia Negocios
2010
Topologias Datawarehouse
Se entiende por la forma es
que es posible modelar /
disear un datawarehouse
Cesar Guzman
Inteligencia Negocios
2010
Tipos de tablas usadas en Datawarehouse
Antes de entrar a conocer las topologias de
los datawarehouse es importante entender
los tipos de tablas que se dan dentro de
estos modelos
Tablas de Hecho
Cesar Guzman
Inteligencia Negocios
2010
En las bases de datos, y ms concretamente en un data warehouse, una tabla de hechos (o tabla fact) es la tabla
central de un esquema dimensional (en estrella o en copo de nieve) y contiene los valores de las medidas de
negocio. Cada medida se toma mediante la interseccin de las dimensiones que la definen, dichas dimensiones
estarn reflejadas en sus correspondientes tablas de dimensiones que rodearn la tabla de hechos y estarn
relacionadas con ella.
En la figura, la tabla central (Ventas) es la tabla de hechos de un diseo de modelo de datos en estrella, las
cinco tablas que la rodean (Producto, Tiempo, Almacn, Promocin y Cliente) son las cinco dimensiones de
que consta esta tabla de hechos, en dicha tabla se almacenan, en este caso, las unidades vendidas y
el precio obtenido por dichas ventas, estos son los hechos o medidas de negocio almacenados y que, gracias al
diseo multidimensional en estrella, podrn ser analizados de forma exhaustiva, tpicamente mediante
tcnicas OLAP (procesamiento analtico on-line).
Tablas de Dimensiones
Cesar Guzman
Inteligencia Negocios
2010
En la construccin de cubos OLAP, las tablas de dimensiones son elementos que
contienen atributos (o campos) que se utilizan para restringir y agrupar los datos
almacenados en una tabla de hechos cuando se realizan consultas sobre dicho datos
en un entorno de almacn de datos o data mart.
Estos datos sobre dimensiones son parmetros de los que dependen otros datos que
sern objeto de estudio y anlisis y que estn contenidos en la tabla de hechos. Las
tablas de dimensiones ayudan a realizar ese estudio/anlisis aportando informacin
sobre los datos de la tabla de hechos, por lo que puede decirse que en un cubo OLAP,
la tabla de hechos contiene los datos de inters y las tablas de dimensiones
contienen metadatos sobre dichos hechos.
Cada dimensin puede referirse a conceptos como 'tiempo', 'productos',
'clientes', 'zona geogrfica', etc. Ahora bien, cada dimensin puede
estar medida de diferentes maneras segn la granularidad deseada, por
ejemplo, para la dimensin "zona geogrfica" podramos considerar
'localidades', 'provincias', 'regiones', 'pases' o 'continentes'.
Ejmplo:
Inclusive, las tablas de dimensiones se podran definir de una manera
jerrquica. Un ejemplo de esto es la tabla de dimensiones tiempo, En donde
el ao es la jerarqua superior de mes y as sucesivamente
Cesar Guzman
Inteligencia Negocios
2010
Esquema en estrella
Consiste en estructurar la informacin en procesos, vistas y mtricas
recordando a una estrella (por ello el nombre star schema). Es decir,
tendremos una visin multidimensional de un proceso que medimos a
travs de unas mtricas. A nivel de diseo, consiste en una tabla de
hechos (lo que en los libros encontraremos como fact table) en el centro
para el hecho objeto de anlisis y una o varias tablas de dimensin
(dimension table) por cada dimensin de anlisis que participa de la
descripcin de ese hecho. En la tabla de hecho encontramos los
atributos destinados a medir (cuantificar) el hecho: sus mtricas.
Mientras, en las tablas de dimensin, los atributos se destinan a
elementos de nivel (que representan los distintos niveles de las
jerarquas de dimensin) y a atributos de dimensin (encargados de la
descripcin de estos elementos de nivel). En el esquema en estrella la
tabla de hechos es la nica tabla del esquema que tiene mltiples joins
que la conectan con otras tablas (foreign keys hacia otras tablas). El
resto de tablas del esquema (tablas de dimensin) nicamente hacen
join con esta tabla de hechos. Las tablas de dimensin se encuentran
adems totalmente denormalizadas, es decir, toda la informacin
referente a una dimensin se almacena en la misma tabla.
Cesar Guzman
Inteligencia Negocios
2010
Ejemplo de estrella
Cesar Guzman
Inteligencia Negocios
2010
Esquema en copo de nieve
El esquema en copo de nieve (snowflake schema) es un esquema de
representacin derivado del esquema en estrella, en el que las tablas de
dimensin se normalizan en mltiples tablas. Por esta razn, la tabla de
hechos deja de ser la nica tabla del esquema que se relaciona con otras
tablas, y aparecen nuevas joins gracias a que las dimensiones de anlisis se
representan ahora en tablas de dimensin normalizadas. En la estructura
dimensional normalizada, la tabla que representa el nivel base de la
dimensin es la que hace join directamente con la tabla de hechos. La
diferencia entre ambos esquemas (star y snowflake) reside entonces en la
estructura de las tablas de dimensin. Para conseguir un esquema en copo
de nieve se ha de tomar un esquema en estrella y conservar la tabla de
hechos, centrndose nicamente en el modelado de las tablas de dimensin,
que si bien en el esquema en estrella se encontraban totalmente
denormalizadas, ahora se dividen en subtablas tras un proceso de
normalizacin. Es posible distinguir dos tipos de esquemas en copo de nieve,
un snowflake completo (en el que todas las tablas de dimensin en el
esquema en estrella aparecen ahora normalizadas en el snowflake) o un
snowflake parcial (slo se lleva a cabo la normalizacin de algunas de ellas).
Cesar Guzman
Inteligencia Negocios
2010
Ejemplo copo de nieve
Cesar Guzman
Inteligencia Negocios
2010
Comparacion de los 2 ultimos
Esquema copo de nieve: ms fcil de mantener las tablas dimensin
cuando son muy grandes (reduce el espacio total); problemas de
performance por joins.
Esquema estrella: exploracin ms efectiva del cubo
de datos (menos joins); tiene redundancia
Cesar Guzman
Inteligencia Negocios
2010
Esquema en Constelacin de Hechos
mltiples tablas hecho comparten
tablas dimensin (coleccin de
estrellas)