Pinceladas sobre el diseño de un Data Warehouse

Partiendo de la base de que ya se ha hecho un buen análisis de requerimientos con análisis de informes existentes, entrevistas con usuarios clave, etc., y de que ya se tiene claro cuáles son los diferentes focos sobre los que se va a centrar el DWH, nos planteamos cuáles son los hechos más importantes para la empresa y para los usuarios, los analistas de negocio que han de explotar la información.
Sobretodo se ha de tener siempre en mente que el objetivo del DWH no es permitir sacar informes de detalle, sino que el usuario pueda analizar la información, navegar y ver información de negocio agrupada bajo diferentes puntos de vista.

Volviendo a los focos, estos suelen ser relativamente fáciles de identificar, y estar muy unidos a la actividad principal de departamentos de la empresa. Pongo algunos ejemplos:
Dpt. Comercial --> Ventas, Comisiones
Dpt. Compras --> Compras, Proveedores
Dpt. Marketing --> Campañas, Promociones
Dpt. Contabilidad --> Pagos, Gastos
Dpt. Personal --> Presencia, Formación, Contratación
Dpt. Logística --> Stocks, Distribución
Cada foco se va a convertir en la tabla de hechos y centro de una estrella del Data Warehouse.

La mayoría de las metodologías recomiendan comenzar la implementación del Data Warehouse centrándose en un solo foco, y después ir ampliándolo con los demás, pero siempre uno a uno. Así se irían creando Data Marts separados y orientados al negocio. Aunque se creen por separado van a compartir muchas de las dimensiones, que son los puntos de vista bajo los que se analiza la información, y se puede crear un repositorio común que se irá ampliando con cada Data Mart. Este repositorio también es conocido como ODS (Operational Data Store).
Así, en el ODS se almacena toda la información común, ya con marcas temporales, y se prepara la misma para alimentar a los Data Marts. Este entorno tampoco es obligatorio, pero sí recomendable, ya que al centralizar toda la información corporativa puede servir también para la creación de determinados informes no analíticos.

A nivel de diseño lógico lo primordial es diseñar bien la estrella, definir la tabla de hechos con todos los indicadores importantes para la parte de negocio que abarcará el Data Mart, y elegir la granularidad mínima con la que se van a almacenar los datos. Es importante hacer un esfuerzo para no almacenar más detalle del necesario, o el consumo de espacio se disparará y tendremos problemas de rendimiento cuando queramos acceder a los datos. Hay que elegir esta granularidad para cada 'clave' de una tabla de hechos.
Por ejemplo, podríamos diseñar un Data Mart de ventas con la información agrupada por Vendedor, Tienda, Cliente, Producto y Dia. Tendrían que darse unas necesidades de análisis muy especiales para justificar la necesidad de sobrecargar el sistema almacenando las ventas a nivel de detalle de horas, o minutos.

Estas mismas claves ya nos han definido el inicio de cinco dimensiones, sólo falta completar la jerarquía con el resto de niveles, que no van a ser más que agrupaciones de los elementos del nivel inferior. Habría que pensar si puede interesar analizar la información con respecto a alguna dimensión más, como la geográfica, que es una de las dimensiones más recurrentes, junto con la de tiempo, que nunca falta.

A partir de aquí ya se entra en el diseño físico. Se suele crear una estructura para recogida de las instantáneas de los sistemas operacionales llamada Stage Area, donde se conserva la estructura exactamente igual que en el sistema origen. Después viene el ODS donde ya se realizan las primeras transformaciones de datos y se comienza a integrar la información. En el ODS se suelen crear ya las marcas temporales necesarias, se unifican datos y estructuras, y se organiza la información de manera que después sea sencillo alimentar las diferentes estrellas. Se puede comenzar a desnormalizar algunas entidades, realizando algunas agrupaciones en tablas por dimensiones, aunque el modelo sigue siendo más parecido a un relacional.

Finalmente se creará una estrella para cada Data Mart (si se sigue la técnica del diseño en estrella), y las dimensiones correspondientes, que para el primer Data Mart serán todas nuevas y, a partir del segundo algunas comenzarán a ser compartidas, y puede que rediseñadas con los nuevos requerimientos del modelo entrante.

Busqueda con el motor de Google

Google