Herramientas para la implantación de un sistema de Data Warehouse

Hay muchas herramientas que diferentes empresas ofrecen para la creación y explotación de un Data Warehouse.

Cuando se ofrece una suite completa, que cubre desde la creación de la base de datos hasta la explotación de la misma para diferentes perfiles y objetivos, suelen considerarse como herramientas de Business Intelligence.

 

  • El Data Warehouse se implementa siempre sobre un Sistema Gestor de Bases de Datos, y para las cargas periódicas de datos que se realizan sobre él desde diferentes orígenes se pueden utilizar herramientas ETL, que permiten enlazar la base de datos con los diferentes orígenes, definir las transformaciones que hay que realizar para la integración de los datos, y programar o automatizar las cargas periódicas.

 

  • Para la explotación se utilizan diferentes herramientas, cuya clasificación se puede realizar en función del perfil profesional de la persona que las utiliza.

- Las clásicas herramientas de reporting son para usuarios de diferentes departamentos que necesitan explotar en su trabajo diario una información concreta.

- Para usuarios de perfil más analista, o incluso directivos se han creado las herramientas DSS (Decision Support Systems), o sistemas de soporte para la toma de decisiones. Podrían considerarse como herramientas de reporting, pero que ofrecen una serie de funcionalidades que permiten a los usuarios relizar análisis bajo diferentes puntos de vista de los datos que están examinando. Permiten la modificación y personalización online de los informes, y la navegación por los datos seleccionados a diferentes niveles de detalle según dimensiones previamente definidas.

- Para los directivos de nivel superior existen herramientas de Cuadro de mando, que no dejan de ser informes, pero que permiten agregar la información de manera que una sola página sea suficiente para el directivo para evaluar el estado de la empresa en lo que a él le concierne; estos informes tienen que ser visuales, simples, i a la vez muy informativos.

 

  • Finalmente, cuando se pretende obtener el máximo de información, o más bien conocimiento, de los datos de la empresa, entran en juego las herramientas de Minería de Datos, o Datamining, que, siempre contando con la experiencia de un analista de negocio que pueda parametrizarlas y crear un modelo persiguiendo unos objetivos concretos, realizan una explotación de los datos existentes en busca de nuevas relaciones ocultas, agrupaciones o conclusiones que a primera vista, o con un análisis de otro tipo habrían pasado desapercibidas.

 

Viendo toda la funcionalidad que deben cubrir las herramientas de Business Intelligence orientadas a la explotación de un sistema de Data Warehouse no es de extrañar que muchas empresas se echen las manos a la cabeza cuando se plantean la implantación de un sistema de este tipo y consultan los precios de las licencias de las diferentes Suites existentes en el mercado.

 

Si el coste de estas licencias es una barrera importante, sobretodo para las pymes, una opción interesante es la de la utilización de herramientas de Open Source, o Código Abierto, que no tienen coste en cuanto a licencias, aunque sí pueden tenerlo si se necesita soporte y mantenimiento de las mismas. Tampoco hay que olvidarse que las licencias de software no tienen porqué representar el mayor gasto en la implantación de un sistema de Data Warehouse.

Una Suite bastante completa, de código abierto, y que también ofrece servicios de soporte en sus versiones profesionales, es la llamada Pentaho, poco conocida hasta ahora pero que seguro que va a dar mucho que hablar en breve. Se pueden consultar sus características en pentaho

hola conoceis las

hola conoceis las herramientas Trillium, Dataflux o Firstlogic? Si conoceis alguna podrías explicar un poco su funcionamiento (como interactua con la base de datos etc)

Trillium

Te puedo contar que en un proyecto de depuración de datos de una gran empresa del sector energía en el que yo participé se estuvo evaluando la utilización de Trillium, pero no se llegó a comprar, se optó finalmente por continuar implementando internamente (con procedimientos PL/SQL) los procesos de depuración.

La gente de Trillium preparó una demo conectando con las bases de datos Oracle de la empresa, recuperando los datos a tratar, y ofreciendo al poco tiempo resultados sobre los datos tratados.
Yo no estuve presente ni en la presentación de resultados ni en la evaluación, y la herramienta sólo la utilizaron los consultores que preparaban la demo. Lo único que puedo decirte es que era bastante flexible, todo el proceso lo realizaron en pocos días (y allí se manejaban volúmenes importantes de datos), y casi sin necesidad de soporte funcional en cuanto al modelo de datos.
Creo que devolvió resultados aceptables, aunque no lo suficiente como para desbancar a los procesos que estábamos haciendo a medida.

Otro factor importante es el precio de las licencias, ahora no sé si ha cambiado, pero hace dos o tres años el coste de las licencias era bastante elevado en comparación con otras herramientas.

Busqueda con el motor de Google

Google