Big Data aplicado al Business Intelligence

¿Cómo encaja el Big Data con el BI? Hablando de BI yo siempre he visto el visto el Big Data como un origen de datos más para el Data Warehouse, pero con todo el bombo que se le está dando a esta tecnología a veces he llegado a entender que el Big Data iba a sustituir al Business Intelligence. Incluso una vez tuve que escuchar en una conferencia sobre Big Data, y por boca de una persona que trabajaba con Big Data en una universidad la atrevida frase de 'Las bases de datos relacionales están muertas'.

La verdad es que me interesa más la opinión de consultores que trabajan en proyectos de empresa día a día, y conocen las necesidades y las soluciones que se pueden aportar en el mundo real, o al menos en el empresarial, que la de supuestos visionarios que se emocionan tanto con las nuevas tecnologías que descubren que piensan que todo lo demás va a desaparecer.

El libro verde del BigData

Esa visión 'con los pies en la tierra' la he encontrado muy bien recogida en El libro verde del BigData, un libro que la consultora StrateBI escribió hace ya un tiempo para compartir su conocimiento sobre esta tecnología, y su relación con el Business Intelligence y con las bases de datos.

Como en StrateBI son especialistas en BI con software libre, especialmente Pentaho, todo el software que se menciona en el mismo es Open Source, y para los ejemplos de integración de Big Data en flujos de datos se utiliza Kettle, la herramienta de ETL open source que forma parte de la suite de Pentaho (En la suite se llama Pentaho Data Integration).

En cualquier caso, volviendo a la pregunta inicial, aunque recomiendo la lectura del libro completo, reproduzco a continuación el capítulo 'Big Data.. ¿y esto que es?: Conclusión Mundo BI', que creo que responde perfectamente a la cuestión de cómo encaja el BigData con el Business Intelligence, y con las bases de datos tradicionales:

 

Big Data.. ¿y esto que es?: Conclusión Mundo BI

Se puede ver que se disponen de nuevos recursos para poder atacar a toda esta ingente cantidad de datos y a los diferentes problemas vistos.

Pudiendo elegir nuevos tipos de BD que se ajusten a nuestro problema o configurando el sistema base que permite crear trabajar con transparencia los datos sobre un cluster y tener procesamiento y almacenamiento de datos en paralelo de forma sencilla. Esto no sustituye a las BD Relacionales, sino que son herramientas que sirven para poder optimizar procesos.

En el campo del BI lo podemos situar en 3 partes: como fuente de datos, como Stage de nuestro sistema o como DW final al cual atacaremos

  1. Fuente de datos.
    Que salgan conectores a BD NoSQL desde herramientas ETLs o BI es vital en muchos proyectos BI pues ahora se empiezan a observar en empresas que prescinden de las BD Relacionales en sus sistemas y solamente tienen estos nuevos tipos de BD. Por ejemplo, hay muchas empresas que están usando MongoDB para guardar datos no estructurados, por ello, uno de los grandes retos para un consultor BI es poder obtener esa información.
  2. Stage.
    El ecosistema Hadoop consiste en crear una base para poder escalar aplicaciones o aplicar MapReduce a nuestras fuentes de datos. Estas aplicaciones pueden ser BD las cuales funcionen de forma distribuida en el sistema de archivos HDSF. Por ello, para los consultores es una opción el tener un stage donde se vuelquen todos los datos historicos y después se hagan agregaciones (MapReduce) de forma distribuida en nodos y obteniendo un resultado final el cual, como opción, podemos cruzar con otra fuente de datos estructurada y dejándo el resultado final en un DW. 
  3. Datawarehouse
    La finalidad de todos los proyectos BI es poder analizar los datos. Además de las anteriores opciones, podremos tener un ecosistema Hadoop el cual sirva de soporte para una BD distribuida que funcione como almacén de datos analítico al cual atacaremos desde nuestra herramienta BI con cubos, informes o dashboards. Con esto, se ganaría tener todos los datos de forma distribuida y que a la hora de realizar consultas se pueda tener mayor velocidad, si necesitamos más, se añaden más nodos que queramos al cluster.

Todos los enfoques son válidos, podemos tener un informe que se genere directamente atacando a un MongoDB, podríamos tener informes que ataquen a un DW en Hadoop o informes que ataquen a una estrella en una BD Columnar que recogiese datos que provienen de un ecosistema Hadoop y cruzando esta información con smalldata.

 

Me gusta el artículo, más que alimentar el debate BI vs BD mira las ventajas de combinar ambos paradigmas.

 

Me parece muy útil, pero hay que tomarlo con pinzas. Me da la impresion de que hay una burbuja montado con esto de BigData que acabará explotando con cantidad de "ejpertos" vendiendo humo. He llegado a ver un fichero de excel con 2 millones de registros bautizado como excel Big Data. Se pueden hacer cosas muy útiles, pero me da la impresion que hay más oferta de soluciones que necesidades en empresas y se les mete a las empresas por los ojos el Big Data y creen que va a ser la panacea.

 

Mi único contacto directo, aparte de un curso, con Big Data es con un proyecto para optimizar procesos SAS usando PIG. Lograron reducir la ejecución de un proceso de 18 horas a unas 2 horas.

Lo que no contaron era que la potencia del cluster de Hadoop era 4 veces la del servidor SAS y el programa SAS estaba muy muy muy mal programado. Con un refactoring del proceso SAS fácilmente se hubiera reducido a la mitad su ejecución y metiendo algo más de "músculo" al servidor SAS se podría haber llegado a un resuiltado muy parecido con menos coste.

En respuesta a por cmateos

Estoy muy de acuerdo contigo, oyes hablar a según quién de Big Data y da la sensación de que ahora todo sea Big Data, o que el Bigdata vaya a sustituir a todo lo demás, cuando en realidad es una tecnología que sólo es adecuada en determinadas condiciones, aunque el nombre esté teniendo tanto tirón.

Yo tambien he visto en alguna conferencia hablar de Big Data y poner de ejemplo unos excels que integraban datos de varios puntos, algo que ni siquiera era BI. Seguramente esta tecnología va a seguir evolucionando, y puede que sea la que tenga un mayor crecimiento, pero estoy seguro de que va a ser eso, sólo una tecnología que hay que utilizar sólo cuando merece la pena, y que irá mejor para determinados proyectos, pero para otros, que de momento son la mayoría, servirá como mucho de complemento, o no aportará ninguna ventaja adicional.

Yo de momento prefiero seguir 'con los pies en la tierra' con el Business Intelligence y las bases de datos relacionales, y me tomo el Big Data o las bases de datos NoSQL como otra fuente o destino de datos, interesante y con muchas posibilidades, pero sólo porque los datos se encuentren así, o para conseguir mejoras de rendimiento o ahorro de costes en algunos casos. Quizás sea porque mi orientación no es muy de sistemas, y me gustan bastante las metodologías, como las que existen para crear un Data Warehouse para proyectos de Business Intelligence, y con el Big Data oigo hablar mucho, pero aún no conozco ninguna metodología para crear sistemas de Big Data con objetivos concretos.

Lo que sí veo muy positivo es que al menos con lo que le gusta hablar a todo el mundo sobre Big Data y Data Science, el interés por el tratamiento de datos para obtener conocimiento, todo un clásico aunque se maquille con nuevos términos, no para de crecer, y algo que parecia muy minoritario ahora está interesando a todo el mundo, y también a las empresas, claro, que le están dando la importancia que se merece.