Consideraciones procesos ETL en entornos Big Data: Caso Hadoop

Procesos de ETLEn el presente post pretendemos mostrar la problemática que con frecuencia encontramos en los procesos de extracción, validación y carga de datos en los entornos Big Data. Un proceso ETL tradicional, extrae datos desde múltiples fuentes origen, después los valida, normaliza, realiza determinadas transformaciones y vuelca los mismos en un entorno datawarehouse para su posterior análisis. Cuando en los datos fuentes, tenemos volúmenes altos, una frecuencia de actualización alta en origen o bien son datos no estructurados, estos procesos ETL suelen tener problemas.. 

Reseña de Big Data Analytics with R and Hadoop

Big DataEstos días he estado leyendo el libro Big Data Analytics with R and Hadoop, de Vignesh Prajapati, un libro que explica cómo integrar el paquete de análisis estadístico R y la plataforma de Big Data Apache Hadoop, para romper la barrera de la mayor limitación de R, que es la limitada cantidad de datos que acepta como juegos de datos para procesar.

Combinando estas dos herramientas open source se obtiene una potente plataforma de analítica, con la que se pueden aplicar operaciones de estadística e inteligencia artificial sobre grandes conjuntos de datos..

Introducción a Hadoop y su ecosistema

Ecosistema de HadoopSi miramos alrededor nuestro, vemos que cualquier dispositivo que usamos genera datos, estos pueden ser analizados actualmente. De esta gran cantidad de datos que tenemos a nuestro alcance, sólo el 20% se trata de información estructura y el 80% son datos no estructurados. Estos últimos añaden complejidad en la forma que se tienen que almacenar y analizar.

Hadoop aparece en el mercado Big Data como una solución para estos problemas, dando una forma de almacenar y procesar estos datos..

Entrevista con Luca Zurlo, director de Jaspersoft para el sur de Europa

Luca Zurlo

Luca Zurlo es Director para el Sur de Europa de Jaspersoft, la compañia que ofrece la extendida suite de Business Intelligence open source.

Con motivo de la presentación en el evento Big data 2012 de novedades en la suite para trabajar con Big Data, y del acuerdo firmado por la compañia con el grupo tecnológico GMV, que convierte a esta compañia en el primer partner de Jaspersoft en España, Luca Zurlo nos concedió esta entrevista.

Construyendo un Sistema de Business Intelligence con datos estructurados y no estructurados

Hadoop y KettleUno de los puntos que han cambiado la forma en que se hace y hará Business Intelligence es la eclosión de una gran cantidad de datos que anteriormente no se analizaban. Ahora es posible combinar y analizar de forma conjunta, tanto datos estructurados (relacionales, legacy, dbcolumn, etc...) con no estructurados (Hadoop, MapReduce, NoSQL), permitiendo alcanzar cantidades enormes de datos.

La oportunidad de los Big Data

Brian Gentile, CEO de JaspersoftDurante décadas, las organizaciones se han esforzado por gestionar sus datos con eficacia. Sin embargo, para guardarlos utilizaban almacenes de datos muy frágiles, que se deterioraban con demasiada facilidad. Como resultado, no conseguían extraer la información que necesitaban para tomar decisiones estratégicas sobre la dirección del negocio. Este ha sido el eterno problema de muchas empresas en todo el mundo.