Consideraciones procesos ETL en entornos Big Data: Caso Hadoop

Procesos de ETLEn el presente post pretendemos mostrar la problemática que con frecuencia encontramos en los procesos de extracción, validación y carga de datos en los entornos Big Data. Un proceso ETL tradicional, extrae datos desde múltiples fuentes origen, después los valida, normaliza, realiza determinadas transformaciones y vuelca los mismos en un entorno datawarehouse para su posterior análisis. Cuando en los datos fuentes, tenemos volúmenes altos, una frecuencia de actualización alta en origen o bien son datos no estructurados, estos procesos ETL suelen tener problemas.. 

Y los ganadores de los 3 ejemplares del libro "Big Data Analytics with R and Hadoop" son...

Sorteo de ebooks de DataprixTenemos el placer de anunciar que acabamos de realizar el sorteo de 3 eBooks de Big Data Analytics with R and Hadoop en la web de sorteos 'sortea2', y de entre los 8 participantes que han aportado con un usuario registrado sus comentarios sobre el interés que para ellos tiene el libro, los 3 ganadores son...

Superar el reto de la Tecnología Actual. El sector en la actualidad

CTO de SageEl mercado actual vive un cambio de lo antiguo a lo nuevo. Por un lado, tenemos empresas actuales que operan con soluciones instaladas. Sus soluciones han de modernizarse para que puedan aprovechar las ventajas que ofrecen las nuevas tecnologías, y garantizar, a su vez, que mantienen las cualidades que resultaron atractivas para el cliente en primer lugar..

Por Klaus-Michael Vogelberg, Group Chief Technology Officer de Sage

Reseña de Big Data Analytics with R and Hadoop

Big DataEstos días he estado leyendo el libro Big Data Analytics with R and Hadoop, de Vignesh Prajapati, un libro que explica cómo integrar el paquete de análisis estadístico R y la plataforma de Big Data Apache Hadoop, para romper la barrera de la mayor limitación de R, que es la limitada cantidad de datos que acepta como juegos de datos para procesar.

Combinando estas dos herramientas open source se obtiene una potente plataforma de analítica, con la que se pueden aplicar operaciones de estadística e inteligencia artificial sobre grandes conjuntos de datos..